2022-11-18 文章來源: 點擊數:[]
外國語文研究中心成立20周年系列學術活動之一
11月15日晚上19:00,由外國語文研究中心主辦的外國語文研究中心20周年慶系列講座第一講在線舉行,主講嘉賓為國防科技大學博士生導師李德俊教授,講座題目為“語料庫驅動的話語分析:目標與方法”。講座由我校副校長王仁強教授主持,校內外師生300余人通過騰訊會議參加了本次講座。
講座伊始,李教授對話語(discourse)與文本(text)的概念進行了界定。接著,他對話語分析的常用理論:批評話語分析(CDA)、系統功能語言學(SFL)、評價理論(AppraisalTheory)及其相關的主要觀點、人物與著作進行了簡要介紹。隨后,李教授列舉了基于語料庫的話語分析的優點,包括可以降低傳統方法的主觀性、具有自動化的特征、可以對大文本數據進行分析等。
李教授詳細討論了話語分析的兩種方法:手動標注(hand-coding)和自動標注(computerized coding system to match texts to a coding dictionary)。前者是一種傳統方法,費時費力,標注結果的一致性與客觀性可能會受到影響,例如系統功能語言學(及物性語法)物質過程的標注;后者使用詞典掃描文本,對文本進行自動標注,是目前情感分析(sentiment analysis)的主要方法。隨后李教授評價道,以上方法都或多或少地采用了語料庫的方法或使用語料庫進行研究;CDA等采用語料標注,再使用檢索工具進行統計定量研究是典型的語料庫方法;情感分析需要在對大量語料進行分析地基礎上制定情緒詞表;標注的方法和詞表掃描的方法應當根據研究目的來選擇使用。
李教授緊接著深入闡釋了語料庫驅動的干凈文本分析(Corpus-driven Clean Text Analysis)。該分析符合學科的方向,需要遵循干凈文本原則(cleantext policy)。此類分析常用三種方法:關鍵詞和詞表的分析、共詞分析(Co-word Analysis)與搭配和詞語共現的分析。第一種,關鍵詞和詞表的分析旨在獲取內容、主題、焦點、實體、文本分類。通過該分析方法能夠確定文本的主題和實體群;通過統計高頻主題詞及其變化趨勢,能夠準確把握其熱點、發展脈絡與發展方向。第二種,共詞分析旨在獲取語義網絡、相關性。主題詞是對文章核心內容的濃縮和提煉,通過主題詞共現分析(共詞分析),可以發現隱藏在真實關系網背后隱藏的關系網絡。第三種,搭配和詞語共現分析旨在獲取立場、評價,涉及到的是短語學(phraseology),語料庫語言學研究中最重要的一個部分。詞匯之間主要有以下四類共現關系:搭配(collocation),類聯接(colligation),語義傾向(semantic preference)和語義韻(semantic prosody)。立場的初步釋讀就是解讀索引行。
在講座末尾,李教授對未來的研究方向提出了建議:采用語料庫進行話語分析想要取得更大的進步,基于干凈文本是我們努力的方向;要想讓語料庫對話語分析有更大的貢獻,在算法和工具上需要有更大的創新,機器學習是未來發展的方向。
王仁強教授對李教授的精彩講座進行了總結與點評,指出本次講座“理實并重,知行合一”,不僅有話語分析的相關知識介紹,更有結合具體研究問題的話語分析案例,還有語料庫的建設與使用方法。線上師生討論氣氛熱烈,師生們在留言區踴躍提出問題,李教授就這些問題進行了詳細解答。本次的講座拓寬了師生的學術思路和視野,對語料庫驅動的話語分析研究提供了重要的啟示,使廣大師生受益匪淺。
圖/文:外國語文研究中心