【摘要】:大數據時代的研究邏輯,對傳播學研究形成了新的沖擊,傳統的文本分析方 法,已經不能滿足對樣本數量的宏闊和數據挖掘深度上的雙重要求。語料庫的研究方法 在數據新聞、輿情監測和學術研究等領域都可以得到廣泛的應用。通過語料庫這種結構 化的文本數據來開展的量化研究,在國內外新聞傳播學界都屬新鮮待開發的領域。
【關鍵詞】:大數據 語料庫 文本數據 語義挖掘 定量研究
在新聞傳播學視野之下,大數據的分析思維正在對我們的研究形成沖擊,比如新聞業務將實現一些方向性調 整,趨勢預測性新聞和數據驅動型深度報道分量增加。對 於輿情研究來說,問卷發放和小組訪談等傳統的民意調查 方法,已經不能滿足基於社交媒體平台的海量信息處理要 求。新聞傳播學領域的研究面臨一個共同問題,即文本分 析方法的創新。基於大數據的分析思維,文本也是一種有巨大潛在價值的數據。但是傳統的文本分析手段拘泥於有 限的樣本數量和定性研究的窠臼,無法滿足大數據時代對 內容挖掘上廣度和深度的要求。在這種情況下,來源於應 用語言學領域的語料庫分析方法的介入,能夠使結構化文 本數據庫的構建成為可能。再結合語言學、修辭學領域的內容分析手段,能為我們從研究范式到研究方法、工具上都提供一些新思路。
一、大數據時代對新聞傳播學研究范式提出的新課題
(一)新聞實踐領域
隨著社交媒體的應用和智能手機的普及,人人都可以是事件的目擊者和發布者,傳統媒體新聞報道在原創性和獨家性方面的優勢已不復存在。大眾傳媒作為社會 的記錄者與傳播者的傳統定位及面向所有受眾的粗放式 信息傳播方式,已越來越不能滿足受眾對於精准信息和 定制內容的需求。
大數據時代,最重要的是數據的開放性,其被壟斷的可能性很小,公共雲、公共數據庫到處存在。媒體既要生產自己的數據,更要會用、用好公共數據。這些公 共數據不僅包括數字信息,也包括大量文本內容。要使 用這些公共內容,就需要有對海量信息的整合能力以及 對潛在信息價值的挖掘能力,並需用可視化工具把結果 精准地呈現出來。
(二)輿情研究領域
在研究視角上,傳統的輿情研究大都局限於比較表 層化的話語研究和事件研究,沒有深入挖掘公眾的思想、 行為和情感方面豐富的內涵和規律性信息。而且受傳統的 調查、訪談方法自身的局限性影響,很難進行受眾心理圖譜、行為圖譜和社會關系圖譜這樣復雜的語義關系的繪制和分析。
在研究時距上,目前的輿情研究以共時性研究為主, 歷時性研究缺乏。但是,輿情熱點的變化具有年輪效應,隻有橫向的共時性分析是不夠充分的,沒有對公眾輿論的歷時性演變和輿情發生機制的縱向研究,我們在認識和行 動上的方位感就會不夠客觀和真實。
在採集方法上,現有的輿情監測和分析軟件的同質化程度較高,採集的文本大多是基於互聯網社交媒體, 分析結果的呈現方式也比較相似。在炫目的可視化圖景 背后,沒有對文本數據的深度分析,而這種深度分析要 基於對大量文本的內容挖掘和整合,這就需要經過結構化處理的文本數據庫來支持。輿情話語的表達亂象紛 繁,真偽並存,既需要小型的基礎文本數據庫來深度挖 掘某類熱點專題,也需要大型合成文本數據庫對輿論走向和趨勢進行宏觀把握。
(三)傳播學學術研究領域
傳統的傳播學文本分析,主要以框架分析、符號分 析等定性分析方法為主,但這兩種分析主要集中於意識形 態、修辭方式等方面,不夠客觀。而文本內容,特別是輿 論研究的文本內容,有零散化、碎片化的特征,在拉斯韋 爾的5W裡面, say what(文本內容研究)的問題常常被 人忽略。雖然有一些專門的詞頻統計分析軟件,可以完成 對高頻詞和低頻詞的統計分析,但在語義深度挖掘方面仍 然有待開發。我們需要找到一種常規的工具,可以把學術 文本進行結構化方法上的整合,通過把文本分類、合並, 提取常用關鍵詞和核心詞,按研究主題分門別類地進行儲存,為對比研究、專題研究等領域提供更加嚴謹和結構化的文本數據庫支持。
二、語料庫分析:體現大數據思維的研究方法
語料庫屬於應用語言學的范疇,是指按照一定的語言學原則,運用隨機抽樣方法,收集自然出現的連續 語言運用文本或話語片段而建成的、具有一定容量的大 型電子文本庫。該方法在國外已有三十年以上的研究歷 史,如今也擁有較為成熟的語料庫構建與檢索工具,比如 Wordsmith、AntConc等。國內語料庫的研究亦開展近二十 年時間,研究范疇基本被劃分為詞匯、語法、語篇、語用 和文體研究等五個方面。利用語料庫作為研究工具,可以 從微觀層面對新聞傳播學領域的文本內容進行研究。在語言學領域,語料庫的研究方法已日趨成熟,隻不過尚未走進新聞傳播學的視野,這是因為新聞傳播學在文本內容分析方面欠缺新的方法,需要語料庫這類研究方法的介入。
三、語料庫研究方法的應用領域
(一)在新聞實踐領域的應用
1.史料檢索語料庫。即把新聞報道的原創內容和歷史資料數據化,變成媒體的核心資產。在新聞傳播渠道 日益扁平化的今天,建立一個受眾易於發現和易於使用 的史料數據庫,是報紙生存下去的核心競爭力之一。另 外還可以採集一些外部數據來作為語料庫的擴充部分, 如通過合作、購買、交換、抓取等方式來獲取來自其他 媒體的內容和來自互聯網平台用戶創造的內容,並完善 語料庫的資料存儲、檢索查詢和版權管理,為進一步轉 化利用打好基礎。
2.政府公開信息語料庫。彭博社亞洲區新聞資訊主 編Lee Miller指出:數據驅動型報道中的數據都可以並且應 該從公開信息渠道中獲得。所謂的信源和數據,並不一定 要像“維基解密”或斯諾登那樣從秘密渠道獲取,而是應 該從公開信息中挖掘。這些信源包括政府機構網站中日常 發布的政策信息和每年重大會議的政府工作報告﹔大眾媒 體官方網站上的報道和專題﹔官方媒體的新媒體移動終端 發布的內容等等。根據政治、經濟、教育、公共衛生等不 同主題,建立可供隨時檢索的公開信息語料庫,能夠為媒 體報道節約大量搜尋數據和素材的人力和物力。
3.“數據博客”語料庫。在基於社交網絡平台的節 點式傳播基礎上,來自草根階層或者是專業領域人士的博 客、微博的內容和數據,也能成為新聞線索的來源和報道 內容的基礎。因此,我們可以採集那些比較有影響力的博 客或微博的內容,通過初步的結構化處理,轉換成隨時可 供查詢和檢索的民間信息語料庫,供數據驅動型的新聞報道作為參考,也可以作為普通讀者查詢的數據庫。
(二)在輿情研究領域的應用
通過建立動態輿情監測語料庫,提供可供檢索的關 鍵詞數據庫,結合修辭學、語言學的分析方法,分析輿論 話語表達、公眾社會關系、群體心理特征等。首先按照一 定的規則和專題對收集的輿情文本內容進行分類和標注, 然后是文本合並和關鍵詞提取。在語料處理方面要注意兩 點:一是小型基礎語料庫的支撐和建設,大數據庫作為信息母體,需要若干小型數據庫作為檢索源﹔二是中心度和 關聯度結構化的算法,大數據庫作為一種非結構化的數 據,需要進行一些結構化的解讀和梳理,這就需要相關的 數據結構化算法,這種算法可稱之為數據模型。
1.輿情熱詞語料庫。輿情熱詞語料庫主要服務於輿 情監測,解決重大和突發事件中引爆點和關聯度的關系。 我們可以通過關注熱點內容,搜集熱點事件的語料,建立 輿情熱詞數據庫,找出引發輿情關注的引爆詞。並結合語 詞情感分析、修辭分析手段,來劃分引爆詞的中心度級別 和關聯度級別,在此基礎上設計熱詞發現模型,達到輿情 預警和預測的目的。
首先我們根據研究規模來選取一定數量的樣本,然后 用語料庫構建工具對選定文本進行標注和結構化處理, 對輿情關鍵詞進行再次統計並生成核心主題詞表數據 庫,從中找出輿情引爆詞。需要特別指出一點,核心主 題詞不一定是詞頻最高的那個詞,而是輿情敏感度,也 就是熱度最高的詞,即輿論的中心詞。中心詞是輿論的 引爆點,實現了引導公眾把輿論由說變成做的過程,同 時也是關聯度最高的詞,從最大限度上關聯其他的主題 詞並形成語義網絡。
關於輿情熱詞的分析,有兩個關鍵點:引爆點和關聯 點。由引爆點可以導出對引爆詞的挖掘﹔由關聯點可以導 出對連接詞的發現﹔引爆詞具有意見領袖的作用,迅速擴 大熱詞的影響力並號召公眾付之行動﹔關聯詞具有搬運工 的作用,能夠連接各種關系詞,形成主題詞網絡。基於引 爆詞的挖掘和連接詞的發現,輿情熱詞分析可以劃分出兩 個維度:中心度分析和關聯度分析,進而設定中心度指標 和關聯度指標,並設計指標體系的計算公式,形成具有引 爆性質的熱詞理論模型。這樣就可以輿情監測,隨著熱詞 強度的提高,熱詞的范圍是不是在擴大,社會的緊張度又 如何,進而往前預推,達到預警的目的。
2.意見領袖修辭特征詞語料庫。在一些官方傳統媒 體失語或報道不及時的情況下,網民習慣於打開網絡意見 領袖的博客或追逐微博上的隻言片語,從他們那裡尋找解 讀、剖析和批判。意見領袖的觀點、意見情緒能為受眾所 接收,能引起受眾的共鳴,會產生巨大的輿論影響,這與 他們個人的話語表達風格、對某個領域的專業知識和對某 類問題的把握能力密不可分。因此,通過對意見領袖的觀 點、態度關鍵主題詞等內容的提取,可以從中總結某個或 某類意見領袖的修辭特點及個人特征,形成一定的辨識度 依據﹔進而還可以從中尋找具有心理喚起度和社會動員能 力的詞,為輿論引導提供來自民間輿論場的參照。
3.傳播學學術主題詞語料庫。在傳播學內容研究 領域,可以嘗試用語料庫來完成對常規5W領域的深化研 究,尤其是引向微觀層面。越是細小的不易覺察的,越是 人們忽視的,也越是研究者值得進軍的領域,而微觀的研 究恰恰能夠揭示很多深度的東西。所以傳播學主題詞語料 庫可以做的,恰恰是把非結構化的文本數據結構化,根據 研究主題設定結構化的方向、結構化的坐標、結構化的指 標,來完成研究的目標。比如傳播史方面的研究,我們可 以找到一個時間節點,搜集與這一節點同步的史實資料, 然后把文本進行整合、分詞、標注,提取與這一歷史節點 關聯的年份詞、學者名稱、學術觀點、專門術語,構建主 題詞語料庫,繪制這一時期的主題詞學術地圖。
4.受眾特征關鍵詞語料庫。利用微博進行廣告傳 播,有著天然的精准投放優勢。我們可以利用語料庫來分 析挖掘受眾群體特征,繪制不同目標群體的心理圖譜、行 為圖譜和社會圖譜,從而實現對目標接觸點的精准把握, 找到受眾的需求交叉點。這種語料庫分析的應用原理來自 於特征聚類,以此為依據,來向具有相似心理需求的受眾 推送受本群體認可的資訊和產品廣告,從而達到對品牌接 觸點和受眾需求交叉點的精准把握。
四、語料庫分析在傳播學研究方法論上的創新點
工具性的研究方法,要和研究內容的屬性相匹配﹔要 把主觀感覺的內容變成可靠結論,從而挖掘出研究對象的 潛在價值。語料庫的分析方法,符合大數據的思維邏輯, 通過對海量文本數據的處理,可以對文本內容進行深入挖 掘,而不僅僅局限於表層研究或定性分析。以微觀偏中觀 的修辭手段和語義分析的研究為基礎,通過語料庫這種結 構化的文本數據來開展量化研究,這在國內外新聞傳播學界都屬新鮮待開發的領域。 語料庫的研究,本質上也是一種跨學科的研究,綜合了語言學、修辭學、計算機科學和統計學各學科的知識。 當前國內外大型語料庫的建設都具有動態性的特點,即語 料會定期更新,基於它可以豐富傳播學量化研究的方法, 發現關鍵詞和主題詞的歷史性演變,從而尋找其中的年輪 效應,為學術文本和實踐領域的研究提供縱向的和歷時性 的參照物和坐標系。
本文系中國人民大學科學研究基金(中央高校基本科研業務費專項資助)“基於修辭傳播學語料庫的輿情熱詞研究”(項目編號:14XNH111)的研究成果之一。
(喻國明系中國人民大學新聞學院教授、副院長﹔李慧娟系中國人民大學新聞學院博士研究生)
參考文獻
[1]彭蘭.大數據時代,新聞業面臨的新震蕩[J].編輯之 友,2012(1).
[2]官建文,劉揚,劉振興.大數據時代對傳媒業意味著什 麼[J].新聞戰線,2012(2).
[3]李彪.大數據視域下社會輿情研究的新境界.編輯之 友,2013(6).
[4]人民網輿情辦公室.如何應對網絡輿情——網絡輿情 分析師手冊[M].北京:新華出版社,2011.