人民網
人民網>>傳媒>>傳媒期刊秀:《青年記者》>>2019年7月上

大數據時代輿情的內涵與分析方法

李彪
2019年11月21日15:22 |
小字號

來源:《青年記者》2019年7月上

人類社會進入一個以網絡社會為特征的社交網絡時代,普羅大眾成為新聞信息的發布者、傳播者,社會的信息生產不再由專業的大眾傳媒機構壟斷。這一過程深刻改寫著輿論的生態,促使傳統輿論概念的改變,同時在研究方法上也出現了革新。

輿情的概念與內涵

(一)從輿論到輿情:輿情的概念與內涵演進。在所有輿論概念中大家比較認同的是孟小平有關輿論的定義,其認為:“輿論是公眾對其關切的人物、事件、現象、問題和觀念的信念、態度和意見的總和,具有一定的一致性、強烈程度和持續性,並對有關事態發展產生影響。”①這個概念兼顧了輿論的主體(公眾)、輿論的客體(關切的人物、事件、現象、問題和觀念)與輿論的本體(信念、態度和意見),還強調了輿論的一致性、持續性和強烈程度等,是比較完善和嚴格的輿論概念。

網絡時代來臨后,輿論這一概念被逐步弱化,被“輿情”所取代。輿論到輿情僅一字之差,輿情中的“情”,一是強調網絡時代輿論變化的速度,“情”字凸顯輿論是變動的﹔二是強調網絡時代輿論具有很大的感性特征,即其中夾雜著大量的情感與情緒。網絡表達短文本、口語化,使輿情表達出現了最大的變化就是情感因素和感性元素的增多,因此,“情”的第二個含義是情緒或情感。

基於此,輿情是指在一定的社會空間和歷史時期內,圍繞中介性社會事項(可以是人、事,也可以是價值、觀念、制度、規范)的發生、發展和變化,作為輿情主體的民眾對相關社會事項的群體性情緒、意願、態度和意見的總和,由於網絡是輿情的主要表達平台,輿情必須是表達出來的言論。

(二)輿情的類別。目前對輿情的劃分比較多元,按照內容可分為政務輿情、經濟輿情、社會輿情、民生輿情、文體輿情等﹔按照關涉主體可分為公權力輿情、企業輿情、事業單位輿情、個體輿情等﹔按照預警級別可分為紅色輿情、橙色輿情、黃色輿情與綠色輿情等﹔按照發生的范圍可分為國際輿情、全國輿情、省區輿情、城市輿情、縣級以下輿情等﹔按照發源地可分為媒體首發輿情、網民爆料輿情等。在日常的輿情分析操作中,中國人民大學輿論研究所一般按照內容將輿情劃分為社會民生、反腐倡廉、文化教育、涉警涉法、社會安全、時事政治、災害事故、企業財經、公共衛生等類別。隻要存在內在一致性,各類輿情劃分范圍不交叉,能互斥、窮盡即可。

輿情軟件系統平台:輿情大樣本定向分析法

目前關於輿情分析的研究方法花樣迭出,但概括起來主要有以下兩種基本類別,一是大樣本定向分析,即利用大型輿情軟件系統平台來實現﹔二是小樣本多元分析,即通過最新的研究方法進行局部樣本的數據採集和分析。

(一)輿情軟件系統平台的基本原理。近年來,輿情監測手段層出不窮,但輿情監測的底層方法沒有根本的改變,即均通過網絡爬虫程序來實現數據採集。基本原理如下:一是構建需要監測的樣本庫(包括微博、微信公眾號、論壇、貼吧和網站等)作為監測數據源﹔二是通過網絡爬虫進行數據抓取並下載到本地服務器﹔三是在本地服務器進行數據的消重和聚合﹔四是對“清洗”過的數據進行圖像等智能化、直觀化呈現。輿情監測軟件監測微博中的數據,需要向新浪申請有償的API(Application Programming Interface,應用程序編程接口),方可訪問並抓取數據(不然會對網絡爬虫關閉)。輿情監測軟件可以7×24小時對互聯網信息實時監測、採集,並對獲取的信息進行全面檢索及自動消重,進行輿情主題演化分析、時間趨勢分析、話題傳播分析。目前國內比較大的輿情監測軟件服務商有拓爾思、方正輿情、谷尼輿情和美亞輿情等。

(二)輿情軟件系統平台的發展趨勢。近兩年出現了新的趨勢,即從輿情軟件開發發展到雲平台搭建。輿情監測主要是基於單體的監測軟件而展開的,將軟件產品放置到客戶的本地服務器中,軟件商為其提供后期的軟件升級和支持服務。這種服務模式存在一定的弊端,由於各自為戰,服務器較為分散,數據採集和分析都比較零散,不利於展開大規模的數據處理和集約化輸出。而大數據與雲計算時代來臨,軟件服務逐步被搭建雲數據平台所替代,客戶可以通過網頁或客戶端遠程訪問,並可以通過一定的權限定制關鍵詞,進而實現輿情數據的抓取和直觀化呈現數據結果。

(三)輿情軟件系統平台的缺陷。一是輿情監測的效度和信度問題難以驗証,目前輿情監測最大的問題是無法論証自己的有效性,各家有各家的“黑盒子”,相對並不透明,手段和算法的不同勢必造成監測結果的偏離,到底誰家更准確,難有定論,依然有“盲人摸象”之虞﹔二是數據源的多寡一定程度上決定了輿情監測的精准度。目前輿情監測均是以樣本庫作為數據搜索源,不是基於全網進行輿情信息採集,實際上只是樣本量較大的局部數據,可能因數據源不全面而造成重要信息監測缺失,最終影響數據監測結果﹔三是在消重聚合環節,計算機還暫時無法取代人工,目前輿情監測軟件最大的區別在於后台的數據處理能力,但目前高層次的信息處理如情感判別和影響力評估等,計算機還不能完全取代人工﹔四是網絡爬虫自身的弊端也在不斷呈現,主要是關系數據越來越重要,而爬虫爬取的數據主要是碎片化的信息數據,關系數據往往被忽略,另外越來越多的網站對爬虫程序持不太友好的態度,一旦識別出來直接封閉端口,並且越來越多的社交網站如微信、豆瓣等不開放自己的數據抓取端口,很難抓取這些新興的社交平台的數據。

輿情小樣本多元分析法

在現實輿情分析研究中,不可能完全依靠輿情軟件平台進行數據抓取,一般由研究者根據研究對象的情況,進行必要的抽樣,利用python、R語言進行數據抓取,借助各種方法進行輿情分析。概括起來,目前主要有以下三種小樣本分析方法。

(一)基於關系的分析:社會網絡分析(SNA)。隨著社交平台崛起,“關系”逐步在虛擬網絡空間中成為一種基礎性資源和底層構架,“沒有一個自我是孤零零的島嶼,每個人都存在於關系網絡之中,而這個網絡比過去任何時候都來得更復雜、更流動”②。輿論信息基於社會關系網而傳導,而社會網絡分析方法恰恰是描述社會關系網並將之直觀化的重要工具,近幾年,社會網絡分析已成為輿論分析的重要工具和手段。

另外,傳統輿論調查方法的局限性進一步顯性化,正如弗裡曼(Freeman)指出的,“在過去的30年中,經驗社會研究主要由抽樣調查控制著。但是,如人們常常指出的那樣,調查是一種社會學的絞肉機,它把個體從其所在的社會情境中抽離出來,並確保研究對象之間不存在聯系”③。輿論抽樣調查有一個基本假設前提——人的“屬性數據”會決定人的言論和行為,但在關系網絡崛起的今天,人的言論與行為越來越受到其所在的社會關系、社會階層等“關系數據”的影響。社會網絡分析是測量與調查社會系統中各部分(點,node)的特征與相互之間的關系(連接,tie),將其用網絡的形式表示出來,然后分析其關系的模式與特征的一套理論、方法和技術。描述和測量行動者之間的關系或分析通過這些關系流動的各種有形或無形的東西如信息、資源等的方法,主要有圖論、社會計量學和代數方法。圖論適用於描述小型傳播群體的核心關系和團聚力等特征﹔社會計量學適用於研究結構等價性和“塊模型”關系﹔代數方法適用於對角色和位置關系的分析。在研究視角上可以大致分為兩種:關系取向和位置取向。關系取向主要研究的是社會行動者的社會聯結——密度、中介性、強度、對稱性、規模等﹔位置取向主要關注的是社會行動者之間社會關系的模式化,不同行為個體在結構地位上是否一致,強調用“結構等效”來理解人類行為。社會網絡分析目前主要使用的是Gephi、UCInet、Pajek、NETminer、MultiNet、NodeXL等軟件,其中用得最多的是Gephi、UCInet等。

(二)基於文本的分析:詞頻與語義網分析。輿論是由各類詞語構成的信息文本,文本內詞的多寡、詞與詞之間的聯系可以凸顯信息文本的價值觀、語意結構和社會訴求等,因此近年來很多研究者將詞頻分析、詞與詞之間的關系網分析等方法引入輿情分析之中。

1.詞頻分析法。分詞是文本挖掘的基礎,對於輸入的一段文本成功地進行中文分詞,可以達到計算機自動識別語句含義的效果。詞頻分析是對輿情文本中重要詞匯出現的次數進行統計與分析,是輿情文本語義挖掘的重要手段,也是文獻計量學中傳統的和具有代表性的一種內容分析方法。其基本原理是通過詞出現頻次的變化來確定輿情關注的熱點及其變化趨勢。至少在認知層面上,某關鍵詞被提及的次數越多表示表達者的訴求越集中與迫切。詞頻分析可以實現微博與微博聊天分析、新聞文本分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類分析等一系列文本分析。

詞頻分析的基本步驟是首先對文本進行分詞,分詞的基本前提是必須有一個相對比較完備的“字典”,“字典”的詞容量越大,分詞的精准度也就越高﹔分詞后計算關鍵詞的數量,即為詞頻。詞頻分析的工具目前越來越多,尤其是一些線上的工具,比較出名的有圖悅、紐扣詞雲、騰訊文智、新榜詞雲詞頻分析、Excel詞頻分析工具、易詞雲等,國外比較出名的在線工具是Tagxedo、WordArt、Wordle等。近年來,隨著各種編程語言的出現,利用Python語言進行詞頻計算的研究越來越多,一般使用Python中jieba包的中文分詞工具(https://pypi.org/project/jieba/)對對象文本進行分詞與詞頻計算。

2.社會語義網。社會語義網只是一種說法,主要是將各個高頻詞之間通過社會網絡分析工具連接起來,形成一個高頻詞關系網,進而推測話語文本的主要表達邏輯及關注熱點。具體來說有以下幾種不同的分析方法與手段。

一是共詞分析,共詞分析的基本原理是通過對一組詞項在一篇文本中共同出現的次數統計,並以此對這些詞進行聚類,反映出這些詞項之間的關聯強弱,進而分析這些詞項所反映文本的主題結構。一般來說,一個詞項對在同一篇文本中出現的次數越多,則表明該詞項對的關系越緊密﹔一個詞項對在大量文檔中出現次數越多,則說明該詞項對與文本之間的關聯性越強,共詞分析採用一套結構圖可以有效地展示詞項之間的關聯。一般來說,點的大小代表詞頻,節點越大詞頻越高,連線的粗細代表兩詞之間共現的次數,共現次數越多連線越粗。

二是聚類分析。基本思想是將變量按相似程度歸於同一群組,“物以類聚”,是共詞分析中比較常用的統計方法。根據一些能夠測量多個變量指標之間相似程度的統計量,以此為劃分依據,可以將各種不同相似度的變量聚合成不同的類別,再將它們的親疏關系用譜系圖的方式表現出來。在聚合的不同類別中,同一類別之內的變量彼此的相似度愈高愈好,而不同類別之間變量彼此的相似度愈低愈好。高頻關鍵詞聚類分析是對文本中高頻關鍵詞親疏關系的分析,體現出高頻關鍵詞相似性和相異性的分析圖譜,通過圖譜可以進一步挖掘作者意圖和社會語義等深層次信息。

三是詞的多維尺度分析。主要通過測量對象之間的距離來展現數據結構,運用低維空間中對象所處的特定位置,通過觀察這些對象之間的平面距離,可以了解它們之間的相似性。通過多維尺度分析,可以幫助研究者挖掘數據中的深層結構,通過軟件繪制的平面圖,能夠清晰地揭示出數據中的隱藏聯系。在多維尺度分析的結果中,被分析的對象呈現點狀分布的特點,圖中點與點之間的距離代表它們之間的相似程度,同時將相似度高的和關聯性高的對象聚集成一個類別,處在中間位置的對象,代表該對象的核心地位。

(三)基於情緒的分析:情感計算。情感計算是主體對某一客體主觀存在的內心喜惡傾向的計算方法。主要由情感傾向方向和情感傾向度兩個方面來衡量。情感傾向方向也被稱為情感極性,可以理解為用戶對某客體表達觀點所持的態度是支持、反對還是中立,即通常所指的正面情感、負面情感、中性情感﹔情感傾向度是指主體對客體表達情感時的強弱程度,不同的情感程度往往通過不同的情感詞或情感語氣等來體現。為了區分情感程度的差別,一般採取給每個情感詞賦予不同的權值來體現。

目前,情感計算方法主要分為兩類:一種是基於情感詞典的方法﹔一種是基於機器學習的方法,如基於大規模語料庫的機器學習。前者需要用到標注好的情感詞典,英文的詞典有很多,中文主要有知網整理的情感詞典Hownet和台灣大學整理發布的NTUSD兩個情感詞典,還有哈爾濱工業大學信息檢索研究室開源的《同義詞詞林》可以用於情感詞典的擴充。基於機器學習的方法則需要大量的人工標注的語料作為訓練集,通過提取文本特征,構建分類器來實現情感的分類。文本情感分析的分析粒度可以是詞語、句子,也可以是段落或篇章。

輿情分析方法的發展趨勢

(一)“文本+關系+情緒”的多元耦合分析。社交平台文本通常採用短文本形式,並且用戶發文具有隨意性,其語言的規范性非常低,不論用詞還是語法常常有悖於標准的語言規范,由此帶來文本表示的高維、稀疏、噪音等特性。這使得傳統的文本分析方法難以直接應用,對這類社會化網絡短文本如何進行有效建模和分析是未來輿情監測的難點與重要方向。另外,社交平台用戶通過互相關注建立起來的網絡關系是一種典型的社會網絡,該社會網絡既是用戶社會關系與興趣偏好的體現,又是輿情信息傳播的通道。如何將社交平台的文本分析與用戶的社會關系分析有機融合,進行語義分析和網絡結構分析,是未來輿情分析不能回避的問題。

(二)“地理位置+社會關系網”的綜合研判。地理位置數據的特點是多源、異構、高維、動態,這些特點使得地理位置大數據模式多變且關聯復雜,使得其各種信息(特別是物理空間信息與社會空間信息)的關聯映射成為必須。這方面的相關工作主要包括實體提取、主題建模、基於位置信息的搜索等。經過地理位置大數據信息的關聯映射和融合階段之后,需要對其有效表示才能進行進一步高效的群智認知及實際應用分析。張量(Tensor)作為一種有效的多源異構大數據一體化的表示方法,也得到了廣泛關注。鑒於深度學習和張量在大數據表示中的優異表現,近年來陸續提出了一些基於張量的深度學習方法,如波爾斯曼機、張量遞歸神經網絡、深度張量神經網絡等。

(三)“動態化+實時化”結構演進分析。社會關系網絡結構是輿情信息傳播的載體,但由於社會關系網中的個體不斷進出,社會關系網絡具有高度的動態演化性,直接影響和制約著輿情信息傳播過程。大量研究表明社會關系網絡結構的動態演化性是由結構的微觀變化決定的。對群體行為本質規律的理解離不開對社會關系網絡結構動態演化微觀機理的深入認識。對微觀結構演化認識的匱乏割裂了社會關系網絡結構和信息傳播之間的動態關聯,無法更好地認識群體行為的本質,做到精准化輿情預警。因此,建立社會關系結構的微觀動力學模型,進而對其結構進行動態把握和演化,是未來輿情預警研究的關鍵。

注釋:

①孟小平:《揭示公共關系的奧秘——輿論學》[M],中國新聞出版社,1989年版,第8-9頁

②Lyotard,J.The Postmodern Condition, University of Minnesota Press,1984,p131

③劉軍:《社會網絡分析導論》[M],社科文獻出版社,2004年版,第34-35頁

(作者為中國人民大學新聞學院副教授、中國人民大學新聞與社會發展研究中心副主任)

(責編:趙光霞、宋心蕊)

分享讓更多人看到

傳媒推薦
  • @媒體人,新聞報道別任性
  • 網站運營者 這些"紅線"不能踩!
  • 一圖縱覽中國網絡視聽行業
返回頂部