大數據下的輿情監測與預測

張冰清劉高見

2015年05月26日10:14 來源：視聽手機看新聞

摘要：Web2.0環境下，原有的輿情監測方式已難以適應現實需要。而大數據的特點契合了Web2.0的網絡環境和輿情研究的需要，能夠實現更准確及時且基於“關系”的輿情監測。同時，大數據技術對輿情預測也有著獨特的優勢，並具進行更高質量的輿情預測的潛力。

關鍵詞：輿情﹔大數據﹔數據分析﹔輿情預測

一、Web1.0與早期輿情監測

與即時通訊類的網絡應用不同，博客、個人空間、微博都具有一定的公共性質，並被統稱為自媒體。自媒體的興盛，使其成為熱點輿情形成的重要推動者，而網絡輿情也成為社會輿情的重要組成部分。

自媒體幾乎沒有准入門檻，同時又具有匿名性，使用者的媒介素養良莠不齊，很容易產生各種失范現象﹔自媒體也不像傳統媒體那樣容易監督，對於失范現象難以追溯源頭，同時給各方主體帶來影響輿論、把控輿論走向的機會，使得網絡輿情處於更加復雜的環境中。自媒體的網狀結構又決定了網絡輿情可以快速發酵，甚至在短時間內多次轉向，因此更加難以監控和把握。

而對自媒體勃興之后網絡輿情的監測，傳統的現場調查、訪問調查、問卷調查等方式收效不佳，早期曾經廣泛使用的網絡輿情監測手段也暴露出了越來越多的問題。早期的網絡輿情監測，主要是針對Web1.0設計的。互聯網發展至今經歷了兩個階段：Web1.0和Web2.0。兩者的主要區別並不在於技術規范或物理設備，而是用戶之間以及用戶和網絡應用之間的交互方式。

在Web1.0時代，互聯網內容主要由各大網站生產，用戶和網站的交互主要體現為尋找和接受相應的內容，用戶之間也隻能通過有限的方式進行散落聯系。早期的網絡輿情監測，就是針對這樣層次的交互而設計。流程大致是：一、通過相關樣本庫，把需要監測的網頁進行模板匹配，並設定為監測數據源﹔二、應用爬虫程序抓取數據，存儲到本地，再進行數據的淨化和簡略的分析﹔三、利用簡單的圖表模板和文字描述，呈現監測和分析的結果。①

早期的網絡輿情監測方式有一些原生的問題，譬如：一、由於處理能力有限，隻能抽取部分樣本進行監測，無法避免偶然誤差﹔二、文本分析算法的准確度、監測對象和系統模板匹配的程度、對數據的淨化，以及分析的算法等因素對於最后監測結果的准確度都有決定性的影響，無法避免系統誤差﹔三、將監測的對象簡化為獨立的信息元，欠缺分析網絡內容之間聯系的能力和預測能力。

早期的網絡輿情監測方式，盡管有很多問題，對Web1.0時代的離散的網絡內容和單向的交互方式來說還可以適用。隨著互聯網發展到了Web2.0時代，早期網絡輿情監測方式的局限性表現得日漸明顯，其監測功能已經弱化而無法適應新的輿論環境。

二、大數據技術下的網絡輿情監測

Web2.0時代最突出的特征就是更緊密的網狀結構。用戶自主生成內容使網絡內容生產者數量呈幾何級增長，用戶與網站之間雙向交互，用戶與用戶之間也在進行多渠道、多層次的立體的交互。Web2.0的網絡內容不再是離散的，具有強烈的“關系”屬性。這種基於各種強弱關系的網狀結構，也直接使網絡輿情能夠快速成型、發酵，短時間內可以多次轉向。Web2.0時代的輿情監測，更關注“關系”，能夠更快速、更准確地跟蹤輿情變化。這正是早期網絡輿情監測的缺陷。

新的輿論環境，需要加強網絡輿情的監測，而新的網絡輿情，需要新的監測方式。大數據技術下的網絡輿情監測，就是這樣一種新的方式。

自1980年以來，全球的數據存儲能力每40個月就翻一倍。②不斷進行量級上的增加的龐大數據量和數據背后蘊藏的信息，帶來了大數據時代。

大數據通常指的是龐大、復雜，難以用傳統的軟件工具來分析處理的數據集。對大數據的處理，又牽涉到從數據抓取、整理、分析、共享、可視化到存儲、傳輸等一系列問題。大數據集合常常來源於日常生活，與人的行動、交往有一定的同構性，部分條目直接附加了時間、地理等信息。可以說，在大數據的數據集合中天然蘊含著各種關系。因此，大數據集合能提供同數據量的若干小數據集合無法帶來的新信息。人們可以通過數據挖掘尋找數據之間的聯系，確立數據之間相關關系的規律，進而提供多方面的預測。

顯而易見，大數據處理技術的優勢，正契合了Web2.0時代的特點。正因為大數據在挖掘數據之間的關系、進行發展趨勢預測方面的能力，已經有很多機構借助其進行輿情監測和呈現，並取得了不俗的成績。譬如在新聞業，就有不少國際傳媒機構已經在各種項目中採用了大數據分析和數據可視化技術，如BBC以及《衛報》《華盛頓郵報》《紐約時報》等。

三、大數據帶來輿情預測的新可能

“預測”本身就是大數據的一個重要應用。針對同一主題的海量數據進行分析，經過數據挖掘和建模后，可以得到相應的預測模型，進而預測將來的發展趨勢。譬如奧巴馬競選團隊，就在2012年競選的多個環節運用了大數據技術，特別是在實時監測選民意向、預測投票情況方面。競選團隊每晚都會使用特制的模擬大選的模型，根據實時監測的選民意向模擬大選，並在第二天上午根據模擬結果對各州重新分配競選資源。這種對輿情的實時監控和預測對奧巴馬2012年總統連任起到了重要作用。

麻省理工學院博士內森·凱樂斯的一項以2013年埃及爆發的民眾抗議活動的大數據預測為主要案例的研究，獲取了全球范圍主流媒體新聞、政府出版物、社交媒體、博客等各種類型超過三百萬個數據源的目標數據。其証明可以通過大數據技術和特定模型來發掘公眾的情緒、態度變化，並最終預測以大型抗議活動為代表的大型公共事件的發生，包括事件即將發生的時間地點。③

而這還僅僅是一個開始。大數據有不同的來源，互聯網中以自媒體為代表的各種原創內容持續爆炸式增長，各種移動通訊設備、可穿戴設備也在不停地產生和存儲、傳遞各種數據，除此之外的數據來源還有麥克風、攝像頭記錄的音頻、視頻數據，運營數據，遙感數據等等。

按照來源不同，數據大致可以分為三類，即以自媒體內容為代表的用戶原創數據、各種經營活動中產生的運營數據（如銷售記錄、醫療記錄等）、感知數據（如各種可穿戴設備獲取的數據）。④ 其中用戶原創數據對輿情監測的重要性已經顯現，而對其他數據來源的大數據分析、不同數據來源的融合分析，也蘊含著巨大的輿情預測潛力。

與用戶原創數據相比，感知數據和運營數據似乎與“輿情”沒有直接聯系。然而，輿情從來不是孤立地存在的，輿情的發酵、轉向源於現實社會的事件和環境，輿情的發展又會影響現實活動。而感知數據和運營數據和人們日常生活具有同構性，甚至直接記錄著人們的舉動和身體變化。如可穿戴設備，已經可以檢測使用者的心跳、體溫、血液含氧量等數據，並通過模型分析使用者的情緒變化。而對位置移動、購買行為的相關數據的監測，以及基於這些數據對個人行動的預測，更是已經投入營銷活動的應用。

在這些感知數據、運營數據中可以獲知人們的情緒、態度、日常行動的變化，也就可以結合其他數據源進行輿情預測。數據源從用戶原創內容擴展到感知數據、運營數據，必然會帶來輿情預測整體質量的提高。從這個意義上來說，大數據給輿情研究帶來的不僅是更准確、即時、動態的輿情監測，更給輿情預測帶來無限可能。

注釋

①李彪，鄭滿寧．社交媒體時代的網絡輿情——生態變化及輿情研究現狀、趨勢[J]．新聞記者，2014（01）：36-41

② Hilbert·Martin,López•Priscila . The World's Technological Capacity to Store, Communicate, and Compute Information [J]. Science 332 (6025): 60–65

③ Nathan Kallus . Predicting Crowd Behavior with Big Public Data[A]. In the Proceedings of the 23rd international conference on World Wide Web

④孟小峰，慈祥．大數據管理：概念、技術與挑戰[J]．計算機研究與發展．2013（01）：146-149

（張冰清：安徽廣播影視職業技術學院﹔劉高見：安徽大學新聞傳播學院）