首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
- 經濟 · 科技
- 社會 · 法治
- 文旅 · 體育
- 健康 · 生活
- 國際
- 軍事
- 港澳
- 台灣
- 教育
- 房產
- 科普
觀點
互動
可視化
- 視頻
- 圖片
- 圖解
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
舉報專區
多語言
- |
合作網站
登錄

退出

大數據輿情技術缺陷與對策分析

汪行東胡志方

2019年11月28日10:47 | 來源：今傳媒

小字號

（深圳職業技術學院，廣東深圳 518000）

摘要：大數據技術的迅速普及，很多城市與媒體積極引入大數據輿情技術輔助輿情監測、管理與應對決策。從統計學角度，大數據技術存在著樣本截斷問題、系統性偏誤、情緒衡量偏誤、遺漏變量偏誤等缺陷，應積極革新大數據輿情技術，創新輿情信息採集方式，增強輿情分析人員統計素養和理論素養，避免大數據輿情技術帶來輿情誤判的風險。

關鍵詞：大數據﹔輿情﹔統計

中圖分類號：文獻標識碼：A 文章編號：1672-8122（2019）11-0000-02

隨著大數據的發展，對海量的網絡信息進行採集、挖掘、分析的技術日趨成熟，為主流媒體應用大數據綜合分析輿論、提高輿論引導力提供了新的可能。各地政府、機構紛紛引入大數據輿情分析技術、建設大數據輿情決策平台，通過互聯網海量信息進行挖掘和處理，為敏感、重點輿情的引導工作助力[1, 2]，其中典型輿情平台包括百度輿情、新浪輿情、清博輿情等等。從本質上講，大數據技術是統計學的一種應用，通過抓取海量媒介信息，使用統計建模相關的技術，建立包括機器學習在內的統計模型，對輿情的發生、發展和輿論引導過程進行評估，為輿情應對決策、決策評估提供依據。大數據技術雖然具有很多的優點，但從統計學的角度出發，缺點也是十分明顯的。如何克服其缺陷，完善大數據決策，是本文探討的關鍵。

一、從統計層面看大數據輿情技術的主要缺陷

（一）樣本截斷問題

樣本截斷（truncation）問題主要指樣本並非隨機抽取的，即不是從全部個體，而是從其中一部分中獲取的觀測值，這部分觀測值可能會出現都大於或小於某個值，出現“掐頭”或“去尾”的問題。大數據輿情獲取的信息來源於網絡平台，主要集中於網站及自媒體平台的公開意見表達。第一，由於網絡、自媒體平台的使用存在一定的門檻，從而天然的排除了很多年長不能使用網絡媒體或者經濟地位較低無法負擔網絡媒體者的意見。第二，雖然網絡存在一定的匿名性，但網絡意見的表達會受到因素的影響，並非所有的意見均會呈現在網絡空間中。其一，意見表達行為受到主體性格、自信水平的影響，很多人並不願意在網絡上表達自己的主張﹔其二意見的表達也會受到意見性質的影響：如果主體認為自己的意見會受到反對或招致攻擊，往往會選擇沉默，形成傳播學上所謂的沉默的螺旋效應。隨著實名制的不斷推廣，網友表達與主流意見不同意見的意向更趨於減弱。第三，網上表達的意見也並非都能採集到。特別是自媒體具有一定的社交屬性，信息的分享和意見的分享變得極為方便，但基於人際傳播裂變的意見擴散，因涉及到隱私問題也是大數據技術所無法採集的。一方面，自媒體特有的社交屬性，使得信息的分享行為較為方便。基於人際傳播的信息擴散和意見表達，是大數據數據採集無法進入的領域。另一方面，網絡上的意見表達僅是網民意見表達行為的一部分，大量的輿情行為發生在線下，這也是無法觀察到的。從這個意義上，大數據搜集的是截斷數據（truncated data），忽略了人際傳播中的意見表達和線下行為，將大大影響輿情監測的穩健性（robust）。

（二）系統性偏誤

系統性偏誤指抽樣技術無關，不會隨著抽樣的樣本容量擴大而減小的常數項偏誤。大數據輿情技術宣稱進行全網信息採集，一般不存在樣本容量擴大的問題。但在實際操作中，受限於抓取能力和時間成本，大數據輿情平台的數據抓取也局限於微博、微信公號、新聞客戶端、媒體網站等，由於不同的輿情事件的突發性，其實是無法預料其會在微博爆發、微信公號爆發，還是許久文件未更新的博客。由於技術能力限制會導致樣本產生系統性偏誤，進而影響大數據輿情預警和決策能力。

（三）情緒衡量偏誤

輿情中包含了情緒，情緒是輿情研究中必然涉及的對象。要判斷網民在輿情事件中的情緒是“支持或反對”某一觀點或者“喜歡或不喜歡”某一事物和個體，一般是抽取其評論語句、留言語句中的某一或某些字詞（即特征），判斷該詞屬於那種情緒（即分類），意即分詞技術。國內學者如陳浩基於心理學情緒結構理論、情緒分析技術、情緒詞庫等構建了基本情緒詞庫和情緒維度詞庫，獲得了快樂、悲傷、憤怒、恐懼和厭惡等五種基本的社會情緒[3]。但實際上由於情緒的高度復雜性和漢語的語義模糊性，對情緒進行精確的區分的努力，即使是引入強大的機器學習技術，對情緒分詞處理仍存在一定的困難。近年新產生的一些情緒詞匯，如白骨精（白領+骨干+精英）、果醬（過獎）等，由於語言的約定俗成性、新詞的不斷涌現會給情緒判斷帶來極大的困難。

（四）遺漏變量偏誤

沉默螺旋理論認為，人們趨向於表達與主流意見一致的意見﹔當個人意見與主流意見不一致時，個體會傾向於改變自己的意見或者干脆選擇沉默[5]。另一方面，群體動力學的研究成果証實群體壓力和趨同心理的存在。網絡上發表意見的人，隸屬於不同小團體進而在輿論領域進行競爭，群體中的個體會表達趨同的意見，進而隱藏個體的不同意見[6]。這兩種機制的存在導致個體的意見表達並不能反映個體的真實意見，而在大數據分析中又難以對這兩種機制的影響進行剔除，可能會導致對輿情估計的偏大或偏小，也會導致輿情風險評估模型出現遺漏變量偏誤（Omitted Variable Bias）。

二、避免大數據輿情技術缺陷方法

技術是一把雙刃劍，在帶來益處的同時不可避免的具有一定的局限性，警惕大數據輿情技術缺陷，構建更為合理的大數據輿情監測管理機制，是輿情工作發展的重要方向。

第一是革新大數據技術，提升信息採集范圍和分詞技術，避免系統性偏誤、情緒衡量偏誤和遺漏變量偏誤。引入更為穩健的計量工具模型，通過機器學習和人工採集等方式及時更新情緒分詞，將大大提升輿情分析的准確性。

第二，應破除對於大數據技術的盲信盲從，增強輿情分析人員的統計素養。輿情分析人員對統計知識的理解，會方便其對輿情平台呈現出的結果的判斷，更有利於做出正確的決策。最后，加強輿情相關理論研究和總結，特別是黨的各屆領導集體關於輿論和新聞傳播規律從真知灼見，做到先進思想武裝人，方能更好的從事黨的輿論工作。

三、結語

隨著大數據輿情技術的日趨普及，越來越多的黨政部門與媒體部門傾向於採用大數據技術監控社會輿情，為黨政部門了解社情民意提供了新的通道。在依賴於新技術的同時，也應意識到從統計技術層面而言，大數據輿情技術存在樣本截斷問題、系統性偏誤、情緒衡量偏誤、遺漏變量偏誤等問題，應不斷革新輿情分析技術、創新輿情採集方式、增強輿情分析人員素養等角度，避免大數據輿情技術的導致輿情誤判等風險，更加科學的了解社情民意。

參考文獻：

[1]李雙.從輿情起步,邁上大數據輿情和社會治理之路——以浙江在線輿情中心為例淺談黨媒如何做好“To G”服務[J].傳媒評論,2018(6): 12-14.

[2]喻國明.當前社會輿情的結構性特點與分析性發現——基於2014年中國社會網絡輿情的大數據分析[J].江淮論壇,2015(5): 136-143.

[3]陳浩.中國社會的脈搏:網絡集群情緒的測量與應用: 第十七屆全國心理學學術會議[Z].北京: 2014.

[4]王世泓.基於情緒詞典擴展技術的中文微博情緒分析[D].南京航空航天大學,2015.

[5](美)M·麥考姆斯,T·貝爾著.郭鎮之譯.大眾傳播的議程設置作用[J].新聞大學,1999(2):32-36.

[6]高憲春,解葳.新媒體融合語境下網絡群體對輿論生成的影響[J].當代傳播,2015(3): 76-79.

（作者簡介：汪行東，男，深圳職業技術學院講師，主要從事傳播學理論研究。胡志方,女，深圳輿情研究院輿情分析師，主要從事輿情分析研究。）

(責編：段佩伶（實習）、宋心蕊)

分享讓更多人看到