人民網>>傳媒>>傳媒期刊秀:《新聞記者》>>2015·第2期
人民網>>傳媒>>正文

大數據與新聞報道【2】

陳力丹 李熠祺 娜佳

2015年05月27日13:58  來源:新聞記者  手機看新聞

二、科學運用大數據做新聞

目前運用大數據分析做新聞尚處於摸索階段,媒體和當事記者在操作過程中要設想到一系列可能發生的問題。下面分三個方面做一論証。

1.數據的全面性和客觀性

大數據不等於全數據、真數據。記者既要保証從不同信息源拿到足夠多的數據,也要對這些數據的客觀性進行考察。與傳統的抽樣統計相比,大數據的優勢在於擁有足夠多的原始數據。互聯網時代的人際關系、社會活動、地理位置等一切信息都可以被轉換為數字,因而為全面獲取數據提供了可能性。大數據的來源有很多,新聞報道、門戶網站、搜索引擎、社交網站、政府和企業的統計、物聯網和傳感器的檢測,都是獲得數據的來源。全面獲取數據,是將大數據分析運用於新聞報道的必要基礎。

獲取了足夠多的數據之后,要對數據做客觀的判斷。一般人習慣默認數據是客觀的,是真實世界不容質疑的數字表征。事實上,正如《原始數據只是一種修辭》一書的作者麗莎·吉特曼所說:“數據從來都不可能是原始存在的,因為它不是自然的產物,而是依照一個人的傾向和價值觀念被構建出來的。我們最初定下的採集數據的辦法已經決定了數據將以何種面貌呈現出來。數據分析的結果看似公正客觀,其實價值選擇貫穿了構建到解讀的全過程。” [11]照相術剛發明之時,人們普遍認為它能夠擔當起真實再現客觀世界的任務。但后來人們發現,照片說謊的技巧比文字更加高超。如今對大數據的期待,類似於當初對照相術的期待。數據並不完全是客觀存在,也不完全是客觀存在的真實寫真。它的定義和界定、統計方法、統計范圍等等,包含和傳遞著某方面的價值判斷,也決定著數據反映真實的程度。

數據並不完全是客觀的,如果用推特的數據分析社會事件或者社會動態,記者要注意到推特的用戶主要為高收入的年輕群體,它並不能反映一定范圍內所有人的全貌。如果報道調用警察局的犯罪記錄數據庫,要同時考慮到為了降低犯罪率而刻意不把某些案件記錄在案的事情時有發生。因此哥倫比亞大學計算新聞學課程教授喬納森·扎瑟(Jonathan Stray)提出,記者在獲取數據時,一定要多問幾個問題:“這些數字是哪裡來的?”“誰記錄了這些數字?”“怎麼記錄的?”“出於什麼目的收集這些數據?”“我們怎麼才能夠知道數據是完整的?”“這些數據的人口統計信息是什麼?”“用定量的方法解決這個問題是正確的嗎?”“這些數據中不包括什麼?”“這些數據的結果會對誰不利?”“數據是始終如一的,還是由不同人統計的?”“為了生成這些數據,需要做出哪些隨意的決定?”“這些數據與其他來源的數據相符嗎?有誰已經分析過這些數據了?”……[14]記者面對數據,要多問幾個這樣的為什麼和怎麼樣,拿到元數據(關於數據的數據)。不僅了解數據是什麼,還要了解數據的產生過程。

2.科學地分析數據

拿到所有數據之后,需要做的下一步工作是建立運算模型,通過大數據的分析,還原客觀的趨勢或現象。做這類敘事報道的數據分析,重在建立准確的分析模型,謹慎得出結論。數據自己不能說話,記者需要借助一系列算法在數據中挖掘出意義。算法不等於判斷,從數據世界進入現實世界是一個充滿風險的過程,稍有不慎就可能做出錯誤的報道。

判斷型報道要求記者通過大數據做出判斷,解釋不同事物之間的因果聯系。大數據通常隻能揭示兩個變量之間的相關性,相關並不等於因果。A變量和B變量之間存在相關性,可能是A導致B,可能是B導致A,可能還有其他因素C、D……同時導致了A和B的變化﹔或者A和B之間的聯系只是偶然的等等。利用大數據分析發現相關性后,証明這種相關性的因果聯系,還需要記者的進一步調查和嚴謹的邏輯推論。

美國新聞聚合網站嗡嗡喂(buzzfeed)的數據科學管理員哈林(Ky Harlin)做了一些圖表,表達這個世界上匪夷所思的相關性,例如巧克力銷量上升和謀殺案件上升之間呈正相關、有機食品消耗量和孤獨症患者數量之間呈正相關。[16]這些明顯風馬牛不相及的“相關”,不會導致讀者得出因果聯系的結論。如果記者報道中獲得兩組數據間的相關關系,這種相關關系又正好符合記者的預先判斷,誤解就很可能發生。

現在傳媒可以通過對大數據的分析做出預測型報道。預測是否准確,關鍵在於數據呈正態分布。但是,我們生存的世界是一個復雜的系統,“黑天鵝事件”時有發生。黑天鵝事件指的是偶發的重大稀有事件,它在意料之外,卻又改變一切。經濟危機、革命、“9·11”事件都屬於黑天鵝事件。黑天鵝事件呈冪律分布,不可預測。記者用大數據做報道時,應該對自己運用的工具抱有幾分懷疑,對現實世界再多幾分敬畏。

3.遵循新聞職業道德

現在各方面的大數據龐大且易得,以前幾乎不可能獲得的信息,例如特定人群的行為習慣、社交活動、健康狀況等等都有可能獲得。雖然掌握著用戶大量數據的主體不是傳統媒體,但媒體和掌握各方面大數據的組織可以建立以利益為背景的合作關系。當特定的報道題目涉及用戶隱私時,媒體有可能違背職業道德,利用這層關系獲取數據。媒體會不會為回答用戶的提問而挖掘牽涉用戶隱私的這部分數據?各種與新聞職業道德相關的是非判斷,會在媒體運用大數據分析進行新聞報道時,以新的形式再次挑戰新聞報道者的職業道德理念。

三、我國利用大數據新聞需要做的三件事

目前,國內利用大數據做新聞還處於起步階段。央視和百度2014年初合作的“據說春運”、“據說春節”專題是大數據新聞的有益嘗試。這兩組報道利用百度指數、百度地圖定位等技術,報道春運最火路線、春節期間人們最愛吃的菜等。這一嘗試目前僅偶爾為之,沒有成為一個固定的新聞節目。三大門戶網站都開辟了利用大數據解讀新聞的欄目:網易的數讀,搜狐的數字之道,新浪的圖解天下。它們主要將數據進行縱向時間上的或者橫向空間上的比較,靜態圖表呈現,與國外媒體的大數據新聞實踐尚存在較大差距。

有鑒於此,現在需要做的三件事是:

1.打破傳統思維,選題出新。選題上思路打不開,是目前大數據新聞難以引發人們關注的顯在問題。著眼點應是:哪些是以前不敢想象的報道、不能做到的報道?這方面,國外一些媒體的實踐已經給我們提供了很多參照系。

2.呈現新聞告別靜態圖表,與先進制作技術接軌。利用動態圖表和交互式圖表,生動展現新聞事件全貌,提高用戶參與度和界面友好度,是大數據新聞呈現的核心優勢。隻要想到,對目前青年一代新聞工作者來說,做到應該不是難事。

3.新聞專業人員與IT專業人員結合,組成大數據新聞團隊。根據國際同行的經驗,大數據的新聞團隊均由新聞專業人員與產品研發人員、數據分析人員組成,后者充分融入媒體生產流程,其情形如同《芝加哥論壇報》的新聞應用團隊所說,他們就像潛入新聞編輯部的一支快樂黑客團隊,常在與記者面對面的交談中找到他們需要做的東西。[17]

(作者系:陳力丹,中國人民大學新聞與社會發展研究中心教授,李熠祺、娜佳,該校新聞學院研究生。)

(本文為國家社科基金重大項目(批准號:13&ZD182)研究成果。)

注釋:

①蘇萌、周濤:《大數據商業革命》,2012 年夏季達沃斯特刊(2012-09-13),http://www. sootoo. com/content/340794. shtml.

②http://en.wikipedia.org/wiki/Data-driven_journalism③ http://en.wikipedia.org/wiki/Computer-assisted_reporting

④卜衛:《計算機輔助新聞報道:信息時代記者培訓的重要課程》,《新聞與傳播研究》1998年第1期(1)

⑤《數據新聞的視角》,《數據新聞手冊》,http://xiaoyongzi.github.io/web/intro_3.html

⑥Garry Blight,Sheila Pulham,Paul Torpey,Arab spring: an interactive timeline of Middle East protests,http://gu.com/p/2nf4k⑦ Rob ProcterFarida VisAlex Voss,How riot rumours spread on Twitterhttp://www.theguardian.com/uk/interactive/2011/dec/07/london-riots-twitter⑧ The Guardian,England riots: was poverty a factor?http://www.theguardian.com/news/datablog/2011/aug/16/riots-poverty-map-suspects

⑨百度預測,http://trends.baidu.com⑩ 方可成http://www.fangkc.cn/2014/05/am-i-normal/

[11]徐端:《大數據戰略》第59頁,新世紀出版社,2014年版,p59

[12]Wikileaks Iraq war logs deaths mapped,http://www.theguardian.com/news/datablog/2010/oct/23/wikileaks-iraq-data-journalism

[13]Jacob ShapiroWikileaks Iraq: what's wrong with the data?

http://www.theguardian.com/news/datablog/2010/oct/25/wikileaks-iraq-data

[14]Jonathan Stray著,方可成譯:《記者在做報道時應如何解讀數據》,http://www.fangkc.cn/2014/01/drawing-conclusions-from-data/

[15]《據說春運第二期:近八成游子怕“逼婚”》。http://mp.weixin.qq.com/s?__biz=MjM5OTMxMTMwMg==&mid=200010760& idx=1&sn=d34543178ad316e37d1b41e82a7abd56&uin=Njg5ODk4NDA%3D

[16]http://www.buzzfeed.com/kjh2110/the-10-most-bizarre-correlations

[17]《新聞編輯室的運作》,《數據新聞手冊》,http://xiaoyongzi.github.io/web/index.html

上一頁
(責編:汪倩(實習生)、宋心蕊)



我要留言

進入討論區 論壇

注冊/登錄
發言請遵守新聞跟帖服務協議   

同步:分享到人民微博  

社區登錄
用戶名: 立即注冊
密  碼: 找回密碼
  
  • 最新評論
  • 熱門評論
查看全部留言

24小時排行 | 新聞頻道留言熱帖