二、科学运用大数据做新闻
目前运用大数据分析做新闻尚处于摸索阶段,媒体和当事记者在操作过程中要设想到一系列可能发生的问题。下面分三个方面做一论证。
1.数据的全面性和客观性
大数据不等于全数据、真数据。记者既要保证从不同信息源拿到足够多的数据,也要对这些数据的客观性进行考察。与传统的抽样统计相比,大数据的优势在于拥有足够多的原始数据。互联网时代的人际关系、社会活动、地理位置等一切信息都可以被转换为数字,因而为全面获取数据提供了可能性。大数据的来源有很多,新闻报道、门户网站、搜索引擎、社交网站、政府和企业的统计、物联网和传感器的检测,都是获得数据的来源。全面获取数据,是将大数据分析运用于新闻报道的必要基础。
获取了足够多的数据之后,要对数据做客观的判断。一般人习惯默认数据是客观的,是真实世界不容质疑的数字表征。事实上,正如《原始数据只是一种修辞》一书的作者丽莎·吉特曼所说:“数据从来都不可能是原始存在的,因为它不是自然的产物,而是依照一个人的倾向和价值观念被构建出来的。我们最初定下的采集数据的办法已经决定了数据将以何种面貌呈现出来。数据分析的结果看似公正客观,其实价值选择贯穿了构建到解读的全过程。” [11]照相术刚发明之时,人们普遍认为它能够担当起真实再现客观世界的任务。但后来人们发现,照片说谎的技巧比文字更加高超。如今对大数据的期待,类似于当初对照相术的期待。数据并不完全是客观存在,也不完全是客观存在的真实写真。它的定义和界定、统计方法、统计范围等等,包含和传递着某方面的价值判断,也决定着数据反映真实的程度。
数据并不完全是客观的,如果用推特的数据分析社会事件或者社会动态,记者要注意到推特的用户主要为高收入的年轻群体,它并不能反映一定范围内所有人的全貌。如果报道调用警察局的犯罪记录数据库,要同时考虑到为了降低犯罪率而刻意不把某些案件记录在案的事情时有发生。因此哥伦比亚大学计算新闻学课程教授乔纳森·扎瑟(Jonathan Stray)提出,记者在获取数据时,一定要多问几个问题:“这些数字是哪里来的?”“谁记录了这些数字?”“怎么记录的?”“出于什么目的收集这些数据?”“我们怎么才能够知道数据是完整的?”“这些数据的人口统计信息是什么?”“用定量的方法解决这个问题是正确的吗?”“这些数据中不包括什么?”“这些数据的结果会对谁不利?”“数据是始终如一的,还是由不同人统计的?”“为了生成这些数据,需要做出哪些随意的决定?”“这些数据与其他来源的数据相符吗?有谁已经分析过这些数据了?”……[14]记者面对数据,要多问几个这样的为什么和怎么样,拿到元数据(关于数据的数据)。不仅了解数据是什么,还要了解数据的产生过程。
2.科学地分析数据
拿到所有数据之后,需要做的下一步工作是建立运算模型,通过大数据的分析,还原客观的趋势或现象。做这类叙事报道的数据分析,重在建立准确的分析模型,谨慎得出结论。数据自己不能说话,记者需要借助一系列算法在数据中挖掘出意义。算法不等于判断,从数据世界进入现实世界是一个充满风险的过程,稍有不慎就可能做出错误的报道。
判断型报道要求记者通过大数据做出判断,解释不同事物之间的因果联系。大数据通常只能揭示两个变量之间的相关性,相关并不等于因果。A变量和B变量之间存在相关性,可能是A导致B,可能是B导致A,可能还有其他因素C、D……同时导致了A和B的变化;或者A和B之间的联系只是偶然的等等。利用大数据分析发现相关性后,证明这种相关性的因果联系,还需要记者的进一步调查和严谨的逻辑推论。
美国新闻聚合网站嗡嗡喂(buzzfeed)的数据科学管理员哈林(Ky Harlin)做了一些图表,表达这个世界上匪夷所思的相关性,例如巧克力销量上升和谋杀案件上升之间呈正相关、有机食品消耗量和孤独症患者数量之间呈正相关。[16]这些明显风马牛不相及的“相关”,不会导致读者得出因果联系的结论。如果记者报道中获得两组数据间的相关关系,这种相关关系又正好符合记者的预先判断,误解就很可能发生。
现在传媒可以通过对大数据的分析做出预测型报道。预测是否准确,关键在于数据呈正态分布。但是,我们生存的世界是一个复杂的系统,“黑天鹅事件”时有发生。黑天鹅事件指的是偶发的重大稀有事件,它在意料之外,却又改变一切。经济危机、革命、“9·11”事件都属于黑天鹅事件。黑天鹅事件呈幂律分布,不可预测。记者用大数据做报道时,应该对自己运用的工具抱有几分怀疑,对现实世界再多几分敬畏。
3.遵循新闻职业道德
现在各方面的大数据庞大且易得,以前几乎不可能获得的信息,例如特定人群的行为习惯、社交活动、健康状况等等都有可能获得。虽然掌握着用户大量数据的主体不是传统媒体,但媒体和掌握各方面大数据的组织可以建立以利益为背景的合作关系。当特定的报道题目涉及用户隐私时,媒体有可能违背职业道德,利用这层关系获取数据。媒体会不会为回答用户的提问而挖掘牵涉用户隐私的这部分数据?各种与新闻职业道德相关的是非判断,会在媒体运用大数据分析进行新闻报道时,以新的形式再次挑战新闻报道者的职业道德理念。
三、我国利用大数据新闻需要做的三件事
目前,国内利用大数据做新闻还处于起步阶段。央视和百度2014年初合作的“据说春运”、“据说春节”专题是大数据新闻的有益尝试。这两组报道利用百度指数、百度地图定位等技术,报道春运最火路线、春节期间人们最爱吃的菜等。这一尝试目前仅偶尔为之,没有成为一个固定的新闻节目。三大门户网站都开辟了利用大数据解读新闻的栏目:网易的数读,搜狐的数字之道,新浪的图解天下。它们主要将数据进行纵向时间上的或者横向空间上的比较,静态图表呈现,与国外媒体的大数据新闻实践尚存在较大差距。
有鉴于此,现在需要做的三件事是:
1.打破传统思维,选题出新。选题上思路打不开,是目前大数据新闻难以引发人们关注的显在问题。着眼点应是:哪些是以前不敢想象的报道、不能做到的报道?这方面,国外一些媒体的实践已经给我们提供了很多参照系。
2.呈现新闻告别静态图表,与先进制作技术接轨。利用动态图表和交互式图表,生动展现新闻事件全貌,提高用户参与度和界面友好度,是大数据新闻呈现的核心优势。只要想到,对目前青年一代新闻工作者来说,做到应该不是难事。
3.新闻专业人员与IT专业人员结合,组成大数据新闻团队。根据国际同行的经验,大数据的新闻团队均由新闻专业人员与产品研发人员、数据分析人员组成,后者充分融入媒体生产流程,其情形如同《芝加哥论坛报》的新闻应用团队所说,他们就像潜入新闻编辑部的一支快乐黑客团队,常在与记者面对面的交谈中找到他们需要做的东西。[17]
(作者系:陈力丹,中国人民大学新闻与社会发展研究中心教授,李熠祺、娜佳,该校新闻学院研究生。)
(本文为国家社科基金重大项目(批准号:13&ZD182)研究成果。)
注释:
①苏萌、周涛:《大数据商业革命》,2012 年夏季达沃斯特刊(2012-09-13),http://www. sootoo. com/content/340794. shtml.
②http://en.wikipedia.org/wiki/Data-driven_journalism③ http://en.wikipedia.org/wiki/Computer-assisted_reporting
④卜卫:《计算机辅助新闻报道:信息时代记者培训的重要课程》,《新闻与传播研究》1998年第1期(1)
⑤《数据新闻的视角》,《数据新闻手册》,http://xiaoyongzi.github.io/web/intro_3.html
⑥Garry Blight,Sheila Pulham,Paul Torpey,Arab spring: an interactive timeline of Middle East protests,http://gu.com/p/2nf4k⑦ Rob ProcterFarida VisAlex Voss,How riot rumours spread on Twitterhttp://www.theguardian.com/uk/interactive/2011/dec/07/london-riots-twitter⑧ The Guardian,England riots: was poverty a factor?http://www.theguardian.com/news/datablog/2011/aug/16/riots-poverty-map-suspects
⑨百度预测,http://trends.baidu.com⑩ 方可成http://www.fangkc.cn/2014/05/am-i-normal/
[11]徐端:《大数据战略》第59页,新世纪出版社,2014年版,p59
[12]Wikileaks Iraq war logs deaths mapped,http://www.theguardian.com/news/datablog/2010/oct/23/wikileaks-iraq-data-journalism
[13]Jacob ShapiroWikileaks Iraq: what's wrong with the data?
http://www.theguardian.com/news/datablog/2010/oct/25/wikileaks-iraq-data
[14]Jonathan Stray著,方可成译:《记者在做报道时应如何解读数据》,http://www.fangkc.cn/2014/01/drawing-conclusions-from-data/
[15]《据说春运第二期:近八成游子怕“逼婚”》。http://mp.weixin.qq.com/s?__biz=MjM5OTMxMTMwMg==&mid=200010760& idx=1&sn=d34543178ad316e37d1b41e82a7abd56&uin=Njg5ODk4NDA%3D
[16]http://www.buzzfeed.com/kjh2110/the-10-most-bizarre-correlations
[17]《新闻编辑室的运作》,《数据新闻手册》,http://xiaoyongzi.github.io/web/index.html
上一页 |