人民网>>传媒>>传媒专题>>全国新闻学子优秀论文评选>>第十届全国新闻学子优秀论文评选参评论文

[学子论文]警惕数据新闻的陷阱

胡秀娟

2014年09月16日15:37    来源:人民网-传媒频道    手机看新闻

[摘要] 随着大数据时代的到来,数据新闻在当前新闻界应用日益普遍,不论是国内还是国外各大媒体都开始了对数据新闻的探索和应用。但是,在数据新闻日益兴盛的同时,不论是记者还是读者,都应该要警惕数据新闻的陷阱,以免被数据误导。文章旨在分析探讨数据新闻报道中存在的陷阱,并试图提出可行的避免陷阱的方法。

[关键词] 数据新闻 陷阱 可视化 图表

数据新闻(data journalism)几乎与新闻业的起始同步,第一篇数据新闻报道可以追溯到1821年5月5日数据新闻先锋《卫报》上发表一篇新闻,《卫报》(彼时的卫报还叫做《曼彻斯特卫报》):曼彻斯特在校小学生人数及其年平均消费。[1] 几十年后,《卫报》在1901年的战争报道中,又尝试以圆圈及表格等可视化数据,展现第二次布尔战争中大英帝国的战况。[2]但是,直到21世纪大数据时代的到来,数据新闻才被广泛应用与开发。

对于数据新闻学,欧洲新闻学中心(European Journalism Centre)和开放知识基金会(Open Knowledge Foundation)共同主持开发的《数据新闻学手册》(The Data Journalism Handbook)将其定义为:简单来说就是用数据报道新闻,它为记者将传统的新闻嗅觉和运用规模庞大的数据信息结合起来报道新闻创造了可能。[3]

大数据时代,记者运用数据所能够创造的可能性,已经为所有新闻从业人员打开了一扇天窗。数据不仅可以帮助记者更加生动清晰地讲述复杂的新闻故事,同时还有利于记者利用数据从一个更宏大的视角来发掘新闻、叙述新闻。于是,数据新闻成为业界宠儿,各类新闻媒体跃跃欲试。

但是,数据新闻的应用也给媒体带来了隐忧。美国科技博客ReadWrit刊登一篇题为《靠数据驱动的新闻未来》(The Data-Driven Future Of Journalism)的文章称,我们希望整个行业不要被数据奴役,而应该把数据当做读者的代理人。[4]同时,由于数据新闻其正处于发展起步阶段,且数据获取、分析和可视化过程中有较多技术性要求,数据新闻的报道也容易陷入数据泥潭与陷阱,不仅没能说明问题,反而连自己提供的数据也不能解释,进而误导受众,弄巧成拙。

一、数据搜集的陷阱

1.非随机样本,以偏概全

随机样本,即指按随机性原则,从总体单位中抽取部分单位进行调查的样本。其中,总体单位就是指一个特定集合中的全部组成成员,而样本就是这个特定集合中的一个子集。总体可能很大也可以很小,当总体小时,你可以直接观察总体,得出有关总体的各种结论。但是当总体较大时,只能通过观察总体的一个样本,推测有关总体的结论。

一般来说,随机取样可以保证每个单位都有同等被抽到的机会,被抽到的单位完全是偶然性的,因而随机样本更能够反应总体的情况;非随机样本则不然。因此,在数据新闻报道中,切忌使用非随机样本得来的数据,以偏概全。

2013年十八届三中全会,我国卫计委公布了放开“单独二胎”的信息,随后多家媒体对此进行了街头访问或者是门户网站的问卷调查。某网站记者在街头随机调查了50名普通市民,其中有22人符合“单独二胎”的条件,在这22人中,有14人表示如果政策允许,会考虑生二胎,而另外8名受访者称不考虑再生,这表明大概有64%的具备生育条件的人想生二胎。[5]而根据国家卫生计生委前期开展的生育意愿调研,我国共有1500万至2000万符合生育新政的夫妇,大约半数愿意生育第二个孩子。也就是说,该网站的调查结果不具备代表性,不仅是因为其样本选取太小,而且它在样本的选择上也不是随机取样,因而既不能反应唐山地区人们的生育意愿,更不能反映全国。

所以,记者在获取数据的过程中,如果使用的是非随机样本,那么研究样本得出的结论,并不一定能推回到总体。想要让研究样本得出的结论有意义,就必须需要样本具有代表性,也即让总体中的每一个成员被选入样本的几率要相等。

2.数据来源的真实性风险

一些数据新闻的记者认为,数据新闻不只是丰富了新闻的表现形式,还改变了新闻生产流程。数据新闻的采编流程不同于传统的新闻。如前所述,数据新闻的生产流程大致为数据汇编、数据整理、了解数据和数据整合四个部分。

但在这些关于数据新闻的处理流程的研究当中,其起点便是数据的汇编或者使用,而对数据的来源没有过多的考虑。作为数据新闻,数据来源的真实性是其持续健康发展的保障。没有一个正规可靠的数据来源,数据新闻的真实性也难以得到保障。

2012年,国际上第一个表彰数据新闻领域优秀工作的专业奖项“数据新闻奖”(Data Journalism Awards,DJA)设立,吸引了众多的新闻行业人员参与。在参与该奖项的数据新闻作品的数据来源中,公开数据198个(其中有38个项目的数据是应项目需求而公开的),自主收集70个,私有数据56个,社会化媒体11个。大数据新闻的主题主要涉及财政预算、环境污染、法律和权益问题、居民消费等,而这些领域的主要资源都在政府部门手中,所以政府的公开信息是这些项目的主要途径。[6]

由于自主收集数据耗时耗力,因此更多时候,媒体所做的就是使用数据、描述数据,而对数据的来源并不都需要记者亲力亲为。但是,如果对数据来源不加验证全盘照收,记者能保证他报道的真的就是“事实”吗?

2006年10月20日,《上海证券报》刊登的文章《中国0.4%最富裕的人掌握了70%的财富》中,采用的部分数据系境外反华网站刻意编造。2009年6月,某专家在一次专题讨论会上引用该报道数据称,“国外一家研究机构估计,中国0.4%的最富裕的人掌握了70%的财富”。随后,《人民政协报》未经核实,将此虚假数据在2009年6月19日的报道《调整收入分配格局不是“杀富济贫”》中刊出,并将“国外一家研究机构”改成“中国权威部门”。[7]这就是从社会化媒体中及专家口中获取的数据,记者未加进一步采访验证,便悉数全收,最后导致假新闻的出炉。

因此,数据新闻的写作,不能仅仅停留在照搬数字或者把数字转化成各种图表,而应深入调查、小心求证。

二、数据可视化的陷阱

1.图形造成的假象

化数据为图表或曲线,用图表或曲线表示数据最大的优点是直观、 一目了然。但是用图表和图形来表示数据也存在一定的陷阱,容易误导受众。

一维图形的滥用最容易导致图形造成的假象。在形象图形中,用一个小人来表示成千上万的人,一个钱袋或一堆硬币表示一千英镑或者百万美金,一片牛肉表示明年牛肉的供应量,这些都是形象的图形表达。由于这种图形非常吸引眼球,所以可以作为一种有用的工具,但同时它也能摇身一变,成为一个老练、狡猾而且成功的骗子。

柱状图是一种便捷常用的形象图形,它在描述单一物体时,柱体改变宽度的同时,长度也发生变化;在描述三维物体时,物体的体积又不容易进行比较。例如我们要比较北京与广西某工种工人的平均周工资,假设数值分别为1000元和500元,为了生动,我们用钱袋代替圆柱,先画一个钱袋用来表示广西工人的500元,然后再画一个高两倍的钱袋代表北京工人的1000元,高度是1∶2。但是问题在于,既然第二个袋子比第一个高一倍,也应该同样宽一倍,那么占用纸张的空间就不是2倍而变成4倍,即实际比例是2∶1,但视觉效果却是4∶1。而对读者而言,大多数时候视觉效果起着决定性的作用。此外,实际事物往往是三维的,那么第二个袋子还应该比第一个袋子厚一倍,按照几何知识:相似物体体积的变化等于任意相似边长度变化的三次方。于是,2乘2乘2等于8,如果一个钱袋里有500元,另一个钱袋则看上去应该是500的8倍,即4000元。

上图显示的的是福克斯新闻2012年的报道[8],内容是布什总统减税政策到期后对税率带来的影响。图中呈现的分别是2012年和2013年(减税政策到期后)的最高税率比较。事实上,2012年减税政策实施时和2013年政策到期后的最高税率分别是35%和39.6%,但是图表中减税政策到期后的最高税率在图中显得比现在的最高税率高了5倍之多。只相差5个百分点的两个数据,却被福克斯新闻的小伎俩改变了呈现出的状态:他们在纵轴上用了很小的比例尺,并且原点并不是从0开始。这样便夸大了两个数据之间的差距。我们都知道,福克斯新闻是拥护布什所在共和党的保守媒体,这样做是为了凸显布什减税政策到期后人们需要交比之前多得多的税。但这样可视化后的数据有失客观性。事实上,正常的图形应该是这样的:

在直线类图形中,也同样存在假象误导受众的情况。在显示趋势时,直线图形非常实用。在一则关于哥伦比亚煤气公司(Columbia Gas System)的广告中,有一张“来自最新年报”的直线图形,如果仔细阅读图中的数字并进行分析,你将发现10年来生活指数上升了60%,汽油成本下降了4个百分点。但是对这家公司为了让图表更显得生动、夸张,并对自己公司有利,他们将图形顶部截至90%的刻度(纵坐标没有断层,也没有任何文字说明来提示所做的变化),以至于单纯通过观察得出的结论是:生活指数是原来的3倍,而汽油成本则下降了1/3。也就是说,一样的数据可以画出不一样感觉的图表,即便这些图表都是正确真实的,却能给受众不一样的感受,有些甚至会造成假象,误导受众。如果记者拿到这样的图表,照搬报道而不进行验证分析,那么就成了误导受众的帮凶。

2.片面可视化数据:

在下图中,Verizon声称他们的3G网络覆盖率是AT&T的5倍。Verizon只将自己的1.4兆3G网络与AT&T更新更快的3.2兆3G网络相比,而忽略了AT&T的其他EDGE和2.5G网络,以及AT&T提供的免费WIFI服务。同时,2009年的Verizon只提供3G网络而没有2.5G网络,也就是说,在总的网络覆盖率上,Verizon很可能是比不过AT&T的。但是Verizon却巧妙地利用下面这幅图表,给自己加分。

为了澄清自己的名声,AT&T发了几通新闻稿,称他们虽然确实像图中所描绘的那样,在乡村地区没有3G网络覆盖,但他们在那些地区仍旧是有EDGE和2.5G网络覆盖的。[9]这是典型的只说其一、不说其二,但是受众会以为自己看到的就是全部的情况,这样的陷阱不仅记者要量坚决避免,受众也应该提高警惕。

三、数据报道的陷阱

1.滥用平均数

平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。但是平均数在新闻报道中却常常让人感到迷惑不解,被认为不能代表个人的真实情况。这也是数据新闻学应当警惕的一大陷阱,而陷阱的症结就在于:a、计算的陷阱;b、用的哪个平均数。

不同的计算方式往往会给人不同的结果。假设你是某企业的3个合伙人之一,到了年底,你给企业的90个职工共发了99000元,你和其他合伙人每人各获得5500元的工资;最后还余下21000元,作为利润可供你们3个合伙人平分。那么结果就是:

职工的平均工资…… 1100元

所有者的平均工资及利润…… 12500元

但是这样的收入差距会带来职工的不满,于是你可以:从利润中拿出15000元以奖金的形式平分给3位合伙人,剩下6000元作为所有者的利润平分给三个合伙人。这一次将包括了所有者和职工的工资进行平均,采用均值,结果变成:

所有人员的平均工资或薪金…… 1403元

所有者平均利润…… 2000元

后一种数据对于企业掩盖工资差别及剥削十分有力,如果记者拿到的是后一种数据,那么数据展示的情况与每个人实际所得的工资差别巨大,这便是数据埋下的陷阱。

在计算方法完全一样的情况下,平均数也会给你设置陷进。售楼处工作人员对你宣称,他们小区居民的平均年收入大约有10000元,于是你带着能够住进富人圈的心思买下了该小区的房子;但是你的邻居却告诉你,这个小区居民的平均年收入只有3000元。你肯定会觉得震惊,从10000元到3000元的差异确实很大,到底是售楼工作人员撒谎了,还是你的邻居撒谎了呢?其实,谁也没有撒谎,无论是10000元,还是3000元,它们都是正规的平均数,计算方法也完全正确。两个数字都基于相同的数据,来自相同的居民,根据相同的收入。所有都是相同的,而导致结果差别如此之大的原因就在于售楼工作人员和你的邻居用的是不同的平均数。

平均数有不同的种类,包括均值、中位数、众数。不同类型的平均数计算处出来的结果是截然不同的。售楼处的工作人员所说的10000元是均值,也就是附近居民收入的算术平均数,即将所有家庭的收入加起来并除以家庭总户数便可得到这种算术平均数;而你的邻居所说的3000元是中位数,即3000元是这个小区家庭年收入的中间线,那么这个小区有一半家庭年收入超过3000元,另一半家庭的年收入不及3000元。

因此,在采访和报道此类数据新闻时,记者应该要寻根问底,数据是如何计算得来,用的是哪种平均数等都要清楚,不然你的报道中便无法解释数据。

2.重形式轻内容

英国《卫报》数据新闻编辑Simon Roger曾说:“数据新闻不是图形或可视化效果,而是用最好的方式去讲述故事。只是有时故事是用可视化效果或地图来讲述。”[10]

我们并不能简单地认为数据新闻就是与数字打交道,或画出吸引眼球的信息图。它与传统新闻一样仍然是在讲述故事,讲述数字背后人的故事。只是采用了数据新闻的方式,运用图表,可以更简单而清晰地让受众明白复杂数据背后的情况。从这个意义上来说,数据新闻的本质还是“讲故事”。但是当前存在这样一种“重形式轻内容”的误区。

有些问题用文字一语即可明了,却为了吸引眼球显示精准性,硬以复杂的图表形式呈现出来;有些报道偏重于数据的可视化,重心放在了可视化图表的制作和展示方面,而缺少对数据背后的意义的揭示。还有一种情况,即数据新闻成为媒体盈利和竞争的手段,因而其形式就成了媒体的追求,内容的重要性屈居其后。正如Owen Thomas所说,过度追求搜索引擎优化和短期的页面浏览量,是因为数据被不该掌握的人掌握了——工程师更看重算法,而不关注人。互联网的机会主义者只看重金钱,而劳累过度的编辑们却也在疲于完成各种量化任务。[11]

四、结语

数据新闻的出现顺应了大数据时代的发展需要,它将数据资源集纳起来,不仅用事实说话,还用数据说话,使新闻传播更有针对性,精准性。

但是,数据新闻的陷阱也是从业者不可忽视的问题。当前,学界和业界对数据新闻的关注和研究正处于起步阶段,有很多问题仍处于探索阶段,新的问题和陷阱也在不断出现,因此,要想规避这些陷阱并没有条条框框的教条可以照搬,也没有丰厚的现成经验可以借鉴,而是需要新闻从业者自身的警觉与提高。

数据新闻的兴起对新闻从业者提出了更高的要求,新闻从业者和研究者都应该不断更新知识结构,适应新闻传播环境的变化,不断加强对数据新闻的了解,在实践中发现问题,解决问题。(作者系 西南政法大学全球新闻与传播学院)

参考文献:

[1]杜怡.什么是数据新闻[OL].[2013-12-07].

http://djchina.org/2013/10/12/resource-what-is-data-journalism/.

[2][10]Simon Rogers. Facts are Sacred[M]. London: Faber and Faber,2013.

[3]郭晓科.数据新闻学的发展现状与功能[J].编辑之友,2013(8):87-89.

[4][11]Owen Thomas.The Data-Driven Future Of Journalism[OL].ReadWrite.

http://readwrite.com/2013/09/06/data-journalism-future#awesm=~opT7wybPNYXNx7,2013-09-06.

[5]赵立峰.记者接头随机调查50人 14人表示会考虑生二胎[N/OL].环渤海新闻网,[2013-12-12].http://tangshan.huanbohainews.com.cn/system/2013/11/19/011281474.shtml.

[6]王斌.大数据与新闻理念创新——以全球首届“数据新闻奖”为例[J].编辑之友,2013(6).

[7]雷新.中国0.4%最富裕的人掌握了70%的财富[N/OL].搜狐网,[2013-12-12].

http://media.sohu.com/20130419/n373280153.shtml.

[8]FlowingData.Fox News continues charting excellence.[OL].

http://flowingdata.com/2012/08/06/fox-news-continues-charting-excellence/,2012-08-06.

[9]Prince McLean.AT&T defends its data network from Verizon ad attacks [OL]. Appleinsider.http://appleinsider.com/articles/09/11/10/att_defends_its_data_network_from_verizon_ad_attacks.html,2009-11-10.

分享到:
(责编:张惠丹(实习)、宋心蕊)




注册/登录
发言请遵守新闻跟帖服务协议   

使用其他账号登录: 新浪微博帐号登录 QQ帐号登录 人人帐号登录 百度帐号登录 豆瓣帐号登录 天涯帐号登录 淘宝帐号登录 MSN帐号登录 同步:分享到人民微博  

社区登录
用户名: 立即注册
密  码: 找回密码
  
  • 最新评论
  • 热门评论
查看全部留言

24小时排行 | 新闻频道留言热帖