人民网
人民网>>传媒>>人民网奖学金>>人大2015

大数据时代新闻业的展望与迷思

张超
2016年03月08日14:00 | 来源:人民网研究院
小字号

摘要:大数据领域的研究已经成为一门显学,大数据时代新闻业将发生四个转向:在新闻报道样式上,由数据新闻升级为大数据新闻;在新闻生产的受众观上,由类型化受众观变为个人化用户观;在新闻产品的本质上,由易碎品的信息转向高附加值的知识;在内容生产链上,由单体作战转向跨界合作。但是在大数据时代的进程中,新闻业还有诸多现实问题值得冷思考,如数据垄断对新闻生产的限制、大数据对新闻客观性的影响、阈值对新闻生产的制约等,新闻业应用大数据需要再审视。

关键词:大数据,大数据新闻,客观性,阈值

信息技术的发展使我们进入了人-机-物融合的三元世界[[1]]。虽然有关大数据的探讨自2008年《自然》杂志推出大数据专刊就已开始,但大数据真正成为世界范围内的热门话题是以2011年6月美国麦肯锡咨询公司发布的研究报告《大数据:下一个竞争、创新和生产力的前沿领域》(Big Data: The Next Frontier for Innovation, Competition,and Productivity)为起点。在中国,大数据热也持续升温,从IT领域扩展到各行各业。与大数据有关的研究在中国逐渐成为一门显学。笔者在中国知网以“大数据”为关键词检索与大数据有关的论文,2011年2篇,2012年63篇,2013年837篇,2014年2912篇[[2]]。2013年也被称为中国的“大数据元年”。2014年5月,美国总统行政办公室发布《大数据:抓住机遇、保存价值》(Big Data: Seizing Opportunities, Preserving Values)的报告,肯定了大数据的社会价值,并认为政府应继续支持和开放大数据的研究。

大数据备受推崇,被称之为“一场生活、工作与思维的大变革”。[[3]]而大数据时代的新闻业也被人寄予期待。在传媒领域,以社交媒体为代表的新媒体利用大数据展开诸多尝试,而传统媒体也在思考如何应对大数据时代的到来。2013年《纽约时报》、《卫报》等老牌纸媒已利用大数据挖掘技术,推动新闻向“利基化”、“纵深化”发展[[4]]。2014年中国电视新闻也开始运用大数据,开启了“中国大数据电视新闻时代的元年”。[[5]]

大数据对新闻业意味着什么?这些问题一直为学界、业界所津津乐道,在对大数据众声喧哗的一致叫好声中,新闻业与大数据“嫁接”、“融合”的过程中还存在哪些现实问题,同样也值得我们进行冷思考。

一、大数据时代新闻业的展望

大数据的特点被总结为四个“V”:Volume(容量大) ,Variety(种类多) ,Velocity(速度快)和 Value(价值大),那么新闻业应用大数据将给新闻业带来哪些重大变化?我们认为大数据时代的新闻业将出现四个转向。

1.新闻报道的样式:由数据新闻升级为大数据新闻

数据新闻的缘起可追溯至20世纪60年代的精确新闻报道,在历经了计算机辅助报道、数据库新闻之后,如今的数据新闻是基于数据挖掘与分析思维的新闻报道,也是数据驱动型的调查性报道或深度报道。[[6]]《数据新闻学手册》认为数据新闻的特点是:记者和编辑利用充裕的数字信息,将传统的新闻敏感和引人入胜地讲述故事的能力相结合。[[7]]数据新闻是一种工作流程, 包括以下基本步骤:通过反复抓取、筛选和重组来深度挖掘数据, 聚焦专门信息以过滤数据, 可视化的呈现数据并合成新闻故事。[[8]]数据新闻将深度与可视化结合起来,数字平台上的数据新闻还具有互动性。

大数据时代,数据新闻的内涵将极大拓展(如图1.),大数据新闻将成为数据新闻的重要组成部分。何为大数据新闻?笔者认为基于大数据技术,运用可视化和互动性手段,对社会某一热点问题进行宏观和中观的呈现、解释或预测的新闻样式即是大数据新闻。

大数据新闻与传统数据新闻最大的不同在于它运用的是大数据技术,其数据是主要是非结构的或半结构的,而不是结构性数据。

大数据新闻将成为新闻业“内容为王”的主要体现之一。因为对真相的无限接近是新闻的核心品质,也是新闻存在的价值所在。大数据新闻可以通过大数据挖掘与分析,通过关联分析和因果分析,从关注社会表层现实到发掘社会深层现实。

大数据的核心就是预测。[[9]]人类的态度、情绪、行为等都可以变为数据进行分析和预测。情感分析(Sentiment Analysis)[[10]]现已广泛应用,媒体可以通过情感分析来确定社交媒体上用户群的态度。例如推特(Twitter)在2012年美国大选时对用户每天推文和评论的关键词进行量化跟踪,计算出“政治指数”来判断民心所向。[[11]]因此对于精确新闻报道和预测性报道而言,大数据时代的到来是一个崭新的机遇,提升了精确报道、预测性报道的品质。

2.新闻生产的受众观:由类型化受众观变为个体化用户观

从西方大众报业以受众为导向开始,近200年间新闻业的受众观经历了“想象”的受众观到类型化受众观,再到如今的用户观的转变。

“想象”的受众观是指新闻采编人员“设身处地”的设想受众可能会对哪些内容感兴趣,从而指导新闻生产。类型化受众观则是伴随现代受众调查技术的发展成熟而树立起的受众观。通过对受众的抽样调查,总结出受众的类型。媒体的专业化是类型化受众观的具体表现。随着新媒体技术的发展和媒介间竞争的激烈,受众呈碎片化发展,对新闻媒体的信息传播提出更高的要求:既要提供信息,又要提供“体验”。如今的受众观变成了“准确”的用户观,即准确定位,在类型化受众之下继续细分。媒体基于用户过往的新闻内容阅读特征,随后推送有针对性的新闻,如“今日头条”的运营模式即是如此。

大数据时代这种“准确”的用户观将继续深入,由准确定位变为精确定位,真正满足用户的碎片化需要,这种用户观可称之为个体化用户观。随着穿戴式智能设备和移动位置服务(Location Based Service,LBS)的广泛普及,物联网将用户与新闻媒体勾连起来,个体化用户观念将成为新闻生产的主导观念。与现在“今日头条”的推送模式不同,大数据时代的新闻推送是基于物联网提供的信息,即具体的情境向用户推送信息,包括地理位置、使用时间、个人生理、日常行为等因素,是一种完全智能化地信息推送,真正使新闻生产在版本上精确化,在推送上个人化。可以这样说,“想象”的受众观,受众是模糊的;类型化的受众观,受众是可知的;“准确”的用户观,用户是可了解的;个体化用户观,用户是可理解和可预测的。这也意味着大数据时代媒体对用户的研究,比以往更复杂。

3.新闻产品的本质:由易碎的信息变为高附加值的知识

大数据时代新闻报道与客观现实的关系发生了变化,由折射现实向反映现实转变,人类将步入镜像化生存的时代。镜像化生存是一种以计算机、网络等硬件为基础,以数字化数据及其运算来表征显示物质世界中各种真实关系的生存方式。[[12]]大数据时代新闻业的产品性质也发生了质变:由信息转向知识。大众传媒自诞生之日起,基本功能在于传播信息,知识生产只占传媒产品的很少一部分,科研机构、研发企业等是知识生产的主要来源,媒体承担的是知识传播的平台角色而非生产角色。

大数据可以让新闻业真正成为社会的“瞭望者”。大数据时代,将媒体推向知识生产的前台,因为媒体不仅有生产信息的能力还有生产知识的能力。这种从折射现实到反映(镜像)现实的转变,使得媒体有能力以无限接近真实的状态反映世界,因而具备知识的生产能力。

媒体运用大数据进行新闻报道,从某种意义上说相当于一次科学研究,通过“数据-信息-知识”的进阶,“用事实说话”转变为“用数据说话”。如此,拟态环境与客观现实无限重合,带来的是受众内心感知的现实无限重合,即媒体反映现实功能的最大化实现。

从信息向知识的转变,也使新闻产品的“保质期”延长,以往以生产消息为主的“易碎品”变为以挖掘社会现实的知识、甚至常识,使新闻的附加值增加。以往一次性售卖的信息,在变为知识后,可以通过媒体二次售卖,或依据大数据结果分类别类多次售卖。新闻产品本质的转变也使媒体的功能得到拓展,如在提供财经资讯方面,可以利用大数据挖掘出来的知识为企业提供市场预测服务,延伸媒体的产业链。从目前传统媒体的盈利模式看,依靠广告为主的盈利模式已经触到“天花板”,因此利用大数据技术为新闻产品增值,拓宽媒体的盈利渠道,不失为一条可行的路径。

4.内容生产链:由单体作战转向跨界合作

大数据改变着传统新闻业的内容生产链。传统的新闻生产模式是以编辑部为核心的新闻生产,记者和编辑是新闻生产的主力,其他部门(如技术部、广告部)不参与或较少参与新闻生产,整个内容生产链是一个封闭的系统。

大数据时代传统新闻业的内容生产链变得开放,包括对内(媒体内)开放与对外(媒体外)开放。

对内开放是指传统上以新闻编辑部为核心的单体作战模式被打破,新闻生产越来越依赖于媒体内的跨界融合。这种融合不是部门间流水线组装式的合作,而是彼此交叉、自始至终的深度合作。主要表现是记者、编辑与数据团队成为两个并行又彼此交叉的新闻生产主体。在人员构成上,传统上以单一学科背景为主的新闻采编团队将变为复合多元型新闻采编团队,即媒体内跨界。

这种跨界已在数据新闻生产中显露端倪。数据新闻的生产主体是数据团队,是基于各部门融合的、跨领域合作的数据新闻生产团队。[[13]]2012年首届国际数据新闻奖获奖作品的运行过程显示,数据新闻比拼的不是采访力量和团队规模,而更看重具有新闻敏感的人与具有数据挖掘、分析与可视化呈现能力的人之间的相互协作。[[14]]

因此在大数据时代,既具有新闻专业精神,又具有数据技术基本处理能力,还具备大数据思维的人是稀缺人才。而拥有大数据思维意味:(1)对社会生活的敏感和质疑,推动新闻从业者对大数据产生针对性的需求,从而借助量化数据揭示真相;(2)新闻生产者具备从文本分析、用户喜好、社群人气等巨量信息中发现新闻价值的专业能力。[[15]]

对外开放是指媒体的跨界合作。新闻业的核心竞争力是内容为王,大数据时代,生产内容的“原料”是数据。现实问题是,新闻媒体,尤其是传统新闻媒体并未掌握海量的非结构化数据。而且媒体运用大数据技术面临很多挑战,除了数据来源,还包括数据处理、数据分析等诸多环节,以及硬件设备和技术人才的升级。尽管有实力的媒体可以通过自己的力量来解决这些问题,但是利用外部力量,进行跨界合作,也许是更为切实可行的方式。[[16]]

2014年从中央台到地方台,电视新闻也尝试将大数据运用其中,如中央电视台的《数据说春运》(2014年1月)、《据说两会》(2014年3月)、《两会大数据》(2014年3月),江苏卫视的《大数据说消费》(2014年3月),湖北卫视的《湖北大数据》(2014年5月),浙江卫视的《大数据看出行》(2014年5月)等,即是各电视台与百度等公司进行跨界合作的典型案例。采取对外开放方式的优点在于节约运用成本,从社会分工的角度讲,利于各自发挥优势,但想让这种合作长期化,利益最大化,需要媒体建立与外部资料的战略合作关系。

二、大数据时代新闻业的迷思

大数据时代新闻业的展望是建立在大数据技术的成熟、大数据资源的互联互通与开放的基础之上的。如今我们不可回避的现实是,大数据变革正处于其最初阶段。[[17]]随着大数据技术的应用,一些现实问题也暴露出来。比如被人们奉为圭臬的《纸牌屋》,经验却难以复制,“大数据”其实只是奈飞公司(Netflix)的一个营销噱头。[[18]]2014年9月,百度利用大数据预测《黄金时代》电影票房结果遭遇“失算”,百度的票房预测为2亿元至2.3亿元,但实际票房不足5000万元。[[19]]大数据技术的不成熟,导致大数据要想真正改变社会、重塑新闻业还需一段时日,而在新闻业步入大数据时代的进程中,还有许多现实问题值得探讨。

1.数据垄断对大数据新闻生产的限制

2013 年中国产生的数据总量超过0.8ZB(相当于8亿TB),2 倍于2012 年,相当于2009 年全球的数据总量。预计到2020 年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。[[20]]从数据量看,大数据作为一种资源已客观存在,但现实问题是,新闻业并没有掌握这些数据。得数据者得天下,没有可靠、稳定的大数据来源,一切发展都只能成为空谈。[[21]]

作为内容生产者的新闻媒体没有掌握大数据是客观现实。当前国内媒体内部数据来源存在着三方面的问题:一是内容数据存储方面没有进行长期的积累;二是用户数据没有形成一定规模;三是广告商数据,其规模离大数据也还有很大的距离。[[22]]除了媒体自身原因,媒体外的数据垄断是导致大数据缺乏的主要原因。

目前大数据主要掌握在各数据终端平台,如百度、新浪、腾讯等,现实问题是各数据终端平台并未互联互通,数据垄断已经形成。以电视新闻为例,2014年上半年央视、浙江卫视、湖北卫视、江苏卫视的大数据新闻的合作方只有两家:百度和亿赞普。[[23]]电视台均作为传播平台和制作平台,核心数据由这两家公司提供。因此现阶段无法主动占有数据资源,是制约大数据新闻生产的主要障碍。

2.大数据对新闻客观性的影响

目前学界对新闻客观性的认识大致有四个层次:作为业务规范和叙事框架;作为策略仪式;作为专业信念;作为话语体制。[[24]]对新闻客观性的争论在于新闻能否客观、新闻如何客观,新闻的客观性往往与新闻真实性交织在一起,大数据时代与记者在某一个视野有限的观察点上对事物进行的观察与分析不同的是,有效加工的大规模数据可揭示更大范围内的或更接近事实的情状。[[25]]因此大数据新闻运用社会科学研究的方式探寻事实及其背后的联系,有助于媒体建立起面对复杂社会问题时进行新闻报道的透明性。[[26]]从这个意义上说,大数据技术保证了新闻客观性。

这个逻辑恰恰是一个陷阱,大数据是客观存在的,大数据技术却并不是完全客观的。因为大数据反映客观现实的准确性并不在于数据量,而在于异质数据和数据处理分析中的模型和算法。数据相同、但模型、算法不同,结果可能存在差异,甚至相反。以社交媒体数据为例,数据清洗的过程中决定哪些自变量、因变量被考虑,哪些被忽略,这个过程本质上是主观的。[[27]]因此数据样本是否足以代表整体、数据算法是否足以体现与现实关联、对数据的解读是否尽可能抛弃主观性,直接决定数据的客观性、可信性。

通过大数据技术架构图(如图2.)可以看出,大数据技术不是一款简单的数据分析软件,要从大体量、多类别的数据中快速体局价值,几乎需要重构整个数据库技术。[[29]]2009年谷歌流感趋势(Google Flu Trends)曾成功预测了流感在美国的传播,但2011年至2013年却失灵了,原因在于大数据虽擅长观察人们的行为,但不擅长理解人们对每样事物的背景知识。[[30]]所以大数据技术不必然保证新闻客观性,这一切有赖于大数据技术的成熟和完善,尤其是在大数据时代的初期,不能盲目信任大数据的分析结果。

3.阈值对新闻生产效益的制约

大数据的基础是数据挖掘和数据处理。2012年末,非结构化数据占互联网数据的75%以上。[[31]]大数据时代的关键并不在于获取更多数据,而是从数据中挖掘知识。从数据到知识转化的过程中,数据处理是核心的一环。

虽然有研究者指出大数据是全数据、总体样本,但实际上大数据不可能等于全数据,全数据是一个理想化、相对的概念。数据是动态产生的,采集数据只能获得一段时间、一些平台的数据(因为有些数据并不公开,或者定期自动删除)。

虽然大数据时代新闻生产中知识的比例将占越来越大的比重,但是不可回避的是,新闻业不是一项非盈利事业,新闻生产的投入与产出、经济效益与社会效益、叫好与叫座等问题是不得不面对的现实问题。解决这个问题最关键的环节在于大数据技术中的阈值(threshold),换而言之就是解决一个问题所需要的数据量。

阈值之所以重要,是因为如果数据少于某一阈值,问题就可以解决;达到某一阈值,就可以解决以前解决不了的大问题;而数据规模超过某一阈值,对解决问题也没有更多的帮助。这类问题称为“预言性数据分析问题”,即在做大数据处理之前,我们可以预言,当数据量到达多大规模时,该问题的解可以达到何种满意程度。[[32]]

新闻业的竞争已经从今日新闻今日报(Today News Today,TNT)发展到现在新闻现在报(Now News Now,NNN),新闻时效性的竞争依然激烈,如果追求全样本、反映复杂现实,忽略了高效的阈值,那么必然影响新闻时效性。而且是否是全样本与能否得出真实的结果并不一定成正相关。比如在民意调查中,对10000个人的测量并不见得比1000人更准确,关键在于异质数据、厚数据(thick data)[[33]]。而且阈值与新闻生产成本有关。2012年全球数据新闻奖的作品《纽约时报》的特别报道《雪崩》(Snow Fall),叫好但不叫座。《雪崩》专题共耗时6个月才完成。虽然纽约时报拒绝透露具体成本,但业内普遍估算应该在几十万美元之巨。虽然这个专题报道点击量很高,还出版了电子版,但这个项目依然没有收回成本。[[34]]解决好阈值可以节约新闻生产成本、提高新闻生产效率。因此阈值问题对于大数据时代的新闻生产而言至关重要,否则大数据新闻不会成为常态化的新闻产品,而会沦落为“奢侈品”。

结语

这是一个“媒介即讯息”的时代,大数据时代的来临,给新闻业带来了全新的机遇,在技术日益成为社会主导的时代,新闻业的走向很大程度上取决于大数据技术的发展。对于大数据的认识,我们需要动态的眼光,大数据时代新闻业的发展还有很多值得探讨的地方,如数据采集带来的媒介伦理(如隐私权),唯用户需求导致的“信息茧房”,数据生产带来的数字鸿沟等问题。大数据需要再审视,大数据时代的新闻业,需要思考的还有很多。



[[1]] 李国杰、程学旗:《大数据研究:未来科技及社会发展的重大战略领域》,《中国科学院院刊》,2012年第6期,第650页。

[[2]] 查询时间:2015年9月17日。

[[3]] [英]维克托·迈尔-舍恩伯格、肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,浙江人民出版社,2013年1月版。

[[4]] 史安斌、刘滢:《颠覆与重构:大数据对电视业的影响》,《新闻记者》,2014年第3期,第52页。

[[5]] 陈超:《中国大数据电视新闻时代的到来》,财新网,http://tech.caijing.com.cn/2014-04-11/114088088.html。

[[6]] 喻国明、李彪、杨雅、李慧娟:《新闻传播的大数据时代》,中国人民大学出版社2014年版,第25页。

[[7]] 王斌:《大数据与新闻理念创新》,《编辑之友》,2013年第6期,第18页。

[[8]] 方洁、颜冬:《全球视野下的“数据新闻”:理论与实践》,《国际新闻界》,2013年第6期,第75页。

[[9]] [英]维克托·迈尔-舍恩伯格、肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,浙江人民出版社,2013年1月版,第16页。

[[10]] 情感分析:一种应用自然语言的处理或其他分析技术,从源文本文件中识别和提取信息的方法。主要为判定作者或者演讲者对某个话题的态度,包括判断、评价、情绪状况、情绪交流等。郭晓科:大数据》,清华大学出版社,2013年版,第121页。

[[11]] 周翔、刘欣:《数据垄断的困境与隐忧》,《人民论坛》,2014年5月(下),第21页。

[[12]] 贾利军、许鑫:《谈“大数据”的本质及其营销意蕴》,《南京社会科学》,2013年第7期,第16页。

[[13]] 喻国明、李彪、杨雅、李慧娟:《新闻传播的大数据时代》,中国人民大学出版社2014年版,第74页。

[[14]] 徐锐、万宏蕾:《数据新闻:大数据时代新闻生产的核心竞争力》,《编辑之友》,2013年第12期,第73页。

[[15]] 肖珺:《大数据与新闻业:机遇与危机》,《社会科学报》,2014 年3月20日第4 版。

[[16]] 彭兰:《“大数据”时代:新闻业面临的新震荡》,《编辑之友》,2013年第1期,第10页。

[[17]] 美国总统行政办公室:《大数据:抓住机遇、保存价值》,2014年5月,浙江大学历史数据研究小组译,英文版地址:http://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf。

[[18]] 参见王义之:《评析触不到的大数据 从预测未来到规避错误》,新华网,http://news.xinhuanet.com/info/2013-10/23/c_132823384.htm;方毅华:《电视剧能靠大数据“算”出来吗》,《中国广播电视学刊》,2014年第4期。

[[19]] 罗政、张玉洁:《百度大数据预测“首秀”缘何“失算”》,经济参考网,http://www.jjckb.cn/2014-10/21/content_524386.htm。

[[20]] 张广彬、盘骏、曾智强:《数据中心2013:硬件重构与软件定义》,ZDNET年度技术报告,2014年1月。

[[21]] 杨晲:《大数据的逻辑及电视行业发展》,《电视研究》,2013年第12期,第30页。

[[22]] 左艳红:《大数据对新闻内容生产的局限》,《编辑之友》,2014年第8期,第64页。

[[23]] 郑小华:《电视时政报道的数据化尝试》,人民网,http://media.people.com.cn/n/2014/0806/c382352-25416579.html。

[[24]] 陈映、董天策:《新闻客观性:语境、进路与未来》,《暨南学报(哲学社会科学版)》,2010年第6期,第149页。

[[25]] 郭晓科:《大数据》,清华大学出版社,2013年版,第3页。

[[26]] 王斌:《大数据与新闻理念创新》,《编辑之友》,2013年第6期,第17页。

[[27]] danah boyd & Kate Crawford(2012).Critical Questions for Big Data.Information, Communication &Society.15:5, 662-679.

[[28]] 冯登国、张敏、李昊:《大数据安全与隐私保护》,《计算机学报》,2014年第1期,第248页。

[[29]] 陶雪娇、胡晓峰、刘洋:《系统仿真学报》,第25卷,2013年8月,第145页。

[[30]] David Lazer1, Ryan Kennedy, Gary King, Alessandro Vespignani,The Parable of Google Flu:Traps in Big Data Analysis.Science.http://www.sciencemag.org/content/343/6176/1203.full.

[[31]] 李国杰、程学旗:《大数据研究:未来科技及经济社会发展的重大战略领域》,《中国科学院院刊》,2012年第6期,第648页。

[[32]] 李国杰、程学旗:《大数据研究:未来科技及社会发展的重大战略领域》,《中国科学院院刊》,2012年第6期,653页。

[[33]] Mikkel Krenchel& Christian Madsbjerg.Your Big Data Is Worthless if You Don’t Bring It Into the RealWorld,

http://www.wired.com/2014/04/your-big-data-is-worthless-if-you-dont-bring-it-into-the-real-world/。

[[34]] 唐铮:《从“雪崩”到“战友”——纸媒的多元化破局求存》,《新闻与写作》,2014年第3期,第85至87页。

 

 

 

(责编:王妍(实习)、燕帅)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部