人民网
人民网>>传媒>>传媒期刊秀:《新闻爱好者》>>2017年第6期

数据新闻现存的问题与解决之道

——兼论人工智能的应用价值

喻国明,刘界儒,李阳
2017年07月20日14:47 |
小字号

来源:《新闻爱好者》

【摘要】依靠数据的采集、挖掘和展示所形成的数据新闻已经以其独有的功能和价值在新闻传播领域崭露头角。但是由于受大数据技术发展的限制,还存在一系列问题亟待解决。从人工智能背景下大数据方法的关键性改善入手,探讨人工智能对于大数据技术在新闻传播领域中的应用所能提供的关键性技术支撑,分析和预测数据新闻生产的三个重要环节(数据新闻、传感器新闻和可视化新闻)的技术改善之道。

【关键词】人工智能;大数据方法;数据新闻;数据价值挖掘

虽然,数据新闻已经在既往的实践中有了长足的发展,但数据挖掘(Data mining)不足仍然是数据新闻发展必须面对的主要问题。数据挖掘指的是对数据库中的数据进行探索的一个过程,是在海量数据中挖掘有效数据的重要技术。一般而言,数据挖掘在概念的层面分为三个阶段:数据源数据的收集、对于数据源数据的处理以及最终的有效数据的表示。如图1所示,数据挖掘主要通过四个步骤实现:源数据的收集阶段、数据预处理阶段、数据处理阶段、数据评估以及知识表示阶段[1]。具体来说,数据挖掘不足可以体现在以下三个方面:数据收集来源单一、数据处理能力有限和数据可视化表达程度有限。

一、现阶段数据新闻的实操所存在的主要问题

(一)数据收集来源单一

目前数据新闻面临的首要问题就是缺乏可收集的数据信息源,或者数据库信息过于单一,缺乏全面、结构性的数据源数据库。从我国的情况来看,作为常用来源的商业数据库中的数据,通常只集中在某一个方面,其所能描述的用户特征也只是片面和单一角度的认识。腾讯作为目前拥有最大即时通信工具的互联网巨头公司,掌握着大量用户的社交关系数据,虽然通过微信线上支付(红包)的功能,占据了一定移动支付的市场,但比起支付宝(阿里巴巴旗下的个人第三方支付平台)来说,腾讯对于用户消费习惯和财务状况的洞察和了解又远不及后者。图2是2016年第二季度的第三方互联网支付市场交易份额,财付通(腾讯在线支付平台)虽然仅次于支付宝占据了移动支付市场的第二位,但仍然无法与支付宝等量齐观。从整体的数据库类型的情况看是这样,落实到具体的依靠数据挖掘实现个性化新闻生产的实践中时,依然面对着信息来源单一的挑战。

以今日头条为国内个性化推送新闻的媒体为例,作为国内第一个个性新闻化推送新闻的产品类实践者,今日头条自2012年创建后,到2016年8月,已经拥有装机用户超过5.5亿,日活跃人数超过6000万。从其CEO对今日头条有关用户的数据信息来源的介绍来看,主要是三个方面:第一,今日头条通过对用户的行为,如点击、停留、评论、转发等数据的搜集和聚合分析,获得用户对新闻信息的个人喜好和需求的推算。第二,根据用户所处的环境特征,上网环境是Wi-Fi还是付费流量、GPS所在地,是在常驻地还是旅游,是白天还是晚上等获得用户地理方面的数据信息。第三,基于用户使用社交网络账号关联登录后,系统对于用户社交圈和社交关系的分析,来得到关于用户更清楚的社会化画像,从职业身份或共同爱好入手计算用户的兴趣和需求。最后,系统通过把用户行为、地理、社交三方面特征组合,利用算法综合实现对用户偏好和个性需要的挖掘。

但是,伴随着个性化推送新闻的发展,也出现了“信息茧房”这种对现代人接收信息弊大于利的问题。有学者认为出现“信息茧房”的主要原因是,在互联网时代,人们可以完全根据自己的爱好定制信息,从海量信息中随意选择自己关注的话题,久而久之,这种“个人日报”式的信息选择行为会导致网络茧房的出现。当商业信息服务利用个人定制的需求开始为个人提供个性化新闻时,人们会不自觉地失去了解不同事物的能力和接触机会,深陷个人“信息茧房”之中。减轻“信息茧房”负面影响的方法首先是要提高算法对个人信息需求的构面了解,不但要满足受众显性的,比如根据行为特征收集到的需求,还要结合其社交圈子,综合改善个性化推送新闻对用户需求的完整定义和把握,尽可能避免越推送越窄,越推送越偏的现象。

(二)数据处理能力有限

除了数据来源单一以外,数据新闻目前存在的第二个问题是,处理数据能力有限。而数据处理和分析能力是决定数据挖掘的关键环节。目前,我们所使用的数据处理工具和算法都还比较传统,不适用大数据规模大、体量大的特点。祝建华教授说过,虽然大数据正在发生,但是我们对大数据的了解、处理能力还处在早期阶段。这就势必会影响数据新闻未来的发展。有学者认为成熟的数据处理技术涉及三个方面:存储、提取和统计分析[2]。

目前,在存储方面,我们计算机的存储水平还是远远跟不上大数据的规模,分析数据前先要把数据读到内存里,而现在功能比较强大的计算机内存也远远满足不了一个大型网站一天所产生的数据,这样一来,这个过程就需要耗费大量的时间,影响数据处理速度[3]。根据2014年万璞和王丽莎的总结,目前常见的分析数据的算法和模型有:①传统统计方法:抽样技术、多元统计分析和统计预测方法等。②决策树:它利用一系列规则划分,建立树状图,用树形结构来表示决策集合,可用于分类和预测,常用的算法有CART、CHAID、ID3、C4.5、C5.0等。③人工神经网络:它模拟人的神经元功能,从结构上模仿生物神经网络,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,是一种通过训练来学习的非线性预测模型,它可以完成分类、聚类、特征挖掘、回归分析等多种数据挖掘任务。④遗传算法:它是基于自然进化理论,在生物进化概念的基础上设计的一种优化技术,它包括基因组合、交叉、变异和自然选择等一系列过程,通过这些过程以达到优化的目的,是模拟基因联合、突变、选择等过程的一种优化技术。⑤关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧…∧An→B1∧B2∧…∧Bn,一般分为两个步骤:第一步,求出频繁数据项集;第二步,用频繁数据项集产生关联规则。⑥最近邻技术:这种技术通过已辨别历史记录的组合来辨别新的记录,它可以用来做聚类和偏差分析[4]。

根据以上方法我们可以看出,现有的大数据分析技术都是基于计算机技术辅助统计技术实现的,除了遗传算法和人工神经网络外,都是经典的统计学算法,这些算法从19世纪七八十年代开始发展,到20世纪20年代初成型,距今已有80—120年的历史[5]。虽然它们具有极高的稳定性且较为成熟,但它们是为分析普通数据设计的,对于大数据的特点来说,难免有不能契合的方面。

(三)数据可视化表达程度有限

数据挖掘的第三个环节是数据展示,即可视化表达数据处理结果。米尔科?劳伦兹于2010年在阿姆斯特丹召开的第一届国际数据新闻圆桌会议中指出,数据新闻要以可视化的呈现数据并合成新闻故事为最后一个流程[6]。

数据可视化,在今天已经是一个固定的概念,指的是将数据信息的“量值”或“关系”等转变为直观的图形。数据的可视化加工,目前主要包括将数值型、文本型的数据及其关系用视觉化手段,例如图片、动画等形式呈现出来[7]。

可视化新闻是随着数据在新闻中的广泛运用出现并发展起来的,它是以数据为核心、信息为支撑、可视化为基本载体的跨媒体新闻报道形式。可视化新闻的价值一方面取决于它的表现形式,另一方面取决于它对隐藏在宏观、抽象数据背后的新闻故事性的展示。

然而,并不是所有的新闻事实都适合用数字或数字化的方式来表现。数据的可视化表达一方面受表达形式的局限,在告诉受众“发生了什么”的方面要强于告诉受众“为什么发生”。当数据的可视化仅限于告知事实时,可视化新闻或者数据可视化手段就只能用于最基础的新闻报道。像深度报道这一类的新闻,就不能很好地涉足。另一方面,即便可视化技术有所改善,也很难改变数据本身不擅长表现复杂因素和关系的特点。学者丁柏铨说过:“个人与个人或群体之间的关系多涉及政治、经济、文化等各种因素,涉及现实中的利害关系和历史上的恩恩怨怨。”[8]

(责编:马潇(实习)、宋心蕊)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部