新闻写作机器人的应用及前景展望——以今日头条新闻机器人张小明(xiaomingbot)为例

赵禹桥

2017年01月11日08:27  来源:人民网研究院
 

摘要:在里约奥运会上,今日头条的一个名叫“张小明”的新闻机器人让读者眼前一亮。2秒钟写稿,拟人化语言,智能配图......近些年来,人工智能在新闻领域的应用越来越频繁,不少人惊呼连记者这个行业都要被机器化了么?本文将对当前新闻写作机器人的应用情况、应用优势和不足进行说明和探讨,并对其发展前景作出展望。

关键词:新闻写作机器人;xiaomingbot;数据处理;机器学习

一、当前新闻写作机器人的发展概况

在前不久结束的里约奥运会上,一个名为“张小明(xiaomingbot)”的新闻机器人小试锋芒。在奥运会开始后的13天内,共撰写了457篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道,每天30篇以上。不仅囊括了从小组赛到决赛的所有赛事,且其发稿速度之快,也让人惊讶——几乎与电视直播同时。

“张小明”的核心——“写稿模块”由今日头条媒体实验室同北京大学计算机所万小军团队共同研制。其工作原理是结合最新的自然语言处理、机器学习和视觉图像处理的技术之后,通过语法合成与排序学习生成新闻。 作为第二代新闻机器人,“张小明”不仅可以通过检索图片自己选择图片,还能模仿人类的语气,使用诸如“笑到了最后”、“实力不俗”等词语(图1)。

图1

新闻机器人,或者叫AI机器人。是人工智能在新闻领域的最新应用。其实,在“张小明”出现以前,新闻机器人就已被世界上的主流媒体所关注并加以使用。例如,国外有美联社的WordSmith、华盛顿邮报的Heliograf以及纽约时报的blossom等。国内则有新华社的快笔小新、腾讯的dreamwriter、第一财经的DT稿王等。(表1)这些写稿机器人无一例外都运用到了大数据处理技术。首先通过数据采集,将其录入数据库中,在将这些数据按照语句出现频率以及新闻要素关键词进行分析加工。制作出一套符合该媒体发稿风格的模板,然后将新闻元素5W1H代入其中,一篇新闻消息就这样产生了。

表1

而这次成功抢镜的“张小明”是今日头条实验室在里约奥运会开幕一周前研发的AI机器人。它通过对接奥组委的数据库,可以在极短的时间内完成消息撰写,赛事汇总等工作。张小明属于第二代写稿机器人,比起他的前辈们,写稿速度更快——2秒内完成稿件并上传至媒体发布;拟人化程度更高——根据比赛选手的排名,赛前预测与实际赛果的差异,比分悬殊程度,可以自动调整生成新闻的语气;发布稿件类型增加——不仅可以发布赛事消息,还可以生成整个比赛的赛事简报;图片识别筛选——可以识别图像,在文章中选取插入赛事图片,图文并茂更加生动形象。

二、机器人写稿的优势:

1、提升发稿速度,全天候新闻热点监测,提高新闻的时效性

时间对于新闻的意义非同小可,尤其是在当前网络新闻环境之下,可谓是分秒必争。新闻机器人通过之前学习相似稿件的写作模式,凭借其快速的信息处理能力,可以在极短的时间内就写出一篇符合该媒体写作风格的作品。以“小明”为例,在奥运会期间其一篇稿件的完成时间约在2秒左右,也就是说比赛刚一结束,稿件就已经写好发布了。这让其在发稿速度上要快其他媒体一步。其次,发出的稿件可以第一时间发布到社交媒体上,让其消息在众多类似消息中脱颖而出,更容易受到用户的关注。最后,记者在长时间的报道压力下可能忙中出错,而身为机器“小明”可以实现全天候24小时监测赛事热点,既不漏题同时也保证了记者有充分的精力应对关键比赛的详细深度报道。

2、新闻更加全面,互联网端新闻报道的长尾效应突出

头条实验室负责人李磊博士介绍,“张小明最大的意义在于,面对奥运会这样同时举行上百场比赛的综合赛事,记者很难关注到每一场比赛,而机器人可以任劳任怨的为每一场比赛报道,无论这场比赛多么冷门和不重要。传统新闻理论并不认为这些冷门比赛或者热门比赛(比如乒乓球)的前几轮小组赛有新闻价值,可是通过我们的平台测试,我们发现对冷门场次的报道任然有可观的阅读量。” 这说明在互联网平台上新闻报道的长尾效应十分突出,即由于受众基数巨大,即使小众用户其数量也十分可观。同时基于互联网平台的新闻传播对个性化新闻需求的满足也有利于用户黏性的增长。这也符合未来定制新闻,分众化新闻的大趋势。

3、使记者从快新闻中解脱出来,着力对深度新闻的打造

当前,新闻消息的生成和传播速度越来越快,新闻的时效性也要求越来越高,但与之相对的一则新闻消息的影响力却大不如前。一方面,新闻的半衰期越来越短,另一方面快餐式的新闻充斥网络。媒体行业的激烈竞争使得记者疲于应付千篇一律的消息,即便如此,漏题现象也时有发生。在这些消息上使用机器人写作,使得记者可以从疲于奔命式的抢新闻中解脱出来,对事件背后的新闻线索进行深入挖掘和批判性地思考。从长远看来,深度报道对新闻界是有百利而无一害,甚至可以让快新闻逐渐慢下来,也给予读者思考与品读的时间。

4、面对巨大数据量处理时减少出错量

对于经济、体育类的新闻,常常有许多数字、数据需要整理汇总。人类记者在处理这些数字、图表时,常常因为数据量大而忙中出错。但是,机器人凭借其超强的运算能力,可以处理海量数据,且不容易出错。

5、不带有个人情感,文章更加客观

机器人新闻不带有任何人类情感,文章的生成完全依赖于数据。比如在赛事汇总上,不会因为喜爱某支球队而厚此薄彼。而是严格按照数据,客观地陈述事实。在某种程度上,机器人新闻更接近新闻上对客观性的要求。

三、目前机器人写稿存在的不足:

1、机器人对信息的深度理解不够

新闻机器人所能做的只是在现有数据库的支持下,对文章进行词汇和语句的抓取,然后进行排列组合,就像在进行一个复杂的填字游戏那样。机器人对文章的深度理解能力还远远不能与人类相提并论。例如,在张小明于8月16号关于奥运会男乒半决赛的一篇报道中,它写道:绝望之际,失败女神朝其抛出了橄榄枝。(图2)机器人记者显然没能领会橄榄枝在自然语言中的含义。由此看来虽然身为第二代新闻机器人,在语义理解上仍具有很大缺陷。但随着机器学习能力的不断提高,相信这种低级错误是完全可以避免的。

图2

2、扁平化新闻千篇一律,缺乏亮点和重点

这次小明发布的新闻可谓面面俱到,对每一场比赛都进行了报道。然而,由于模块式的报道,难以回避的一个问题就是千篇一律,每篇报道的结构甚至是用词用句都差不多,缺乏亮点和重点,难以给读者留下印象。例如,我们选取小明在羽毛球男单、男双、女单、女双四场比赛(图3),可以看出,小明使用了大量相同或相近的词语,且句子的排列顺序都近乎相同:第一句先将新闻要素——时间、人物、地点、事件进行了说明。之后是对赛况的说明——精彩纷呈,高潮迭起。然后说明比赛时间、比赛规则、比赛结果、比分结果等。可以看到模板化复制痕迹很突出,且面面俱到,连赛制、体育场馆、排名都详细说明。但很明显缺乏亮点和重点。

图3

3、对信息的提炼和概括能力不足

要想把一篇文章写好,对信息的概括和提炼能力是一个记者必备的职业素质,长而空洞的文章是没有人看的。但目前的写作机器人显然没有提炼和概括的能力,提炼与概括的前提是理解,机器人对于人类语言的理解能力还十分弱,这就限制了机器人写作的文章体裁和领域。

4、写作领域较为单一,目前局限为财经和体育

机器人新闻当前的应用还停留在以使用数据为主的新闻领域。具体的说是在财经和体育方面。主要工作是年度财报新闻以及赛事新闻。而且大部分的新闻机器人都较为单一的从事某一领域的写作。很少能“身兼数职”、“一机多能”。这一方面是由于其初始写作模块的设置,功能较为单一,未能考虑到深读学习功能;另一方面,数据壁垒的导致“小明们”不能获取学习更多的数据资料,导致其“知之甚少”。

结论:目前的机器人新闻并不能等于智能新闻

很多人忧虑,由于写作高效客观,表述全面,机器人会取代编辑记者。但从目前机器人新闻的涉及面和功能来看,还不足为虑。所谓的新闻机器人其实只是一个自动化写作程序。称之为机器人还言之过早。它不能对其进行提炼升华、也没有感性的语言作支撑。可以说它只停留在了智的层面,而没有上升到情的高度。这样写出来的文章千篇一律,读者缺乏情感的共鸣。此外,一些人将现在的机器人新闻称为智能新闻,AI新闻其实是不准确的,目前的机器人新闻只是简单的套用模板,简单地对新闻元素做“加法”,真正的智能新闻应该是可以通过文字和人类进行情感的交互的新闻。

四、未来机器人新闻的发展方向:

1、跨领域的多面手:

目前来看,新闻机器人的写作能力还仅仅停留在某一领域。一方面,现有的机器人写手不像人类一样,可以眼观六路耳听八方,它的处理器能力还很单一。交叉数据的处理能力很弱。其次,数据库的开源也是制约新闻机器人跨领域工作的一个障碍,机器人写手只有接入到相应的数据库中才能继续进行分析数据,加工模板,再套用写作。不同数据库之间的开源以及数据的整合使得机器人的跨领域写作有一定阻力。因此,像新华网的快笔小新,它其实是有3个分身,每个分身各处理一个领域的新闻消息。但是,机器人的发展不可能局限于某一领域。随着其数据处理能力的增强,以及数据开源成为可能。跨领域的机器人新闻写作将成为可能,这样一来,不仅大大节约了成本,而且写出的稿件将更加全面,不同数据库的资料可以相互补充,取长补短。写作的类型也将不仅仅局限于短消息。使得人物通讯、甚至时事评论成为可能。

2、人类记者、编辑的助手:

将来的新闻编辑部很可能出现二加一的局面,即机器人记者同人类记者撰稿,机器人编辑同编辑共同审核把关。机器人记者可以对大量文本、音视频数据进行处理,形成报道提纲或数据图表,结果一轮对数据的加工,使得记者省去了查阅资料,整理汇总的不便,对报道重心做到心中有数,下笔有神。同时,可以协助编辑校对文稿,并快速发布到各媒体终端。

3、平等的交流者:

目前为止,写作机器人还停留在单向度的接受指令,进行运算的层面。也就是说机器人还只能停留在辅助记者工作的阶段。但相信在不久的将来,随着数据量的增多,机器的运算能力的增加,以及机器对于自然语言理解能力的增强,机器人可以平等地同人类进行交流,对人类的意见进行反馈建议。

4、多平台终端、数据库资源的连通者:

未来随着各机构数据库、不同平台之间的不断开源,新闻机器人可以实现“推”与“拉”的多平台终端、数据库资源连通。一方面可以将写好的稿件快速同时上传到多个媒体平台,例如目前机器人小明可以将所写今日头条的稿件自动共享到微博平台;另一方面,将不同数据库连通起来,使得数据交叉整合,发挥更大的效能。

5、媒介融合的推动者:

新闻机器人小明在这次奥运新闻报道中加入了图像识别,可以挑选出合适的比赛画面作为文章配图。在今后的发展中机器人甚至可以将视频、音频甚至虚拟现实技术整合起来。实现真正地媒介融合。新闻机器人和可能是今后媒介融合的一个具体产物,它出现在新闻现场,根据新闻对象需要,安装相应的新闻模块,装配虚拟现实摄像头,可以快速写稿、现场直播、制作VR作品.......未来的新闻机器人发展的可能性是无限的。

参考文献

1Towards Constructing Sports News from Live Text Commentary,Jianmin Zhang Jin-ge Yao Xiaojun Wan,Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 1361–1371,Berlin, Germany, August 7-12, 2016

2新华网:http://news.xinhuanet.com/fortune/2016-08/12/c_129224795.htm 2016年08月12日 10:57:47

(责编:温静、赵光霞)

相关专题

推荐阅读

年终策划:2016传媒新规知多少
   2016年,我国发布、出台和通过了不少有关传媒的法规、通知及规定,人民网传媒频道一一为您进行梳理,看看大银幕、小荧屏、广播、互联网及移动端等会有哪些新变化。
【详细】年终策划:2016传媒新规知多少    2016年,我国发布、出台和通过了不少有关传媒的法规、通知及规定,人民网传媒频道一一为您进行梳理,看看大银幕、小荧屏、广播、互联网及移动端等会有哪些新变化。 【详细】

迎第十七个记者节 看优秀新闻人炼成记
   第十四届长江韬奋奖评选日前正式揭晓,在第十七个记者节来临之际,让我们走近这些中国最高新闻奖项获得者,通过数据和事迹,为您揭秘优秀新闻人修炼之路。
【详细】迎第十七个记者节 看优秀新闻人炼成记    第十四届长江韬奋奖评选日前正式揭晓,在第十七个记者节来临之际,让我们走近这些中国最高新闻奖项获得者,通过数据和事迹,为您揭秘优秀新闻人修炼之路。 【详细】