人民网
人民网>>传媒>>人民网奖学金>>北大2017

中英自动化新闻的可读性研究

贾宸琰、姚源、钟旺
2018年01月24日15:37 | 来源:人民网研究院
小字号

摘要

目前,全世界越来越多的新闻编辑室引入了自动化新闻。本文采用定量和定性相结合的研究方法,研究人类新闻和自动化新闻的可读性差异。问卷调查的对象是109名中国学生。研究样本是摘自财经、地震和体育报道三个算法发展成熟的报道领域的12个弗莱施可读性分值相近、字数相近的中英文报道段落。受访者在不知晓12个报道段落来源的前提下,进行可读性评价。为了从宏观层面了解自动化新闻的发展趋势,本文采用了定性的访谈法进行补充。本文采用访谈法,专访了美国Narrative Science公司的联合创始人约翰?坦普勒、新加坡国立大学计算机科学专业博士唐怡暄和今日头条数据传播副总监刘志毅。

基于中文语言的特点,本研究对国外研究进行改进,将新闻可读性操作化为文本清晰度、语言专业程度等9个测量指标。首先,受访者需要通过5级量表的方式,对12个报道段落的9个测量指标进行1分(非常低)至5分(非常高)的打分;其次,受访者判断每个段落分别是由算法还是人类写成。我们发现9个测量指标相关度高,通过因子分析归纳为“文本易读程度”“语言专业性”“阅读感受”3个测量指标。最后,我们邀请新闻业专家对3个指标重要程度评价,并采取AHP层次分析法进行加权,获得新闻可读性指标得分。

研究结果显示:现阶段,中国读者可以正确判断报道为人类撰写还是算法生成;自动化新闻的可读性逊色于人类记者撰写的报道;自动化新闻的“文本易读程度”与“阅读感受”两个指标上显著低于人类撰写的新闻,而在“语言专业程度”上高于人类撰写的新闻;现阶段,国外的自动化新闻的发展水平高于国内自动化新闻的发展水平,且差距较大;在财经、体育与地震三个领域中,财经自动化新闻处于领先水平。

综上,算法的工作原理使得其拥有可读性差等诸多局限。自动化新闻可读性差的特点给新闻行业提供了巨大的机会。媒体机构在利用自动化新闻解放常规报道领域的劳动力的同时,不可断然相信算法的准确性,要安排人类编辑进行核实;记者应该提高算法不具备的技能,加强自身的深度报道、深度分析和采访能力。未来,人类应与算法“联姻”。

关键词:自动化新闻;可读性;算法;Narrative Science

一、自动化新闻可读性的研究意义

继2014年7月美联社引进“机器人同事”后,全世界的新闻编辑室纷纷引入自动化新闻。其中,诸如《纽约时报》、路透社等西方媒体都在自动化新闻的发展上走在了前列。2015年9月,腾讯也发布了中国首篇自动生成的新闻报道。

尽管媒体引进自动化新闻技术的初衷是帮助记者从繁琐细碎的工作中解放出来,但问题也随之而来。和人类记者撰写的报道相比,自动化新闻的可读性较低,这也可能成为自动化新闻未来发展过程中的绊脚石。

2016年1月,哥伦比亚大学新闻学院数据新闻研究中心Tow Center发布的最新研究报告《自动化新闻指南》将新闻自动生成技术的应用定义为“自动化新闻”(Automated Journalism)或“算法”(Algorithms),而“机器人新闻”则被认为是模糊和误导性的称谓。在我国,学者们多将该技术笼统地称作“新闻机器人”亦或“机器人记者”,缺乏明确而清晰的定义。

为了规范定义,本文将避免使用“新闻机器人”这一较为通俗但却带有误导性的定义,而统一使用“自动化新闻”“算法” 这两种较为规范的定义。

自动生成的新闻内容是否具备和人类撰写的报道相似的可读性?读者能否辨别出报道是由自动生成的还是人类撰写的?未来,自动化新闻是否有可能替代人类记者?国外学界针对这些问题,已经做了相当多的探讨。而在本研究进行前,本文作者尚未看到国内有学者对自动化新闻的可读性进行定量分析,更没有相关研究考察中国读者对自动化新闻的接受度和辨别能力。因此,本文研究的是,在算法最擅长的财经、地震和体育三个报道领域,中国读者对自动化新闻的可读性评价。

二、文献综述

西方学界在自动化新闻领域做过多个极富价值的定量分析。 瑞士卡尔斯塔德大学的克里斯特?克勒瓦在受访者不知道文章来源的情况下,观察和分析人们对新闻报道的质量评估。这个调查实验的目的是研究在出版商不公布作者是自动化算法还是人类的情形下,读者对文本的接受度,这些接受度包括总体质量、可信度和客观性。

克里斯特?克勒瓦在《进入新闻机器人——用户对自动化内容的接受度》一文中采用了实证研究的方法,提供了相对较小样本量的研究结果。克勒瓦向媒体与传播课堂上的46位瑞典本科生提供了一篇关于美国足球比赛的新闻简述。一个控制组看到的文章是由算法生成的,剩下一组参与者看到的是人类记者写的新闻。参与者中没有一个人知道他们看的文章是人类还是算法写的。这些文章是英文写的(非参与者的第一语言),没有任何图片,基本都是相同的长度。参与者们按照自己对可信度和可读性的标准评判将文章进行排序。然后,他们要猜测哪些文章是记者写的,哪些是算法写的。

该研究提出了两个研究问题:第一个问题是读者对自动化新闻的接受度如何?(包括整体质量和可信度)第二个问题是,如果报道内容相似,读者是否能够区分自动化新闻和人类撰写的报道?研究将“客观性”和“接受度”量化为了多个评价指标,例如对自动化新闻和人类撰写报道的接受度分为“连贯性”“描述性”“信息量”“清晰度”“阅读舒适度”“无聊程度”几个考量指标,从而进行定量分析。

非常有趣的是,研究结果显示,参与者并不能非常准确地辨别文章的来源。而且,自动化新闻在可信度方面的排名比人类写得高,但在可读性方面低于人类。研究结果显示,自动化新闻内容是非常描述性和无聊的。

本文吸取克里斯特?克勒瓦的研究方法,采用了小样本分析的方式,并在此研究基础上,将参与者的范围扩展为在国内外高校、英文水平良好的本硕博在读中国学生群体。这一群体接受了一定时间的新闻教育,且英语水平普遍较好,阅读非母语(英语)的新闻文本无障碍。本文在该研究的部分量化指标基础上,改进为九个指标,并通过探索性因子分析,将九个指标降维到“文本易读程度”“语言专业性”“阅读感受”三个指标。

还有的定量分析研究,在读者阅读研究样本时,混淆了报道的来源,故意错误标注阅读材料的作者。2014年,希勒?范?徳?卡和克朗姆(Hille van der Kaa and Krahmer)在哥伦比亚大学布朗学院计算机和新闻讨论会上对可读性进行研究。研究者要求一百六十八名新闻读者对四篇自动生成的新闻进行评估,评估的依据是新闻专业性和可靠程度。 所有的阅读材料要不注明是计算机写的,要不故意错误地注明是“记者写的”,从而判断参与者在混淆来源的情况下,对自动化新闻质量的接受度(Perceptions of Quality)是否会产生影响。研究结果显示,即便故意在署名栏故意混淆的举措,对读者判断新闻的质量毫无影响。读者们对新闻质量的评判并不受到文章是算法还是人类撰写的影响。

和上述研究一样,安德里亚斯?格雷费等人的《自动化新闻的接受度:可信度、专业度和可读性》 一文也混淆了报道来源,对参与者进行测试,但该研究将新闻可读性也囊入研究范畴。该研究通过受测者内设计,将自动化新闻分为体育、金融两个题材大类,并采取在线调查问卷的方式,使用李克特量表进行测量,要求参与者将对看到的报道片段进行1至5分的打分。除去回答不完整的调查问卷,有效参与者为986位。作为研究样本的文章都是由参与者的母语(德语)写成的,不包含任何图片,长度相近,都来自金融和体育领域。每位参与者看到两篇文章,并对其可信度、新闻专业度和可读性进行打分。

研究结果和此前的研究非常相似,参与者对质量的评分并不受到作者栏的混淆。无论真正的报道来源是什么,参与者们都准确地辨别出自动化新闻更具有可信度和专业度,但是人类撰写的新闻报道更具有可读性,人类撰写报道的可读性大幅度高于自动化新闻。

本研究吸取了安德里亚斯?格雷费等人研究中体育和财经两个分类,并增补了地震类报道,同样采取不告知参与者报道来源的方式。同样,本文也采取五级量表的方式,要求受访者对报道段落的各项可读性指标进行1分(非常低)至5分(非常高)的打分。由于本研究采取小样本调查方式,为了排除由小样本量带来的潜在偏差,本文改进并采用了1对1问卷发放方式,并采取访谈法作为补充。

有关新闻可读性的定量分析,明尼苏达大学双城分校的林登?达勒奇和塞斯?C?路易斯等研究者在《新闻可读性问题》一文中 使用微软Word软件的可读性分析工具计算出自1998年至2004年的诈骗新闻报道的弗莱施可读性分值(Flesch Reading Ease Score)。计算公式如下:Flesch Reading Ease Score=206.835 – (1.015 x ASL) – (84.6 x ASW) 。其中, ASW代表平均每个单词的音节,用于检测文本中词汇所造成的压力。ASL则代表平均每个句子中单词的数量。弗莱施可读性分值的计算结果介于0至100之间,分值越高代表文本的可读性越强。由于该研究的样本量非常大,所以研究者直接通过可读性工具进行定量分析,而没有从读者的接受度角度分析可读性。

本文对林登?达勒奇和塞斯?C?路易斯等人的研究方法进行了改进。本研究同样采用微软Word提供的可读性分析工具,但仅仅将此工具用于筛选出合适的研究样本,从而保证研究样本的科学性和可比较性。由于该工具的语言限制,本文仅将此用于6段英文研究样本的筛选。本文从40多段研究样本中选择了6段弗莱施可读性分值相近,弗莱施-金凯德等级(Flesch- Kincaid Grade Level)为9级至12级的报道段落作为研究样本。其中,3条由人类记者撰写,另外3条为自动化新闻。

当研究样本弗莱施可读性分值相差不大的时候,读者的判断结果更具有研究价值。因为,弗莱施可读性分值相差不大这个条件,意味着读者无法通过简单地通过段落字数和长难句的多少来判断可读性的高低,而需要通过如“阅读速度”“文本连贯性”“语言通顺性”等由研究者给定的、需要参与者本身新闻素养和英语水平的指标进行衡量和判断,其判断结果则兼顾了文本本身的可读性和读者反馈的可读性两个角度,因而更具有研究价值。

三、研究方法

研究选择目前自动化新闻发展较完善的财经、地震和体育报道三个报道领域为研究领域。本研究通过微软Word软件的弗莱施可读性分析工具,由三个编码者从40多段研究样本筛选出12个长度相似、弗莱施可读性分值相近的报道作为研究样本,考虑语言因素,每个领域各设置一组中文段落和一组英文段落。所有样本段落均源自国内外核心媒体及其自动化新闻合作算法,如美联社、腾讯、今日头条及Narrative Science 等。

本研究考虑中文特性,将克里斯特?克勒瓦研究中的“阅读速度”“理解程度”“文本清晰度”三个指标扩展为“文本清晰度”“文本可理解度”“文本连贯度”“语言专业度”“语言简洁度”“语言通顺度”“阅读速度”“阅读舒适度”“阅读欲望”九个测量指标。受访者需在不知晓报道段落来源的前提下,对12个报道段落的9个测量指标进行1分(非常低)至5分(非常高)的打分,并判断每个段落是由算法还是人类写成。

本研究采取一对一问卷发放形式对国内外高校的中国本、硕、博学生进行调查。本研究共回收109份问卷,保留有效问卷106份。

由于9个新闻可读性测量指标间存在一定的相关性,能提取公共因子,适合做探索性因子分析。本研究对量表中的指标进行反复检验,采用平均正交旋转法进行转置,以特征值检验与碎石图检验为准则,最终归纳为3个因子,每个因子负荷均大于0.5,累计方差贡献率为78.213%,KMO值为0.921,巴特勒球体检验显著,因子检验通过。基于文献研究与现实意义,概括3个公共因子分别为:文本易读程度、语言专业程度、 阅读感受,并基于因子分析结果加权:

文本易读程度=(0766*文本清晰度+0.749*文本可理解程度+0.761*文本连贯度+0.781*语言通顺程度)/3.057

语言专业程度=(0.898*语言专业度+0.61*语言简练度)/1.508

阅读感受=(0.644*阅读速度+0.756*阅读舒适度+0.886*阅读欲望)/2.286

我们邀请了三位新闻学界与业界专家为三个指标重要程度排序,建立三个两两比较的判断矩阵,并利用AHP层次分析法为新闻可读性的文本可读性、语言专业性、阅读感受加权。最终获取新闻可读性评价模型:

新闻可读性=0.47*文本易读程度+0.37*语言专业性+0.16*阅读感受

由此,本研究获得可读性指标的评分均值,并建立新闻可读性模型。本研究旨在研究现阶段人类记者撰写的新闻和自动化新闻的可读性差异,并提出以下具体研究假设:

假设一:受访者对人类撰写的新闻还是自动化新闻的判断率高。

假设二:人类记者撰写的报道的可读性高于自动化新闻。

假设三:人类记者撰写的报道在三个指标上都高于自动化新闻。

假设四:国外自动化新闻的发展水平高于国内自动化新闻的发展水平。

假设五:在财经、体育与地震三个领域中,自动化新闻的发展水平大致相同。

(责编:温静、赵光霞)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部