中英自动化新闻的可读性研究【2】
四、研究结果
基于定量分析,本研究得出了如下结论:
受访者对人类中文报道的判断率均高于或等于50%;除财经新闻外,受访者对人类英文报道的判断也十分准确;受访者对中英文财经新闻的判断率均低于40%。本文认为,财经新闻来源的判断率低是由于财经自动化新闻领域发展已经十分成熟。
整体上,人类撰写的新闻可读性综合指数高于自动化新闻。但是。英文报道的自动化新闻的可读性综合指数已经接近人类撰写的新闻,甚至,英文报道的财经领域的自动化新闻可读性综合指数超过了人类撰写的新闻,这说明国外的自动化新闻的发展水平高于国内。
具体在各个指标上,英文财经新闻领域,自动化新闻的“文本易读程度”明显高于人类新闻。但在体育(中英文)、财经(中文),人类新闻的“文本易读程度”皆明显高于自动化新闻的“文本易读程度”。除英文自动化财经新闻外,受访者对人类新闻报道的“阅读感受”均优于自动化新闻,财经中文领域的差距尤为巨大。在“语言专业程度”这一指标上,财经领域(中英文)以及地震领域(中文)的自动化新闻的专业程度明显高于人类新闻。
总结而言,现阶段,自动化新闻在“文本易读程度”与“阅读感受”两个指标上显著低于人类撰写的新闻,而在“语言专业程度”上高于人类撰写的新闻。
为了从宏观层面了解自动化新闻的发展趋势并弥补定量研究的局限性,本文采用访谈法,专访了美国Narrative Science公司的联合创始人约翰?坦普勒、新加坡国立大学计算机科学专业博士唐怡暄和今日头条数据传播副总监刘志毅。
根据定量和定性的研究,本文得出如下结论:
研究结论一:现阶段,中国读者可以正确判断报道为人类撰写还是算法生成。
研究结论二:现阶段,自动化新闻的可读性逊色于人类记者撰写的报道。
研究结论三:现阶段,自动化新闻的“文本易读程度”与“阅读感受”两个指标上上显著低于人类撰写的新闻,而在“语言专业程度”上高于人类撰写的新闻。
研究结论四:现阶段,国外的自动化新闻的发展水平高于国内自动化新闻的发展水平,且差距较大。
研究结论五:在财经、体育与地震三个领域中,财经自动化新闻处于领先水平。
五、讨论与反思
西方学界多个实证性研究和本研究都证明:由于自然语言生成技术的工作原理,算法的写作质量和可读性是受限的。约翰?坦普勒在接受专访时指出,从算法工作原理中,很清楚就能看出一篇成功的自动化新闻需要诸多前提:首先是题材上的局限,新闻题材必须是重复性的、事实型的报道;其次是非常高的数据要求,正如约翰所说,坏的数据会导致坏的报道。自动化新闻需要的数据需要清晰(clean)、准确(accurate)和结构化(structured)的数据。最后,成功生成报道还须有合适、有趣的样本文字,事先需要人工定义相应报道的模版样本。
在以上三个前提都满足的情况下,跟人类相比,算法就拥有了大批量、快速、低成本、低错误率的优势。换句话说,算法的工作原理决定了算法可能在程式化、题材重复的新闻报道中,才有可能比人类更胜一筹。然而,即便以上的前提条件全部满足,算法也可能因为一些突发情况和数据质量的问题,产生意想不到的错误。
什么是结构化的数据?《自动化新闻指南》关于结构化数据有一个直观的解释:“自动化新闻需要高质量的数据,这些数据是结构化的、机器可读的、并遵循格式的。换句话说,这些数据必须可以在电子数据表中储存。新加坡国立大学计算机科学博士唐怡暄进一步解释道,“属性”就位于电子数据表的第一行,下面的每一行数据需要遵循上述格式。
总结而言,算法有诸多局限:
其一、自动化新闻数据的透明度、数据库之间的壁垒都是亟需解决的问题。
其二、自动生成新闻的算法总是遵循一系列事先制定好的规则,很难创新。
其三、算法的主要应用范畴仍然是数据充沛、定义清晰、题材重复的报道领域。
其四、算法的可读性是受限的。
其五、自动化新闻仍需人类编辑进行监控,也即准确性仍需通过人类编辑保证。
除了算法工作原理带来的劣势,自动化新闻还受到数据库壁垒的限制。今日头条数据传播副总监刘志毅介绍道,目前今日头条没有从其他数据库中抓取任何数据。他认为,如果打通数据库之间的壁垒,算法供应商则可以提供更精准的用户画像。但是目前国内的数据壁垒仍较高,数据库分享仅限于少数的商业合作。
因此,在未来,自动化新闻的强势领域依旧是有限的领域。人类记者应和自动化新闻形成“联姻”,互相弥补不足。
对人类记者而言:首先,自动化新闻可读性差的特点给人类记者提供了一个巨大的机会。记者应该提高算法不具备的技能,加强自身的深度报道、深度分析和采访能力。第二,人类和机器人未来会日益紧密地结合,算法会分析数据,找到有趣的故事,并提供初稿。而人类记者则会在此基础上补充更深度的分析,并通过采访增加幕后故事,最终完成报道。在自动生成新闻的过程中,记者也要承担一些新角色。比如,美联社新设了自动化编辑一职核实算法生成的新闻。
对媒体机构而言:自动化新闻符合新闻机构的商业化大趋势。利用自动化新闻算法完成常规化的任务,能够减少成本并腾出记者时间来提高新闻质量。但是,媒体机构必须意识到算法的工作原理决定了其拥有可读性差等局限。因此,媒体机构不可断然相信算法的准确性,要安排人类编辑进行核实。在报道争议性话题时,媒体机构更应该审慎地使用新闻自动生成技术,因为算法的可靠性会受到数据质量等多方面的影响。
对自动化新闻算法而言:自动化新闻可以在“文本易读程度”和“阅读感受”上进行算法优化;财经领域的自动化新闻在数据挖掘这方面已较为成熟。体育与地震领域的自动化新闻还有很辽阔的发展空间;建议中国应该更多得借鉴国外的算法、并根据中文的语言特色优化算法;建议打通数据壁垒,各个媒体单位和商业公司形成“数据共享。
对研究者而言:虽然算法可以更快速、更大批量地生产重复题材的报道,但自动化新闻的准确性依旧取决于人类本身,尤其在报道争议性题材的时候,保证算法生成内容的准确性显得至关重要。
本文建议,今后的研究可以通过个案分析的研究方法,分析自动化新闻准确性的问题和解决方案。此外,本研究在大量梳理文献,并针对“语言专业程度”指标进行深入研究时发现:自动化新闻的可读性,尤其是语言专业性,正在以极快的速度进步和发展。然而,由于本次研究时间和研究范围的局限,本文还未能对此作出准确的判断,希望未来能开展进一步的研究。
分享让更多人看到
- 评论
- 关注