人民网>>传媒>>传媒专题>>人民网奖学金>>中国人民大学

个性推荐、众包生产与跨界融合:大数据对新闻业态重塑

李慧娟

2015年03月17日21:06    来源:人民网研究院    手机看新闻

    2014年3月,在长达96页的《创新报告》中,面对赫芬顿邮报、Buzzfeed这样的互联网媒体公司的激烈竞争,《纽约时报》忧心忡忡地发出了“我们真的落后了”这样的感慨。美国皮尤研究中心在2014年的媒体研究报告中,直言不讳的指出“我们正在寻找那些能够适应数字媒体采编流程的新闻采编多面手,比如数据库记者、可视化记者和计算机记者。”在大数据时代,数字内容生产和数据挖掘分析成为常态,在新闻领域也不能例外,从用户服务模式、内容生产方式、再到媒体行业本身,无不在经历着颠覆与重塑。

 一、个性化推荐:用户中心与数据闭环

 1. 个性化信息推荐:内容聚合及定制推送

    以用户为中心,基于信息聚合的个性化推荐模式,对新闻生产机制是一种根本性的转变。大数据时代,信息超载已然成为人类面临的又一难题,如何在海量信息中找到有用的信息,是除了数据挖掘与分析之外的另一个挑战。由此,个性化推荐应运而生。通过对用户行为和关系的分析,挖掘用户对内容的偏好和潜在需求,通过信息聚合,自动为其生成出符合其需求的信息。从而实现个性化的内容推荐和定制新闻发送。

    个性化信息推荐首先是基于个性化的信息聚合,即通过人工智能分析和过滤机制,根据个性化需求聚合相关的信息和应用,以此对信息进行深度智能分析,以满足用户个性化的、动态的需求。[1] 信息聚合已经不再是由媒体主导的信息过滤与筛选,而是基于互联网生产逻辑的信息传播的过程,并借助特征分析、语义网等技术的发展,通过分析用户的注册信息、历史浏览记录和上网行为以及社会关系等,在对用户的喜好和潜在需求进行挖掘的基础上,基于个人兴趣形成的个性化信息合成和推荐模式。社交网络和移动互联网的发展,为个性化信息聚合提供了更广泛和更便捷的平台,使深入分析用户标签之间的联系、跟踪用户标签的使用习惯和频率成为可能,并能够以此为用户定制和推送个性化内容。正如Frog Design咨询公司的时尚观察家所言:“我们正在离开信息时代,迈入推荐时代。”[2]

    新浪《今日头条》APP应用,口号是“你关心的,才是头条”。一是基于用户兴趣图谱分析进行个性化阅读推荐;二是对网易、新浪、腾讯等各大门户网站的新闻内容进行聚合,在个性化阅读推荐的道路上已经迈出了关键的一步。首先,基于大数据挖掘技术,有一个所谓的“冷启动”过程,即根据用户在微博上发布的内容及其所属类别、自标签、社交关系、社交行为、参与的群组等来数据源来推断出用户的兴趣点有哪些。随后系统后台做出分析,建立初始的用户兴趣DNA数据,并根据这些兴趣的权重来进行推荐[3]。其次,通过对网易、新浪等各大门户网站的新闻进行内容聚合,从“推荐”、“热门”、“好友动态”三个维度,完成向用户进行包括资讯和评论在内的内容推送。通过社交数据挖掘+个性化推荐的新闻生产和推送模式,给用户塑造了一种“更懂我”的使用体验,同时也使整个新闻生产流程显得更智能。

    即便如此,在专题内容的原创性和窄深化方面、在基于不同场景的个性化需求方面、以及用户对于社区认同感和归属感的塑造方面,《今日头条》还有更长的路要走。另外颇受争议的一点是,由于推送的内容是来自于对其他门户网站信息的聚合,已经引起侵犯内容版权之争。2014年5月,《新京报》起诉“今日头条”不经过允许擅自转载该报的内容,又一次引起原创内容方与内容聚合方的利益之争这个不算新鲜的话题,再次成为舆论焦点。因此,如何设计新的盈利模式,与传统媒体的利益分配达成一致,也是个性化推荐要兼顾的方面。

 2. 何以实现:“数据闭环”驱动数据创新

    数据新闻是基于数据食物链的新闻生产,是采集不同类别和各种来源的数据进行聚合重组和内容挖掘的过程。在这个数据就是生产资料的时代,如何对数据进行循环利用也是数据挖掘与分析的一个重要议题。“数据闭环”指的是从数据的生成、采集、聚合、集成到数据挖掘和分析的过程中,由各种数据来源、数据采集方式、数据库、数据挖掘技术、数据模型和数据产品组成的一个环状数据运营系统。除了建设专业数据库和提高记者的数据素养,媒体本身乃至整个业界都应该具有利用数据、培养数据的意识,形成一个可持续运营的循环体系,这样才能促进数据创新,催生更多佳作。大数据新闻的核心价值在于数据,而数据价值的挖掘不仅仅局限于一次性的价值挖掘,也可以是基于对数据的循环利用,数据库本身需要不断更新和完善,数据挖掘也是,因此,如果能够建立一个可再生的数据循环体系,采集数据、运营数据、创造数据产品和模型,然后再反过来,基于数据模型培养新的数据,同时完善旧的数据,以数据“养数据”,打造数据新闻循环生产体系,同时也会形成数据自然生长和循环利用的密闭型生态系统,使数据闭环“转起来”,这种基于生物逻辑的数据循环和生产方式,会赋予大数据新闻持续的创新动力,从数据决策到数据挖掘皆是如此。

图1:“大数据新闻数据闭环”流程图

    2012,AVOS公司基于用户行为数据分析,针对国内Web数字阅读市场推出了两款个性化新闻类产品 “美味爱读(Read Wise)”和“美味书签(meiweisq)”,在受到来自移动互联网的冲击后,又于2013年推出了这两款产品的移动应用app版。这两款个性化的新闻阅读产品很好地对用户阅读数据和反馈信息进行了循环利用。AVOS的目标是解决互联网信息碎片化、发现有效信息成本增加的问题,帮助用户通过书签服务来梳理、检索自己在互联网中的所得。AVOS中国团队的工程师在分析书签数据时发现,用户在阅读器的书签内留存并查阅知识、新闻和数据是最典型的使用场景,其中,新闻占了很大一部分比例。消费者感兴趣的是一些特定的话题,但为了能看到感兴趣的内容,要自己从各个频道进行筛选。所以美味爱读会跟踪文章在互联网上的传播情况,把引用数作为判断文章价值的重要标准之一。同时发布时间和文章受评论的状况也会影响它在阅读器里的排序。在此基础上,美味爱读又增加了“焚毁”和“评论”两个功能。“焚毁”就是让用户去除自己不喜欢的内容。所以,系统通过跟踪文章在互联网上的传播情况、被引用的次数、用户的评论等这些数据,可以做出更加个性化的推荐[4]。即使是那些被删除的数据,也是有价值的,能够帮助系统判断用户的好恶。当这些数据不断被循环分析时,长久以往,就形成了一个自动化运营的数据新闻“闭环”系统,完善个性化推荐的内容。

 

二、众包式生产:信息集聚与意义生成

    2006年,互联网杂志《连线》的资深编辑杰夫·豪(Jeff Hawe)在《众包的崛起》(The Rise of Crowd sourcing)一文中提出了“众包”(Crowd sourcing)这一概念。“众包”是指利用集体智慧来搜集与核实信息、报道故事,或者在新闻生产中做出选择。[5]杰夫·豪还把众包生产划分成集体智慧(crowd wisdom)、集体创造(crow creation)、集体投票(crowd voting)几种类型。本质在于基于大数据时代的海量信息,对数据和信息的重新聚合与价值挖掘,着眼于对知识、创新和判断力的整合,体现了公众从合力解决问题到创造内容的过程。

    众包新闻就是基于UGC(Users Generated Content,用户生成内容)的新闻生产。大数据时代,社会化媒体对数据新闻生产影响深远,既是数据搜集的重要来源,又可以帮助扩大传播影响力。美联社记者乔纳森说,“构成新闻业的方方面面的工作既可在编辑部内部完成,也可在编辑部外部完成,可是专业人士,也可以是业余人士,甚至民众自己也可以通过自己生成和分析数据的方式来提高对于政治事务的参与。”[6]因此,基于社会化媒体的新闻生产方式,赋予新闻生产新的社会情境,而且破除了媒体间的障碍。正在对传统媒体作为信息提供者的角色提出挑战,把新闻生产变为一种信息集成过程,在这一过程中,从记者到受众的角色都得到了重构。

    在新闻生产领域,众包新闻降低了新闻写作的门槛,打破了传统的新闻写作格式;赋予新闻生产新的社会意义,推动了新闻生产的外部化。比如英国的《卫报》的“数据博客”里的很多调查性报道都是采用众包的形式完成。“杰夫·豪认为,在许多行业中,“众包”代表了运作方式上的彻底改变,尤其是在贩卖信息的行业。”[7]从众包新闻网站的发展来看,英国《卫报》是影响力最大的,比如利用“众包”报道伦敦骚乱,奥运会的开支、英国政府财政支出情况等等。

    众包新闻案例1:“我的钱都去了哪里”:《卫报》关于政府财政支出情况可视化新闻

    为了解英国议员的消费情况,明确纳税人缴纳的税款的明确去向,《卫报》创办了“我的钱都去哪儿了网(Where does my money go.org)”,邀请大众以做游戏的方式,参与核查政府公布的一百多万份关于议员的花费单据,结果有两万多名读者参加,围绕这一大型的众包调查项目建起了一个读者社区,在很短时间内即把数据整理完毕。而后《卫报》数据可视化团队又用可视化工具,将调查结果公布于众。下面两图中所呈现的数据即是《卫报》联合读者众包合作的结果。

图 2:个人税款分配图

    从上图可以看出,在个人税款分配这一项,不同收入对应的缴税比例不同。根据图上方“选择你的薪水(Select Your Salary)”的活动按钮,左上角是薪水的数目,右上角是对应要交的税的数目。而在下方排列整齐的圆圈内的图标,所指的是缴纳税款的去处,即政府把这些钱花到了什么地方。英国政府在公布财政开支时,公众看到的只是充满了看不懂的数据报表。而《卫报》发动民众共同来对这些数据进行分析,并用可视化的方式进行解读,赋予了数据新的生命力,使得原本枯燥繁多的内容变得鲜活起来,让普通老百姓在获取关于政府开支的信息时也一目了然。

图 3:国家和地区层面税款分配

    上图是关于国家和地区层面税款的分配开支。右方是大不列颠的全国地图,单击任何地区,左边的环形图就会相应变化,呈现出该地区的财政支出情况,从慈善(helping others)、健康卫生(health)、教育(Education)到环保(Environment)等各领域的详细开支应有尽有。中间最大的灰色圆圈则是所点击地区所有开支的综合。

    与《卫报》以新闻组织为中心不同, 2002年成立的韩国Ohmynews网站,类似于维基新闻独立媒体的结合体,由参与者从公民记者的角度提供新闻、并为参与者提供讨论的平台,以“人人皆记者”为理念,曾经对卢武铉总统当选起到了很大作用。2004年12月,被英国《卫报》选为世界五大新闻网站(比如Google News,纽约时报,BBC等)。如今,Ohmynews已经发展成为韩国最具影响力的新闻网站之一,其主要原因就在于这种独特的理念和前瞻性的众包式的新闻生产方式。

    众包新闻的优点在于:比较难以独立完成的调查性报道,在众人合作之下能够以最低的成本在最短的时间得到研究和讨论,发起者可以源源不断的得到来自各方在信源、数据或内容上的帮助。在群策群力共同完成新闻报道的过程中,所有的参与者会有一种共同体归属感,这种归属感只有在分享和合作的时候才能得到。

 

三、跨界与融合:媒介业态转型实践

1. 数据团队进驻编辑部:“推倒新闻编辑室的那面墙”

    传统媒体要想在大数据时代成功实现自我颠覆,在媒介内部也要模糊部门之间的界线,实行协同合作。正如《纽约时报》的《创新报告》所倡导的,要“推倒新闻编辑室的墙”,加强采编部门和客户服务、技术应用与设计,数字挖掘、产品研发这些部门的合作,产品第一、部门第二;要脱离过去采编部分独立于其他部门,只关注内容生产的单一模式,记者编辑也要参与到内容推广的流程当中,摆脱落后的依靠广告和订阅的收入模式,打造一个有吸引力的数字公司。像赫芬顿邮报(Huffintong Post)那样,把新闻采编环节和市场推广环节结合起来,以用户的需求作为媒体内容生产和机构改革的动力之一。简言之,就是要把各部门融合起来,让数据团队入驻新闻编辑部。

   这里的数据团队,指的就是基于部门融合、跨领域合作的数据新闻创作团队。2012年首届国际数据新闻奖获奖作品的运行过程显示,数据新闻比拼的不是采访力量和团队规模,更看重具有新闻敏感的人与具有数据挖掘、分析和可视化呈现能力的人之间的相互协作。大数据新闻的生产模式决定了头脑风暴和奇思妙想的重要性,部门与部门之间的界限日渐模糊,在“一个屋檐下”工作变得异常重要。正如英国《卫报》数据博客编辑西蒙·罗杰斯所指出的“新闻编辑部的布局很有讲究,如果你越靠近新闻编辑部,就更方便对报道进行交流,成为新闻策划进程中的一部分;反之则两者距离越来越远。”[8]

    案例:财新网“数字说”频道

    在国内,财新网于近期开创了“数字说”频道,专门致力于数据新闻报道,并针对不同的新闻热点制作可视化图,以下则是最近针对周永康案和阿里美国IPO上市的两个数据可视化作品:

图4:“老虎家族”周永康案关系网

图5:阿里巴巴IPO:史上最大,是有多大?

2. 跨界合作与产业升级:大数据时代媒体机构的自我颠覆

    除了促进编辑部与其他部门的融合,让数据新闻团队来主导新闻生产外。从媒体自我颠覆的层面来说,还需要加强跨界合作,与社会化媒体、移动互联网结合起来,把不同行业、领域和终端的数据进行聚合,进行关联分析和价值挖掘,增强媒体融合及跨界合作,加速产业升级。

    在大数据分析技术运用方面,新闻媒体还面临着很多挑战,数据的来源、加工和挖掘都需要专门的技术人才和设备。跨界合作,也许是比自己事必躬亲更适合的方式,不仅可以降低成本,而且可以通过合作碰撞出新的火花。比如说 “据说春运”就是央视与百度搜索合作制作的大数据新闻报道,央视负责专题选定和新闻制作,百度负责数据采集和挖掘,这对双方都是利好的事情,后来的“据说两会”“据说就业”等也证明了这种跨界合作的可持续性和良好的合作前景。

    大数据技术的运用,促进了不同行业、不同领域、不同终端的数据交换和相互融合。[9]传统媒体联合新媒体正在打造的“云计算”和“全媒体平台”,能够为大数据分析和数据驱动的生产建立庞大的数据库基础和通畅的信息交流整合渠道。同时还可以对数据进行二次价值的挖掘。在媒介融合过程中,无论是报纸,还是广播、电视,都是全媒体平台的一部分。传统媒体转向商业公司体制转变的过程中,可以利用大数据分析,从社交媒体、移动媒体这些跨媒体终端上采集评论信息和使用信息,比如点击率、转发率等数据进行分析。分析读者偏好,把握市场脉搏。比如浙江报业集团从2011年就开始投资数据分析项目,落脚于未来社交网络数据的深度挖掘上。再比如说,通过数字电视机顶盒,可以实时监测电视家庭用户的电视使用频率、频道访问率、节目收视率甚至电视互动服务的使用情况,从而定期回收大量的数据流用于数据分析。国内一些大型的视频网站更是早已开始在这方面寻求突破。如优酷土豆股份有限公司的搜索平台拟挖掘和推算出4亿多视频用户的浏览行为数据;搜狐网站正着手搭建基于云计算的大数据平台,将旗下数据资产全面打通整合,获取每月9亿多人次的用户数据资产[10]

    大数据对新闻业态的重塑是渐行渐近的过程,传统媒体正在加快与互联网的跨界融合步伐,加速产业升级。美国老牌新闻杂志《新闻周刊》从2012年开始停止印刷纸质版,只在网络上发行电子版,转换为数字期刊。我国国内的上海报业集团和解放日报报业集团于2013年合并成立上海报业集团,除了对旗下业务板块进行重新整合之外,还将与百度公司合作,开始与互联网媒体融合的第一步。2012年佛山传媒集团开始与国际调研公司尼尔森公司合作,希望根据多媒体平台数据库的整合与分析,为集团转型发展提供战略性的策略指导等等。基于“开放、关联、对接”的互联网逻辑,不仅仅包括产业结构,还在于生产理念、商业模式和用户体验等方面的改革。虽然目前,数据新闻还只是为传统新闻模式服务的新工具,距全新的新闻制作理念仍有很大距离。但只要继续在数据中探索、用数据讲故事,赋予新闻数据流般的生命,未来的新闻业必将更好的发挥李普曼所说的 “聚光灯”和“探照灯”效应,为公众提出忠告、指南、通知和预警。

注释:


[1]  程风刚,基于智能Agent的个性化信息服务模型的构建,计算机时代,2009(10):3-4。

[2]  克里斯·安德森,乔江涛译,长尾理论,中信出版社,2006年,第88页。

[3]  陈粲然(2013),泛阅读产品“今日头条”是如何基于微博用户兴趣图谱做个性化推荐的?PING·WEST中文网,网址链接:http://www.pingwest.com/demo/jinritoutiao-reading/

[4] 陈粲然:文本挖掘算法,热度识别体系:美味爱读是如何搭建个性化阅读架构的。2013年1月访问于IT桔子网站(PINGWEST 中文网),网址链接:http://itjuzi.com/overview/news/405

[5] 参见范·哈克,米歇尔·帕克斯,曼纽尔·卡斯特《新闻业的未来》,《国际新闻界》2013年第1期。

[6] 瞿旭晟. 数据入侵:“538”博客的实践与启示[J]. 新闻记者,2013(6)

[7] 张建中,网络时代新闻业的创新与实践,光明日报,2013年12月30日。

[8] Simon Rogers. Behind the Scenes at the GuardiaDatablog.http://xiaoyongzi.github.io/web/newsroom_3.html .

[9] 周子渊。传统新闻受大数据的影响与转变分析。《编辑学刊》2014年第1期。

[10] 张意轩,于洋.大数据时代的大媒体[N].人民日报,2013-01-17.

 

分享到:
(责编:王培志、唐胜宏)

相关专题



注册/登录
发言请遵守新闻跟帖服务协议   

使用其他账号登录: 新浪微博帐号登录 QQ帐号登录 人人帐号登录 百度帐号登录 豆瓣帐号登录 天涯帐号登录 淘宝帐号登录 MSN帐号登录 同步:分享到人民微博  

社区登录
用户名: 立即注册
密  码: 找回密码
  
  • 最新评论
  • 热门评论
查看全部留言

24小时排行 | 新闻频道留言热帖