在线内容转载跟踪及预测研究

肖丽妍蔡瑞刘凌含叶航

2012年12月27日15:03 来源：人民网研究院手机看新闻

●2012年度“人民网优秀论文奖”获奖名单揭晓

2012年度“人民网优秀论文奖”获奖名单10月30日揭晓，北京邮电大学管理学院肖丽妍、蔡瑞、刘凌含、叶航同学的作品《在线内容转载跟踪及预测研究》获得人民网优秀技术课题三等奖，以下是论文全文：

摘要：随着Web2.0技术的发展，信息平台的多样性和使用便利性使得在线内容爆炸性增长，其有效跟踪管理成为了互联网监管的难点。本课题首先以人民网在线系统特征及在线内容的三维空间理论为基础，对以论坛、微博为核心的两者在线内容转载扩散方式特征进行理论分析。基于此，提出在线内容跟踪模型，包含五个子模型：在线内容源头影响力度量模型、在线内容敏感性度量模型、在线内容扩散受众范围度量模型、在线内容受众频次度量模型和在线内容扩散速度度量模型；最后，基于前面五个子模型，构建在线内容转载受众范围预测模型。本课题的研究旨在为互联网监管者提供更科学合理的在线内容监管工具。

关键词：在线内容；转载跟踪；受众范围；受众频次；扩散速度

一、引言

1.1研究背景

网络新闻一直是网民的基础应用之一。据《第30次中国互联网络发展状况统计报告》显示，截至2012年6月底，网络新闻的用户规模达到3.92亿，网民对网络新闻的使用率为73.0%，在各项网络应用使用率中位列第四^[1]。随着Web2.0技术的发展，网民由最初的被动接受者转变成为网络新闻的积极参与者和创造者。通过门户网站、博客、论坛、SNS网站、微博等信息平台，网民不仅可以自由的发表对各类事件的观点和见解，同时还可以发布原创性的新闻内容，极大地扩展了信息来源渠道并丰富了在线内容数量。

然而，更多的信息来源渠道和在线内容数量增加了在线内容监管的难度，对互联网监管者们提出了更高的要求和挑战。尤其是在一些热点、敏感以及突发危机事件中，如何实时跟踪在线内容的传播态势并树立正确舆论导向，对于确保民众知情权、维护社会稳定具有重要作用。因而本课题将主要研究以网络新闻为主的在线内容在转载扩散过程中的态势度量和预测，为互联网监管者提供更科学合理的在线内容监管工具。

1.2研究现状

对在线内容转载进行跟踪和预测属于网络舆情研究的一个分支，近年来，在社交网站、微博等信息交互平台日益普及的情况下，一些网络敏感和突发危机事件受到网友空前关注，对人民生活产生越来越重要的影响，因而网络舆情分析技术逐渐成为国内外的研究热点。

与本课题相关的对互联网舆情信息进行挖掘的研究主要可分为以下两个角度：自然语言处理角度和网络信息挖掘角度。

在自然语言处理角度上，最早可追溯到1996年的主题识别与跟踪研究（Topic Detection and Tracking，TDT）^[2]。该研究最初由美国国防高级研究委员会(DARPA)主持启动以调查和跟踪一系列广播新闻报道中的新事件。主题检测与跟踪研究主要对已知事件跟踪的技术，未知事件的探测技术和新闻报道的分割技术进行探讨，细分为以下五个子任务^[3]：对新闻报道的切分、新事件识别、回顾事件检测、在线新事件识别和事件跟踪。此后，Kanagasabi Rajaraman等人在话题识别与跟踪的基础上应用自组织神经网络进行网络舆情趋势分析，提出了一种增量聚类算法对网络中的数据流进行挖掘以确定舆情演变趋势^[4]。Masaki MORI等人提出了一种从新闻网页集中识别、总结及跟踪事件的新方法，从新闻网页中获取有效的时间标签并通过聚类方法识别新事件，基于聚类使用 Key Graph算法进行事件跟踪，使用后缀树算法进行聚类摘要^[5]。

在网络信息挖掘角度上，杜阿宁提出了包括属性层、信息采集层、挖掘层和处置层的互联网舆情信息挖掘四层体系结构，针对互联网舆情信息的产生、传播和转载阶段分别提出针对内容敏感网页、频繁访问主题的舆情监控方法和针对大多数网页转载的新闻主题进行挖掘的舆情计量方法^[6]。戴媛等人结合国内互联网的发展特点对网络舆情信息挖掘的渠道和环节进行了总结，提出了网络舆情信息挖掘内容重要的“六个点”，即热点、焦点、兴奋点、波动点、重点和诱发点，针对网络舆情产生、阅览和转载三个阶段不同的特点提出了不同的信息挖掘方式^[7]。

然而，在自然语言处理角度研究的对象是话题，而本课题则将把研究对象聚焦到单一的新闻或者帖子上，研究它们从发布到扩散再到沉寂过程中所表现出来的传播特征。同时，在网络信息挖掘角度上，目前更注重对在线内容传播态势的实时分析，缺乏对其未来发展趋势的有效预测，因而本课题还将建立在线内容态势预测模型。

二、研究对象、内容及方法

本课题以强国社区和人民微博为研究对象。本课题仅研究在线内容在人民网内部的转载扩散过程。目前，在人民网提供的信息交流平台主要包括：强国博客、强国社区、强国论坛、人民微博、SNS、聊吧、播客、E政等。本课题选择了强国社区和人民微博这两类各具代表性的平台作为研究对象，并结合它们不同的传播特点，提出了相应的度量算法和预测模型。

本课题的研究内容和方法如图1所示。针对在线内容自发布到转载的扩散全过程，本课题首先以人民网在线系统特征及在线内容的三维空间为基础，对以论坛、微博为核心的两者在线内容转载扩散方式特征进行理论分析。基于此，提出在线内容跟踪模型，包含五个子模型：在线内容源头影响力度量模型、在线内容敏感性度量模型、在线内容扩散受众范围度量模型、在线内容受众频次度量模型和在线内容扩散速度度量模型五个在线内容跟踪子模型；最后，基于前面五个子模型，构建在线内容转载受众范围预测模型。

图 1 研究内容及方法整体设计

三、在线内容转载扩散特征分析

网络媒体按照信息来源方和信息接收方的区别，可细分为门户网站式、论坛式和社会性网络媒体^[8]。门户网站式最接近于传统媒体的网络媒体，可以看作是传统媒体在网络上的延伸。在传播方式上，这类媒体仍旧以单向传播为主。论坛式媒体与前一类网站式媒体的明显差别主要体现在信息发布者为任意个体，而且具有匿名性，信息发布呈现为讨论区形式，具有互动性。社会性媒体是以人为单位来组织网络中的信息内容，虽然在发布信息的自由性上与论坛式媒体一致且同样具有交互性，但信息存在一种以个人声誉为基础的保障，其公信度要远高于论坛式媒体。

本文将从人民网已有的众多在线网络平台中挑选出这三类典型媒体，分别分析在线内容转载扩散的特征。目前人民网提供的在线网络平台主要包括：强国博客、强国社区、强国论坛、人民微博、SNS、聊吧、播客、E政等。通过调查发现，人民网门户网站中的新闻均会以帖子形式发表在强国论坛之中，并且围绕该新闻内容展开的评论也是在论坛中进行，因而本文将门户式网站媒体和论坛媒体合并在一起研究。而人民微博平台上的信息相对独立，用户只能将其他平台上的信息分享到微博中，而不能将微博中的信息再分享到其他平台上，所以本文将微博作为单独媒体研究，从而确定出本文将要研究的两大类典型平台。人民网各主要平台关系如图2所示：

图 2 人民网在线系统关系图

四、在线内容转载跟踪模型

根据在线内容的三维空间^[9]（如图3所示），在线内容转载扩散的过程可以概括为：在线内容信息从源头发布后，经过受众的转载扩散到达其他受众，从而产生一定的作用效果。因此，当在线内容发布后，对在线内容转载的跟踪可以从源头、信息、转载扩散和受众四个方面进行跟踪研究。

图 3 在线内容的三维空间

因此，本课题从源头维、内容维、过程维和受众维四个方面，建立在线内容转载跟踪模型，具体包括在线内容源头影响力度量模型、在线内容敏感性度量模型、在线内容转载受众范围度量模型、在线内容转载受众频次度量模型和在线内容转载扩散速度度量模型。针对以论坛和微博为核心平台的在线内容转载扩散特征，对模型进行相关调整。

4.1 在线内容源头影响力度量模型

在线内容源头是指，发布在线内容的在线网络中的用户。对于某一个在线内容而言，其源头的影响力大小对于其转载扩散的效果产生不容忽视的效果。因此，对在线内容源头影响力进行度量十分必要。

一般来说，在线网络中的用户行为主要包括：登陆，关注其他个体和发文、浏览、转发、评论等与在线内容相关的行为。因此，本课题引入活跃度衡量用户在在线网络中的活跃程度，活跃度越高，在线网络被转载扩散可能性越高；关系影响力衡量用户在在线网络中的地位高低，地位越高，在线网络被转载扩散可能性越高；内容影响力衡量用户所发布的在线内容对其他个体可能产生的作用大小，作用力越大，在线网络被转载扩散可能性越高。

在线内容源头影响力度量基础模型为：

(1)

其中，为源头活跃度；为源头关系影响力；为源头内容影响力；，和分别为对应变量的权值，且，。

模型1-1“论坛楼主”影响力度量模型

论坛在线内容，即论坛帖子；论坛在线内容源头，即论坛中某个帖子的楼主。根据人民网强国论坛的特点，对在线内容源头影响力度量基础模型进行调整：①由于论坛的楼主之间的关系极弱，因此不考虑论坛楼主的关系影响力；②通过楼主的“经验”值和已发“帖子”数来刻画其活跃度；③通过“精华”帖子数量来刻画其内容影响力。考虑到楼主的活跃度和论坛楼主的内容影响力控制在(0,1)范围内容易进行指标值比较，所以采用对数Sigmoid函数。

综上，建立“论坛楼主”影响力度量模型：

(2)

(3)

(4)

(5)

其中，为楼主的活跃度；为楼主的“经验”值；为楼主已发“帖子”数；和为其对应变量的权值，且，；为论坛楼主的内容影响力；为论坛楼主的精华帖子数量；和分别为论坛楼主的活跃度和内容影响力的权值，且，。

模型1-2“微博博主”影响力度量模型

微博在线内容，即微博博文；微博在线内容源头，即微博博主。根据人民微博平台的特点，对在线内容源头影响力度量基础模型进行调整：①通过博主平均登陆次数来刻画活跃度；②微博博主的被关注数和被关注数来刻画关系影响力；③微博博主历史博文的转发量和评论量。考虑到将微博博主的活跃度、关系影响力和内容影响力控制在(0,1)范围内容易进行指标值比较，所以采用对数Sigmoid函数。

综上，建立“微博博主”影响力度量模型。

(6)

(7)

(8)

(9)

(10)

(11)

(12)

其中，为微博博主的活跃度；为一个时间段内（一周/一月/一年）博主平均登陆时长，为博主在时间段内的登陆总次数，为第次登陆时长，；为微博博主的关系影响力；和分别为微博博主的被关注数和被关注数；和为其对应变量的权值，且，；为微博博主的内容影响力；和分别为微博博主第篇博文的评论量和转发量；和为其对应变量的权值，且，；、和分别为论坛楼主的活跃度、关系影响力和内容影响力的权值，且，。

4.2 在线内容敏感性度量模型

在线内容产生后由于涉及某些敏感因素，引起网民、媒体和企业等的注意力，从而产生大量与之相关的信息，形成网络舆情。敏感因素是指在线内容中引发关注，并使其热度变强和持续升级，是一种抽象因素。本课题引入在线内容敏感系数来刻画，由于敏感因素的存在使得在线内容信息容易引起网民关注的敏感性。可以看出，在线内容敏感性的强弱程度取决于敏感因素本身的敏感程度以及敏感因素出现的频率。

因此，基于上述两个变量建立度量某个在线内容的敏感性度量模型。考虑到将敏感系数控制在(0,1)范围内容易进行指标值比较，所以采用对数Sigmoid函数。敏感系数越接近于1，表明在线内容的敏感性越高。

时刻，某个在线内容的敏感性度量模型如下：

(13)

(14)

其中，为时刻在线内容的敏感性；为第个敏感因素的敏感程度得分；为第个敏感因素在某个在线内容中出现的频率，；；为第个敏感因素出现的个数；为时刻某个在线内容的敏感因素总量。

敏感因素的敏感程度得分的具体计算方法是：通过对最近一段时间的热点话题进行分析，寻找在线内容敏感性的深层次影响关系。归纳提炼出目前普遍的敏感因素。同时对敏感因素的敏感程度进行打分，并取专家打分的平均分为最终的敏感因素的敏感程度得分。

表格 1 敏感因素分级打分示例

等级	敏感因素名称	因素编号	敏感性打分
1	食品安全问题	a1	A1
2	产品/服务缺陷	a2	A2
3	高管丑闻	a3	A3
4	其他	a4	A4

4.3在线内容转载受众范围度量模型

在线内容转载的受众范围，是指在线内容在多大范围上影响了多少用户。它体现在两方面：其一是受众的数量范围，即在线内容在所在网络中影响的用户数；其二是受众所在的网络范围，即在线内容能够波及到的传播网络的数量，这是由于在线内容扩散具有虚拟串联的特点，即在线内容存在被转载到其他网络的可能性。

因此，建立在线内容转载受众范围度量模型，用以度量截止时刻，某个在线内容已有的受众范围。以表示时刻该在线内容在第个在线网络中的受众数量，以表示时刻第个在线网络的影响力。因此，建立在线内容转载当前受众范围度量模型为：

(15)

其中，为时刻该在线内容的受众范围；表示在线内容所波及的在线网络的数量；为时刻第个在线网络的用户数。在线网络的影响力在本课题中不详细叙述其评价方法，但目前已有研究成果。

将模型应用于人民网在线网络，本课题所研究的强国论坛和人民微博中，判断某个用户是否是在线内容的受众的标准不同。

对于强国论坛而言，在线内容的浏览者和评论者（包含在浏览者中）为受众，因此，

(16)

其中，为时刻论坛中帖子的浏览数。

对于人民微博而言，在线内容的转发者和评论者视为受众，因此，

(17)

其中，为时刻微博中博文的评论数；为时刻微博中博文的转发数。

综上，人民网在线网络中，时刻某个在线内容转载当前受众范围的度量公式如下：

(18)

4.4在线内容转载受众频次度量模型

在线内容转载受众频次，是指用户在人民网的各个在线网络平台中接收到相同新闻内容的次数和。

受众频次的测量相对于转载跟踪模型中的其他指标而言，更具难度。其难点主要在于用户获取信息的渠道过多，导致监管者无法搜集足够的数据筛选出该用户接收特定新闻内容的确切次数。基于此，本课题对受众频次的度量进行了简化，仅考虑用户在人民网提供的在线网络平台范围内的频次，便于获取数据。此外，受众频次测量的另一个难点在于对不同用户的识别和跟踪，很多用户是在非登陆的情况下对人民网进行访问，此时单纯依靠IP地址进行识别，误差仍较大，更重要的是无法获取这些用户对特定新闻内容重复阅读的次数，因而本文仅计算已登陆用户的受众频次。

本课题先分别对强国论坛和人民微博中的受众频次进行度量。

在强国论坛中，用户初次阅读某一帖子时，计受众频次为1。通常情况下，用户在阅读一次之后，基本上不会再重复阅读第二次，因而大部分用户的受众频次为1。而有少部分用户对该新闻内容抱有极大兴趣并选择在评论区中发表自身见解，这些评论发表之后可能会得到他人的回复，每当有新回复产生时，系统会自动提醒该用户查看。本课题假定每新产生一条回复，用户就会查看一次，而用户查看一次也意味着其受众频次增加一次，于是论坛用户之后的受众频次可近似等于为用户收到的回复数量，度量公式可表示为：

(19)

其中，为时刻某个用户在论坛中针对某一新闻内容的受众频次，为为时刻特定评论收到的回复数。

在人民微博中，同一新闻内容可能被某一用户的多个好友所分享，则该用户在微博平台上接受某一新闻的初始频次为分享该新闻内容的好友数量。此后，该用户可能在各条分享下面进行评论，收到的回复数即为之后的受众频次，计算原理与强国论坛的相同。与强国论坛的区别在于，微博中各条分享下的回复数最后会进行累加求得该用户最终受众频次总和，而在强国论坛中，每个帖子都具有唯一性，不存在分享，因此也不存在回复数的累加。人民微博中受众频次的度量公式可表示为：

(20)

其中，为时刻某个用户在微博中针对某一新闻内容的受众频次，为时刻微博中分享该新闻内容的好友数量，为时刻特定评论收到的回复数。

综上，人民网在线网络中，时刻某个在线内容转载受众频次的度量公式如下：

(21)

4.5在线内容转载扩散速度度量模型

在线内容转载扩散速度，是指在线内容随时间的演化在受众范围上的变化趋势。那么，在时刻，在线内容转载扩散速度的度量公式为：

(22)

其中，和分别为时刻和时刻的受众范围，具体度量公式见公式(15)；为时间间隔。

五、在线内容转载扩散预测模型

5.1在线内容受众范围发展S曲线

根据美国新墨西哥大学的传播与新闻学教授Everett M. Rogers提出的新事物发展S理论^[10]，在线内容从初始传播、迅速扩散到消退^[11]，其受众范围的发展也遵循S理论（如图4所示）。

图 4 在线内容受众范围发展S曲线

在线内容的转载扩散受到来自其传播扩散链中各个要素带来的影响。在目前的研究中，在线内容的抽象维对扩散速度造成影响已成为共识：参与在线内容转载扩散的用户的影响力越大，则在线内容扩散速度越大；内容信息本身的敏感性越高，在线内容扩散速度也越大。同时，考虑编码维对对扩散速度可能造成影响，即潜在受众自身接受在线内容信息的可能性。

在在线内容初始传播阶段，源头影响力和在线内容敏感性对其快速扩散起着强作用。

在在线内容迅速扩散阶段，源头影响力对在线内容的转载扩散作用力减弱甚至不存在；此时在线内容成为热点，对其迅速扩散发挥主要作用潜在受众自身接受在线内容信息的可能性。

在在线内容消亡阶段，内容敏感性对在线内容的持续扩散起着维系作用。

5.2在线内容转载受众范围预测模型

基于上述分析，本课题引入扩散速度阈值判断某一时刻，在线内容所处的转载扩散阶段：若，则进入迅速扩散阶段；若，在在在线内容刚发布时，则处于初始传播阶段，如果已经发布一段时间，则进行消亡阶段。扩散速度阈值可通过对历史数据的统计分析得到。

正如本课题4.3节所述，由于论坛和微博的用户关系特点不同，潜在受众在网络中的角色也不同。对于论坛而言，在线内容（帖子）所在的版块的用户是其潜在受众；而对微博而言，参与在线内容（发布或转发）的微博用户的粉丝则更大程度上可能成为该在线内容的受众。

本课题建立在线内容转载受众范围预测模型如下：

(23)

其中，表示在线内容所波及的在线网络的数量；为时刻该在线内容的受众范围；为时刻第个在线网络中的第个受众带来的潜在受众总数，若在线网络为论坛，则为在线网络所在版块的用户数，若在线网络为微博，则第个受众（发文/转发博文博主）的粉丝数；为时刻第个在线网络的影响力；为时刻在线内容的转载扩散速度；为在线内容在时刻第个在线网络的源头的影响力；为时刻在线内容的敏感性；为时刻第个在线网络的第个受众带来的潜在受众接受信息的可能性，其计算方法如下：

(24)

其中，为第个受众带来的潜在受众接受信息的可能性；为第个受众带来的潜在受众总数；为在线网络用户在时间段内的登陆总次数，为第个用户第次登陆时长。

六、总结

本课题研究的主要贡献在于通过建立在线内容扩散进行量化跟踪和预测的数据模型，为互联网监管者提供更科学合理的在线内容监管工具。①本课题对以论坛、微博为核心的两者在线内容转载扩散方式特征进行理论分析，并对人民网的在线系统特点进行分析；②基于人民网在线系统特征及在线内容的三维空间理论，提出在线内容跟踪模型，包含五个量化度量模型：在线内容源头影响力度量模型、在线内容敏感性度量模型、在线内容扩散受众范围度量模型、在线内容受众频次度量模型和在线内容扩散速度度量模型；③基于前面五个子模型，构建在线内容转载受众范围预测模型。

本课题的下阶段工作是通过收集实证数据，对模型进行验证和优化。

参考文献

1、中国互联网络信息中心. 第30次中国互联网络发展状况统计报告[R], 2012, 07.

2、J Allan, J Carbonell, G Doddington. Topic Detection and Tracking Pilot Study: Final Report[A]. In: Proceeding of the DARPA Broadcast News Transcription and Understanding Workshop[C], San Francisco, 1998:194-218.

3、李保利，俞士坟.话题识别与跟踪研究[J].计算机工程与应用，2003，39(17):7-9.

4、Kanagasabi Rajaraman，Ah-Hwee Tan. Topic Detection，Tracking， and Trend Analysis Using Self-organizing Neural Networks[J]. Lecture Notes in Computer Science，2001(LNAI 2035):102-107.

5、Masaki MoRI， Takao MIURA， Isamu SHIOYA. Topic Detection and Tracking for News Web Pages[C]. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence (WI 2006 Main Conference Proceedings)(WI，06)，2006

6、杜阿宁.互联网舆情信息挖掘方法研究[D]. 哈尔滨工业大学, 2007.

7、戴媛，姚飞.基于网络舆情安全的信息挖掘及评估指标体系研究[J].情报理论与实践，2008(6):873-876.

8、刘颖, 李欲晓. 网络舆情传播特征分析[J], 北京邮电大学学报(社会科学版), 2011, 13(4): 1-6.

9、高承实, 荣星, 陈越. 微博舆情监测指标体系研究[J], 情报杂志, 2011(9): 66-70.

10、Rogers, E. M. (1995). Diffusion of innovation (4th Ed.). New York: The Free Press

11、潘崇霞. 网络舆情演化的阶段分析[J], 计算机与现代化, 2011(10): 203-206.