在線內容轉載跟蹤及預測研究

肖麗妍蔡瑞劉凌含葉航

2012年12月27日15:03 來源：人民網研究院手機看新聞

●2012年度“人民網優秀論文獎”獲獎名單揭曉

2012年度“人民網優秀論文獎”獲獎名單10月30日揭曉，北京郵電大學管理學院肖麗妍、蔡瑞、劉凌含、葉航同學的作品《在線內容轉載跟蹤及預測研究》獲得人民網優秀技術課題三等獎，以下是論文全文：

摘要：隨著Web2.0技術的發展，信息平台的多樣性和使用便利性使得在線內容爆炸性增長，其有效跟蹤管理成為了互聯網監管的難點。本課題首先以人民網在線系統特征及在線內容的三維空間理論為基礎，對以論壇、微博為核心的兩者在線內容轉載擴散方式特征進行理論分析。基於此，提出在線內容跟蹤模型，包含五個子模型：在線內容源頭影響力度量模型、在線內容敏感性度量模型、在線內容擴散受眾范圍度量模型、在線內容受眾頻次度量模型和在線內容擴散速度度量模型﹔最后，基於前面五個子模型，構建在線內容轉載受眾范圍預測模型。本課題的研究旨在為互聯網監管者提供更科學合理的在線內容監管工具。

關鍵詞：在線內容﹔轉載跟蹤﹔受眾范圍﹔受眾頻次﹔擴散速度

一、引言

1.1研究背景

網絡新聞一直是網民的基礎應用之一。據《第30次中國互聯網絡發展狀況統計報告》顯示，截至2012年6月底，網絡新聞的用戶規模達到3.92億，網民對網絡新聞的使用率為73.0%，在各項網絡應用使用率中位列第四^[1]。隨著Web2.0技術的發展，網民由最初的被動接受者轉變成為網絡新聞的積極參與者和創造者。通過門戶網站、博客、論壇、SNS網站、微博等信息平台，網民不僅可以自由的發表對各類事件的觀點和見解，同時還可以發布原創性的新聞內容，極大地擴展了信息來源渠道並豐富了在線內容數量。

然而，更多的信息來源渠道和在線內容數量增加了在線內容監管的難度，對互聯網監管者們提出了更高的要求和挑戰。尤其是在一些熱點、敏感以及突發危機事件中，如何實時跟蹤在線內容的傳播態勢並樹立正確輿論導向，對於確保民眾知情權、維護社會穩定具有重要作用。因而本課題將主要研究以網絡新聞為主的在線內容在轉載擴散過程中的態勢度量和預測，為互聯網監管者提供更科學合理的在線內容監管工具。

1.2研究現狀

對在線內容轉載進行跟蹤和預測屬於網絡輿情研究的一個分支，近年來，在社交網站、微博等信息交互平台日益普及的情況下，一些網絡敏感和突發危機事件受到網友空前關注，對人民生活產生越來越重要的影響，因而網絡輿情分析技術逐漸成為國內外的研究熱點。

與本課題相關的對互聯網輿情信息進行挖掘的研究主要可分為以下兩個角度：自然語言處理角度和網絡信息挖掘角度。

在自然語言處理角度上，最早可追溯到1996年的主題識別與跟蹤研究（Topic Detection and Tracking，TDT）^[2]。該研究最初由美國國防高級研究委員會(DARPA)主持啟動以調查和跟蹤一系列廣播新聞報道中的新事件。主題檢測與跟蹤研究主要對已知事件跟蹤的技術，未知事件的探測技術和新聞報道的分割技術進行探討，細分為以下五個子任務^[3]：對新聞報道的切分、新事件識別、回顧事件檢測、在線新事件識別和事件跟蹤。此后，Kanagasabi Rajaraman等人在話題識別與跟蹤的基礎上應用自組織神經網絡進行網絡輿情趨勢分析，提出了一種增量聚類算法對網絡中的數據流進行挖掘以確定輿情演變趨勢^[4]。Masaki MORI等人提出了一種從新聞網頁集中識別、總結及跟蹤事件的新方法，從新聞網頁中獲取有效的時間標簽並通過聚類方法識別新事件，基於聚類使用 Key Graph算法進行事件跟蹤，使用后綴樹算法進行聚類摘要^[5]。

在網絡信息挖掘角度上，杜阿寧提出了包括屬性層、信息採集層、挖掘層和處置層的互聯網輿情信息挖掘四層體系結構，針對互聯網輿情信息的產生、傳播和轉載階段分別提出針對內容敏感網頁、頻繁訪問主題的輿情監控方法和針對大多數網頁轉載的新聞主題進行挖掘的輿情計量方法^[6]。戴媛等人結合國內互聯網的發展特點對網絡輿情信息挖掘的渠道和環節進行了總結，提出了網絡輿情信息挖掘內容重要的“六個點”，即熱點、焦點、興奮點、波動點、重點和誘發點，針對網絡輿情產生、閱覽和轉載三個階段不同的特點提出了不同的信息挖掘方式^[7]。

然而，在自然語言處理角度研究的對象是話題，而本課題則將把研究對象聚焦到單一的新聞或者帖子上，研究它們從發布到擴散再到沉寂過程中所表現出來的傳播特征。同時，在網絡信息挖掘角度上，目前更注重對在線內容傳播態勢的實時分析，缺乏對其未來發展趨勢的有效預測，因而本課題還將建立在線內容態勢預測模型。

二、研究對象、內容及方法

本課題以強國社區和人民微博為研究對象。本課題僅研究在線內容在人民網內部的轉載擴散過程。目前，在人民網提供的信息交流平台主要包括：強國博客、強國社區、強國論壇、人民微博、SNS、聊吧、播客、E政等。本課題選擇了強國社區和人民微博這兩類各具代表性的平台作為研究對象，並結合它們不同的傳播特點，提出了相應的度量算法和預測模型。

本課題的研究內容和方法如圖1所示。針對在線內容自發布到轉載的擴散全過程，本課題首先以人民網在線系統特征及在線內容的三維空間為基礎，對以論壇、微博為核心的兩者在線內容轉載擴散方式特征進行理論分析。基於此，提出在線內容跟蹤模型，包含五個子模型：在線內容源頭影響力度量模型、在線內容敏感性度量模型、在線內容擴散受眾范圍度量模型、在線內容受眾頻次度量模型和在線內容擴散速度度量模型五個在線內容跟蹤子模型﹔最后，基於前面五個子模型，構建在線內容轉載受眾范圍預測模型。

圖 1 研究內容及方法整體設計

三、在線內容轉載擴散特征分析

網絡媒體按照信息來源方和信息接收方的區別，可細分為門戶網站式、論壇式和社會性網絡媒體^[8]。門戶網站式最接近於傳統媒體的網絡媒體，可以看作是傳統媒體在網絡上的延伸。在傳播方式上，這類媒體仍舊以單向傳播為主。論壇式媒體與前一類網站式媒體的明顯差別主要體現在信息發布者為任意個體，而且具有匿名性，信息發布呈現為討論區形式，具有互動性。社會性媒體是以人為單位來組織網絡中的信息內容，雖然在發布信息的自由性上與論壇式媒體一致且同樣具有交互性，但信息存在一種以個人聲譽為基礎的保障，其公信度要遠高於論壇式媒體。

本文將從人民網已有的眾多在線網絡平台中挑選出這三類典型媒體，分別分析在線內容轉載擴散的特征。目前人民網提供的在線網絡平台主要包括：強國博客、強國社區、強國論壇、人民微博、SNS、聊吧、播客、E政等。通過調查發現，人民網門戶網站中的新聞均會以帖子形式發表在強國論壇之中，並且圍繞該新聞內容展開的評論也是在論壇中進行，因而本文將門戶式網站媒體和論壇媒體合並在一起研究。而人民微博平台上的信息相對獨立，用戶隻能將其他平台上的信息分享到微博中，而不能將微博中的信息再分享到其他平台上，所以本文將微博作為單獨媒體研究，從而確定出本文將要研究的兩大類典型平台。人民網各主要平台關系如圖2所示：

圖 2 人民網在線系統關系圖

四、在線內容轉載跟蹤模型

根據在線內容的三維空間^[9]（如圖3所示），在線內容轉載擴散的過程可以概括為：在線內容信息從源頭發布后，經過受眾的轉載擴散到達其他受眾，從而產生一定的作用效果。因此，當在線內容發布后，對在線內容轉載的跟蹤可以從源頭、信息、轉載擴散和受眾四個方面進行跟蹤研究。

圖 3 在線內容的三維空間

因此，本課題從源頭維、內容維、過程維和受眾維四個方面，建立在線內容轉載跟蹤模型，具體包括在線內容源頭影響力度量模型、在線內容敏感性度量模型、在線內容轉載受眾范圍度量模型、在線內容轉載受眾頻次度量模型和在線內容轉載擴散速度度量模型。針對以論壇和微博為核心平台的在線內容轉載擴散特征，對模型進行相關調整。

4.1 在線內容源頭影響力度量模型

在線內容源頭是指，發布在線內容的在線網絡中的用戶。對於某一個在線內容而言，其源頭的影響力大小對於其轉載擴散的效果產生不容忽視的效果。因此，對在線內容源頭影響力進行度量十分必要。

一般來說，在線網絡中的用戶行為主要包括：登陸，關注其他個體和發文、瀏覽、轉發、評論等與在線內容相關的行為。因此，本課題引入活躍度衡量用戶在在線網絡中的活躍程度，活躍度越高，在線網絡被轉載擴散可能性越高﹔關系影響力衡量用戶在在線網絡中的地位高低，地位越高，在線網絡被轉載擴散可能性越高﹔內容影響力衡量用戶所發布的在線內容對其他個體可能產生的作用大小，作用力越大，在線網絡被轉載擴散可能性越高。

在線內容源頭影響力度量基礎模型為：

(1)

其中，為源頭活躍度﹔為源頭關系影響力﹔為源頭內容影響力﹔，和分別為對應變量的權值，且，。

模型1-1“論壇樓主”影響力度量模型

論壇在線內容，即論壇帖子﹔論壇在線內容源頭，即論壇中某個帖子的樓主。根據人民網強國論壇的特點，對在線內容源頭影響力度量基礎模型進行調整：ロ由於論壇的樓主之間的關系極弱，因此不考慮論壇樓主的關系影響力﹔ヮ通過樓主的“經驗”值和已發“帖子”數來刻畫其活躍度﹔ワ通過“精華”帖子數量來刻畫其內容影響力。考慮到樓主的活躍度和論壇樓主的內容影響力控制在(0,1)范圍內容易進行指標值比較，所以採用對數Sigmoid函數。

綜上，建立“論壇樓主”影響力度量模型：

(2)

(3)

(4)

(5)

其中，為樓主的活躍度﹔為樓主的“經驗”值﹔為樓主已發“帖子”數﹔和為其對應變量的權值，且，﹔為論壇樓主的內容影響力﹔為論壇樓主的精華帖子數量﹔ 和分別為論壇樓主的活躍度和內容影響力的權值，且，。

模型1-2“微博博主”影響力度量模型

微博在線內容，即微博博文﹔微博在線內容源頭，即微博博主。根據人民微博平台的特點，對在線內容源頭影響力度量基礎模型進行調整：ロ通過博主平均登陸次數來刻畫活躍度﹔ヮ微博博主的被關注數和被關注數來刻畫關系影響力﹔ワ微博博主歷史博文的轉發量和評論量。考慮到將微博博主的活躍度、關系影響力和內容影響力控制在(0,1)范圍內容易進行指標值比較，所以採用對數Sigmoid函數。

綜上，建立“微博博主”影響力度量模型。

(6)

(7)

(8)

(9)

(10)

(11)

(12)

其中，為微博博主的活躍度﹔為一個時間段內（一周/一月/一年）博主平均登陸時長，為博主在時間段內的登陸總次數，為第次登陸時長，﹔為微博博主的關系影響力﹔和分別為微博博主的被關注數和被關注數﹔和為其對應變量的權值，且，﹔為微博博主的內容影響力﹔和分別為微博博主第篇博文的評論量和轉發量﹔和為其對應變量的權值，且，﹔、和分別為論壇樓主的活躍度、關系影響力和內容影響力的權值，且，。

4.2 在線內容敏感性度量模型

在線內容產生后由於涉及某些敏感因素，引起網民、媒體和企業等的注意力，從而產生大量與之相關的信息，形成網絡輿情。敏感因素是指在線內容中引發關注，並使其熱度變強和持續升級，是一種抽象因素。本課題引入在線內容敏感系數來刻畫，由於敏感因素的存在使得在線內容信息容易引起網民關注的敏感性。可以看出，在線內容敏感性的強弱程度取決於敏感因素本身的敏感程度以及敏感因素出現的頻率。

因此，基於上述兩個變量建立度量某個在線內容的敏感性度量模型。考慮到將敏感系數控制在(0,1)范圍內容易進行指標值比較，所以採用對數Sigmoid函數。敏感系數越接近於1，表明在線內容的敏感性越高。

時刻，某個在線內容的敏感性度量模型如下：

(13)

(14)

其中，為時刻在線內容的敏感性﹔為第個敏感因素的敏感程度得分﹔為第個敏感因素在某個在線內容中出現的頻率，﹔﹔為第個敏感因素出現的個數﹔為時刻某個在線內容的敏感因素總量。

敏感因素的敏感程度得分的具體計算方法是：通過對最近一段時間的熱點話題進行分析，尋找在線內容敏感性的深層次影響關系。歸納提煉出目前普遍的敏感因素。同時對敏感因素的敏感程度進行打分，並取專家打分的平均分為最終的敏感因素的敏感程度得分。

表格 1 敏感因素分級打分示例

等級	敏感因素名稱	因素編號	敏感性打分
1	食品安全問題	a1	A1
2	產品/服務缺陷	a2	A2
3	高管丑聞	a3	A3
4	其他	a4	A4

4.3在線內容轉載受眾范圍度量模型

在線內容轉載的受眾范圍，是指在線內容在多大范圍上影響了多少用戶。它體現在兩方面：其一是受眾的數量范圍，即在線內容在所在網絡中影響的用戶數﹔其二是受眾所在的網絡范圍，即在線內容能夠波及到的傳播網絡的數量，這是由於在線內容擴散具有虛擬串聯的特點，即在線內容存在被轉載到其他網絡的可能性。

因此，建立在線內容轉載受眾范圍度量模型，用以度量截止時刻，某個在線內容已有的受眾范圍。以表示時刻該在線內容在第個在線網絡中的受眾數量，以表示時刻第個在線網絡的影響力。因此，建立在線內容轉載當前受眾范圍度量模型為：

(15)

其中，為時刻該在線內容的受眾范圍﹔表示在線內容所波及的在線網絡的數量﹔為時刻第個在線網絡的用戶數。在線網絡的影響力在本課題中不詳細敘述其評價方法，但目前已有研究成果。

將模型應用於人民網在線網絡，本課題所研究的強國論壇和人民微博中，判斷某個用戶是否是在線內容的受眾的標准不同。

對於強國論壇而言，在線內容的瀏覽者和評論者（包含在瀏覽者中）為受眾，因此，

(16)

其中，為時刻論壇中帖子的瀏覽數。

對於人民微博而言，在線內容的轉發者和評論者視為受眾，因此，

(17)

其中，為時刻微博中博文的評論數﹔為時刻微博中博文的轉發數。

綜上，人民網在線網絡中，時刻某個在線內容轉載當前受眾范圍的度量公式如下：

(18)

4.4在線內容轉載受眾頻次度量模型

在線內容轉載受眾頻次，是指用戶在人民網的各個在線網絡平台中接收到相同新聞內容的次數和。

受眾頻次的測量相對於轉載跟蹤模型中的其他指標而言，更具難度。其難點主要在於用戶獲取信息的渠道過多，導致監管者無法搜集足夠的數據篩選出該用戶接收特定新聞內容的確切次數。基於此，本課題對受眾頻次的度量進行了簡化，僅考慮用戶在人民網提供的在線網絡平台范圍內的頻次，便於獲取數據。此外，受眾頻次測量的另一個難點在於對不同用戶的識別和跟蹤，很多用戶是在非登陸的情況下對人民網進行訪問，此時單純依靠IP地址進行識別，誤差仍較大，更重要的是無法獲取這些用戶對特定新聞內容重復閱讀的次數，因而本文僅計算已登陸用戶的受眾頻次。

本課題先分別對強國論壇和人民微博中的受眾頻次進行度量。

在強國論壇中，用戶初次閱讀某一帖子時，計受眾頻次為1。通常情況下，用戶在閱讀一次之后，基本上不會再重復閱讀第二次，因而大部分用戶的受眾頻次為1。而有少部分用戶對該新聞內容抱有極大興趣並選擇在評論區中發表自身見解，這些評論發表之后可能會得到他人的回復，每當有新回復產生時，系統會自動提醒該用戶查看。本課題假定每新產生一條回復，用戶就會查看一次，而用戶查看一次也意味著其受眾頻次增加一次，於是論壇用戶之后的受眾頻次可近似等於為用戶收到的回復數量，度量公式可表示為：

(19)

其中，為時刻某個用戶在論壇中針對某一新聞內容的受眾頻次，為為時刻特定評論收到的回復數。

在人民微博中，同一新聞內容可能被某一用戶的多個好友所分享，則該用戶在微博平台上接受某一新聞的初始頻次為分享該新聞內容的好友數量。此后，該用戶可能在各條分享下面進行評論，收到的回復數即為之后的受眾頻次，計算原理與強國論壇的相同。與強國論壇的區別在於，微博中各條分享下的回復數最后會進行累加求得該用戶最終受眾頻次總和，而在強國論壇中，每個帖子都具有唯一性，不存在分享，因此也不存在回復數的累加。人民微博中受眾頻次的度量公式可表示為：

(20)

其中，為時刻某個用戶在微博中針對某一新聞內容的受眾頻次，為時刻微博中分享該新聞內容的好友數量，為時刻特定評論收到的回復數。

綜上，人民網在線網絡中，時刻某個在線內容轉載受眾頻次的度量公式如下：

(21)

4.5在線內容轉載擴散速度度量模型

在線內容轉載擴散速度，是指在線內容隨時間的演化在受眾范圍上的變化趨勢。那麼，在時刻，在線內容轉載擴散速度的度量公式為：

(22)

其中，和分別為時刻和時刻的受眾范圍，具體度量公式見公式(15)﹔為時間間隔。

五、在線內容轉載擴散預測模型

5.1在線內容受眾范圍發展S曲線

根據美國新墨西哥大學的傳播與新聞學教授Everett M. Rogers提出的新事物發展S理論^[10]，在線內容從初始傳播、迅速擴散到消退^[11]，其受眾范圍的發展也遵循S理論（如圖4所示）。

圖 4 在線內容受眾范圍發展S曲線

在線內容的轉載擴散受到來自其傳播擴散鏈中各個要素帶來的影響。在目前的研究中，在線內容的抽象維對擴散速度造成影響已成為共識：參與在線內容轉載擴散的用戶的影響力越大，則在線內容擴散速度越大﹔內容信息本身的敏感性越高，在線內容擴散速度也越大。同時，考慮編碼維對對擴散速度可能造成影響，即潛在受眾自身接受在線內容信息的可能性。

在在線內容初始傳播階段，源頭影響力和在線內容敏感性對其快速擴散起著強作用。

在在線內容迅速擴散階段，源頭影響力對在線內容的轉載擴散作用力減弱甚至不存在﹔此時在線內容成為熱點，對其迅速擴散發揮主要作用潛在受眾自身接受在線內容信息的可能性。

在在線內容消亡階段，內容敏感性對在線內容的持續擴散起著維系作用。

5.2在線內容轉載受眾范圍預測模型

基於上述分析，本課題引入擴散速度閾值判斷某一時刻，在線內容所處的轉載擴散階段：若，則進入迅速擴散階段﹔若，在在在線內容剛發布時，則處於初始傳播階段，如果已經發布一段時間，則進行消亡階段。擴散速度閾值可通過對歷史數據的統計分析得到。

正如本課題4.3節所述，由於論壇和微博的用戶關系特點不同，潛在受眾在網絡中的角色也不同。對於論壇而言，在線內容（帖子）所在的版塊的用戶是其潛在受眾﹔而對微博而言，參與在線內容（發布或轉發）的微博用戶的粉絲則更大程度上可能成為該在線內容的受眾。

本課題建立在線內容轉載受眾范圍預測模型如下：

(23)

其中，表示在線內容所波及的在線網絡的數量﹔為時刻該在線內容的受眾范圍﹔為時刻第個在線網絡中的第個受眾帶來的潛在受眾總數，若在線網絡為論壇，則為在線網絡所在版塊的用戶數，若在線網絡為微博，則第個受眾（發文/轉發博文博主）的粉絲數﹔為時刻第個在線網絡的影響力﹔為時刻在線內容的轉載擴散速度﹔為在線內容在時刻第個在線網絡的源頭的影響力﹔為時刻在線內容的敏感性﹔為時刻第個在線網絡的第個受眾帶來的潛在受眾接受信息的可能性，其計算方法如下：

(24)

其中，為第個受眾帶來的潛在受眾接受信息的可能性﹔為第個受眾帶來的潛在受眾總數﹔為在線網絡用戶在時間段內的登陸總次數，為第個用戶第次登陸時長。

六、總結

本課題研究的主要貢獻在於通過建立在線內容擴散進行量化跟蹤和預測的數據模型，為互聯網監管者提供更科學合理的在線內容監管工具。ロ本課題對以論壇、微博為核心的兩者在線內容轉載擴散方式特征進行理論分析，並對人民網的在線系統特點進行分析﹔ヮ基於人民網在線系統特征及在線內容的三維空間理論，提出在線內容跟蹤模型，包含五個量化度量模型：在線內容源頭影響力度量模型、在線內容敏感性度量模型、在線內容擴散受眾范圍度量模型、在線內容受眾頻次度量模型和在線內容擴散速度度量模型﹔ワ基於前面五個子模型，構建在線內容轉載受眾范圍預測模型。

本課題的下階段工作是通過收集實証數據，對模型進行驗証和優化。

參考文獻

1、中國互聯網絡信息中心. 第30次中國互聯網絡發展狀況統計報告[R], 2012, 07.

2、J Allan, J Carbonell, G Doddington. Topic Detection and Tracking Pilot Study: Final Report[A]. In: Proceeding of the DARPA Broadcast News Transcription and Understanding Workshop[C], San Francisco, 1998:194-218.

3、李保利，俞士墳.話題識別與跟蹤研究[J].計算機工程與應用，2003，39(17):7-9.

4、Kanagasabi Rajaraman，Ah-Hwee Tan. Topic Detection，Tracking， and Trend Analysis Using Self-organizing Neural Networks[J]. Lecture Notes in Computer Science，2001(LNAI 2035):102-107.

5、Masaki MoRI， Takao MIURA， Isamu SHIOYA. Topic Detection and Tracking for News Web Pages[C]. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence (WI 2006 Main Conference Proceedings)(WI，06)，2006

6、杜阿寧.互聯網輿情信息挖掘方法研究[D]. 哈爾濱工業大學, 2007.

7、戴媛，姚飛.基於網絡輿情安全的信息挖掘及評估指標體系研究[J].情報理論與實踐，2008(6):873-876.

8、劉穎, 李欲曉. 網絡輿情傳播特征分析[J], 北京郵電大學學報(社會科學版), 2011, 13(4): 1-6.

9、高承實, 榮星, 陳越. 微博輿情監測指標體系研究[J], 情報雜志, 2011(9): 66-70.

10、Rogers, E. M. (1995). Diffusion of innovation (4th Ed.). New York: The Free Press

11、潘崇霞. 網絡輿情演化的階段分析[J], 計算機與現代化, 2011(10): 203-206.