人民網
人民網>>傳媒>>傳媒期刊秀:《傳媒》>>2017年4月下

今日頭條如何用算法打擊“標題黨”

劉志毅
2017年09月26日15:13 | 來源:傳媒
小字號

今日頭條並不是傳統意義上的媒體,而是一家有媒體屬性的科技公司,一個內容創作與分發的平台,其願景是“成為最懂你的信息平台,連接人與信息,促進創作與交流”。

調配分發資源,打擊標題亂象

今日頭條雖然提供資訊信息,但是其內部並沒有編輯與記者,平台上90%的內容來源於頭條號,截至2017年3月底,已有超過60萬個人或組織開設頭條號。這就決定了今日頭條在打擊“標題黨”方面,要做的更多的是從生產層面和分發層面來進行控制。

具體來說,今日頭條所做的事情就是在分發的過程中,減少給“標題黨”的分發資源,而提升那些優秀內容得到分發資源的機率。這是提高效率的一種做法,也促使今日頭條能更好地打擊“標題黨”,貫徹主流價值觀,服務好用戶。

基於文本挖掘的機器“把關人”

很多“標題黨”常用的內容元素其實都是可以在文本層面進行總結的,交由機器處理的效率會更高。“正則表達式”就是定義一系列與“標題黨”相關的詞匯來維護一些規則,進而使用這些規則來檢測每一篇文章。今日頭條實際有數百人的審核隊伍,建立起了一套比較完善的規則,並利用機器算法對每天幾十萬篇的新進文章進行篩選。由此,得到這些文章評級的高低,並對文章的標題和內容進行判斷。

今日頭條建立了檢測“標題黨”的規則模型,警示頭條號作者的“標題黨”行為。當頭條號作者預發布文章的時候,如果標題中出現了“驚呆”“震驚”等內容,會收到一個飄黃的窗口,提示其內容涉及標題夸張,建議修改,如果作者繼續強行發布的話將會被限制推薦量。

Facebook在面對“標題黨”和假新聞時,依賴於用戶舉報。今日頭條建立“標題黨”的模型數據與國際上通行的做法類似,讓用戶對文章進行評論以及點擊“不喜歡”按鈕來表達個體意見,通過一些按鈕來收集用戶行為,再對文章的標題和內容質量進行判斷,從而把內容質量不高或是存在“標題黨”行為的推送限制在很小的范圍內。

另外,機器也會自動形成對“標題黨”文本的識別,給不同的特征以不同權重的得分。在運行的過程中,今日頭條會將標題裡面單個的詞進行拆分,並形成權重分數,同時也對詞組進行拆分,由機器自動打分,分數一旦超過閾值就被認為是“標題黨”,頭條號作者會收到警示。

面對頭條號作者忽略警示強行發布的行為,頭條號建立了一套非常嚴苛的處罰規則。如果是非法來源,違反相關法規扣50分。另外,被舉報抄襲、“標題黨”、含有廣告信息、標題與正文不符,甚至文章標題中含有錯別字的文章,都被認為對用戶造成了不利影響,作者將會受到相應的扣分處罰。

千萬不能小看這些扣分,在頭條號中,扣10分意味著發文和微信的RSS接入禁止一天﹔如果被扣至0分,整個賬號就無法恢復。由於頭條號的賬號與每個人的身份証綁定,個人賬號的凍結意味著該作者失去了在今日頭條平台上的話語權。如果被扣除50分,還將被取締廣告和自營廣告的權限,頭條號的商業價值將受到限制。同時,在頭條號平台上打擊力度非常之重,公告欄上會定期發布整治各類標題的公告,在偽科學、股評、兩性、減肥這些“標題黨”泛濫的重災區,進行專項治理。

數據方面,今日頭條平均每天有超過12000篇文章被提示修改,日均僅有1027篇文章還繼續強行提交,且強行提交之后會被進行很大程度的降權推薦,其中,476篇0閱讀,762篇閱讀量小於等於100。從2016年的7月至今,客戶端每周反饋量為每百萬DAU(日活躍用戶數量)從0.9降至0.3,即平均每100萬活躍用戶裡,反映內容存在“標題黨”的情況的人從原來的0.9人降到了0.3人。

以數據反哺內容創作者

頭條號的標題非常難取,一方面需要突出新聞點,而另一方面,要考慮機器分發。機器和人工分發最大的不同在於:傳統媒體的編輯具有文本經驗,機器則不然。人與機器溝通過程中需要做很多工作,如利用什麼關鍵詞來描述某事件能讓文章更好地被機器識別,從而到達更精准的興趣人群,發揮內容的最大價值,這是除了取好標題之外更迫切的需求,所以,標題留給創作者的空間很小,難度很大。

為了更好地實現用戶價值,提升用戶體驗,今日頭條推出了新的服務於創作者的產品——媒體實驗室。它將數據結果直接呈現給內容創作者,提供適合在平台上表達、分發,並能夠取得優良傳播效果的詞匯,將這些詞匯制成了可視化的分析圖表,給作者提供一些寫作角度的參考。

目前,媒體實驗室已經服務於400多家媒體機構,包括7000多位內容創作者用戶。比如,在美國大選期間對熱度進行監控,通過定制關鍵詞,能夠對專題進行相關的用戶畫像分析。

除此之外,內容創作者還能對熱詞進行關聯分析,通過分析用戶的互動行為來挖掘創作的角度。作為一個創作者的服務平台,媒體實驗室還會把今日頭條發布的數據報告第一時間進行發布,並為創作者提供原版下載。

目前,媒體實驗室已與一些媒體建立起了內容合作關系。今日頭條將媒體內容通過算法模型分發給不同興趣愛好的用戶,與此同時,媒體實驗室將用戶閱讀互動產生的數據收集並反饋給媒體,形成一種反哺的關系,就像打車軟件之於交通部門,外賣軟件之於食藥部門,媒體實驗室也可以把內容分發的好壞、優劣、內容關鍵詞的關系等,反哺給媒體機構甚至優秀的自媒體作者,讓他們最高效地進行創作,在不同創作環境和垂直領域內發揮自己創造力的最大價值。

(作者系今日頭條算數中心總監)

(責編:馬瀟(實習)、宋心蕊)

分享讓更多人看到

傳媒推薦
  • @媒體人,新聞報道別任性
  • 網站運營者 這些"紅線"不能踩!
  • 一圖縱覽中國網絡視聽行業
返回頂部