王彤:大數據創新內容生產
人民日報媒體技術公司大數據產品經理王彤
人民網深圳8月21日電(記者 燕帥)由人民日報社與中共深圳市委、深圳市政府聯合主辦的2016媒體融合發展論壇技術分論壇在深圳舉行,人民日報媒體技術公司大數據產品經理王彤先生發表題為“大數據創新內容生產”的演講。
以下是人民日報媒體技術公司大數據產品經理王彤演講全文:
諸位領導和來賓大家下午好!我是人民日報媒體技術股份有限公司媒體技術部的大數據產品經理——王彤。
現在大數據驅動模式帶來越來越多好處,比如像電子商務系統,比如像搜索領域,比如像廣告領域,都帶來了質的變化。我今天跟大家分享的是:“使用大數據技術,為我們內容生產到底帶來什麼便利?”
首先我們回顧一下“傳統的媒體”制作方式是什麼樣的?
假設一個記者,他想寫篇文章,他可能通過讀者的爆料或者網絡上的熱點來尋找話題,然后他通過面對面訪談或者借助於搜索引擎,盡可能想了解事物的全貌,最后完成寫稿、審稿、發布等一系列工作。但是這個流程存在什麼問題?對於一些短期突發事件很難快速捕捉,對於一件持續時間較長的新聞事件,比如像馬航事件跨時2年,如果讓一個記者現在寫一篇馬航事件完整性的報道,確實具有非常強的挑戰性。
其次,我們生產流程過於冗長很難滿足現今受眾快速消費的趨勢,另外我們缺少很好的信息反饋機制,比如說紙媒,我們隻能說這份報紙賣了多少,而對一個網站性文章隻能了解大概的點擊量如何,但是網友心聲,對這個事情的態度,他的想法、觀點,我們是無從可知的。
基於此,我們人民日報中央廚房,改變了原有的內容流程,創新性的創造了六大全新生產角色。為了能更好為中央廚房的六個角色提供數據支撐,我們提供了三大服務,主要是為記者編輯寫稿服務的生產服務輔助服務,還有了解網民心聲媒體輿情服務,還有為每一個記者創造個性化工作區的記者工作台。
“新聞熱點”對一個媒體人來說是非常關注的,如何發現熱點,這是一直困擾他們的問題,我們系統可以通過不同緯度,比如時間、地點、領域、行業等多個角度來說,幫助大家找到一個最新的熱點,哪些問題是我們目前要解決的。同時,有一些事件可能剛剛發生,但並不一定可能會演變成熱點,我們怎麼辦?我們可能系統裡邊從裡邊進行標注,會告訴大家這些潛在熱點可能在哪些方面存在?
同時比如說王寶強的離婚事件,這是一個熱點話題,我們可以通過關鍵字的搜索的方式,可以定制這個話題。這樣未來關於王寶強離婚方面的熱點新聞會不斷推送給我們。同時我們支持頭條分析功能,比如基於媒體的PCT的分析,比如基於網民的UGC分析,還有基於紙媒頭條相關的分析,還有一個是媒體生命指數,讓我們更好地了解一個事件大體的生命周期有哪些?
這是我們系統(ppt展示),我在8•18當天截的屏,我們統計湖南省,當天最熱門的事件,第一個全國性事件,就是女職工要休痛經假的問題。第二個是長沙火車站要求收空調費用。
剛才我說了,一個媒體記者非常關注的事情是如何立題、選題?我們提供了非常豐富的選題輔助模塊,幫助媒體人員和記者人員進行選題操作。比如記者可以通過我們的系統中找到哪些突發事件可能是一個他選題的方向。哪些最熱的新聞事件,可能是他的選題方向。搜索引擎裡面搜索的關鍵詞也可能是他的選題方向,還有目前微信、微博裡面所關注的內容,可能也是記者的選題方向。我們會對每一個事件進行“全過程化”的事件演變分析,完整展現事件整個的發展脈絡,同時我們可以通過地域、時間等方面,對事情的關聯性進行分析,可以對以前的歷史事件進行比較,比如同一個事情在過去怎麼樣處理,在過去一個問題用什麼樣的觀點進行表述。
同時,我們還提供新聞媒體的反饋服務,知道這篇文章,到底作為一名受眾他持有什麼樣子的觀點?
這是我們現在系統中提供的推薦選題模塊,可以對通過熱點事件、突發事件、關鍵詞,和搜索,比如像百度搜索、微信等等排行找到我們需要的題目進行新聞創作。
我選擇了“魏澤西事件”作為新聞演化分析的展示,在圖片右邊(ppt展示)中可以完整看到事情發展的脈絡,從一開始國家關注,到百度回應,再到相關自媒體曝光民營醫院問題,最后魏澤西父親發布魏澤西去世的消息。
我們可以通過性別、年齡、地域三方面進行受眾分析,還可以收集網民對新聞事件情感性分析,支持還是反對?喜歡還是不喜歡?同時通過對於整個事件的梳理,我們可以建立事件人物圖表。
當一個選題確定以后,我們希望盡可能提供完整的個性化素材支持,所以我們提供了素材訂閱功能。同時我們系統支持將第三方的素材庫接入到我們本身的系統。現在的素材內容有真有假,質量有好有壞,所以我們建立了一套豐富的素材評定系統,方便記者和編輯進行素材編輯工作。
在個性化素材的訂閱功能中,系統可以通過通過不同時間維度、地域維度、行業維度定制我們個人所需的素材。而這些素材通常也可以成為我們選題的一種方向。
另外一部分是機器人寫稿,是目前比較火熱的場景。現在一些新聞,比如財經類新聞,或者體育類新聞,大量使用機器人寫稿的模式,我們在這方面也做了相關的嘗試。
我們提供了一套“輿情服務”,可以通過行業和突發事件,了解全網的輿情態勢,而且可以對不同的機構,不同事件、品牌、產品和不同的人物,進行輿情定制,產生適應的輿情報告。同時我們還可以分析相關每個輿情機構、輿情人物裡面人物關系、機構關系,以及口碑分析。
這個是我們整體的系統架構圖,我們大概分為七大組成部分:第一點是我們的“數據源”,我們現在目前所擁有的數據包含幾大部分:
一部分是目前視頻媒體相關信息,還有一些新聞門戶類信息,另外還包括一些社交網絡性的信息,比如像現在的微信、微博、Linkedin等等這些產品,都在把相關數據接入到我們這邊,我們建立了龐大的分布式存儲和計算架構,同時我們有一套很完善的個性化搜索體系,可以實時為我們素材搜索和信息搜索提供幫助。基於自然語言處理和深度學習技術,我們產生了一整套的完整的算法組建基礎庫,分別針對於熱點挖掘、話題基本面挖掘,話題成因三方面的進行建設。通過這些基礎算法的組件,為我們的新聞熱點的發現,新聞的編寫還是輿情服務等上層應用提供了基礎支撐。
最后給大家分享一個目前比較火熱的“王寶強案例”,這個是我們借助我們系統,8·18當天的數據,分析得到的相關信息。在8·18那天王寶強離婚案,大概報道數量超過118條,因為是奧運期間,所以像跆拳道58公斤奪冠的信息等奧運相關事件信息也獲得了比較高的排名。當我們去除高頻詞以后,我們會發現王寶強事件兩位男女主人公,王寶強、馬蓉佔了差不多50%的數據,我們通過分類、聚類、去重處理后,發現王寶強離婚事件熱度達到98.9%,相當於所有媒體都在關注此事件,同時中國奧運相關事件也獲得了64.3%的熱度。這部分是我們摘取的網民的意見,大家可以看到好評意見是23%,大部分是表達王寶強的可憐,而更多是關於馬蓉的負面信息,盡然達到70%多之多,大都是對與馬蓉的辱罵性的詞語。
這部分是我們對整體的王寶強事件的情感性分析,我們發現從16號開始,雖然正負面消息都有,但仍屬於波瀾不驚狀況。從8月16日開始,因為相關惡性事件跌出,更大程度勾起網民對此事件的關注,所以從8月17日以后,大家發現無論正面信息還是負面信息,都會到達一個極大的波峰。
這個是剛才我給大家演示的新聞事件的一個演化性分析,我們可以完整的了解到,從王寶強發表離婚聲明的8月14日開始,到8月16日王寶強出軌信息爆出的,整個的事件發展脈絡。
我們可以通過拓扑圖方式,了解一篇新聞文章從原創到轉載的整個網絡態勢情況。這個是我們基於知識圖譜所創建與王寶強相關的人物關系圖譜。
我們對王寶強新聞事件的人員進行了簡單的分析會發現,關注這個事件的人,主要是什麼?主要是有新聞閱讀習慣的人群,還有對於搞笑內容關注的人群。這說明什麼問題?很多人把該事件當成一種娛樂化的新聞進行消費的,抱著看熱鬧的心態。我們可以看到關注財經、戶外。游戲的受眾對此新聞關注涉少。同樣採用知識圖譜的技術,我們還發現對王寶強事件感興趣的人,同時對下列若干明星,比如像徐崢等同樣抱有很大興趣。
現在網絡上信息錯綜復雜,有好有壞,真假難辨,所以我們建立了一套完整的信息的質量的評價系統。通過信息的出處、轉載量等相關指標作為一個評定標准,對文章的質量和可信度產生一定的量化分析。
這個是我們基於SISA指數進行傳播影響力指數的分析。
這就是我基於大數據對於內容生產方面所提供的支持,主要是包含了三大部分:“生產方面的支持,網民輿情支持,還有創建了一套記者專屬的工作台“。目前我們還希望平台的能力進一步提升,我們歡迎更多的數據源接入到我們平台,需要有更多的算法提高我們算法准確度,來提高我們服務的質量。所以說,希望通過我們進一步地努力,可以為我們媒體生產帶來進一步的提高,謝謝大家!
分享讓更多人看到
- 評論
- 關注