“快筆小新”:新華社第一位機器人記者
“快筆小新”兩年多時間不眠不休,盡職盡責,“撰寫”了大量體育和財經報道,差錯為零﹔捕捉、發現網絡熱點,成績頗佳。如今它又有了新的“愛好”,文本復述、語音交互、看圖寫話、智能生成模板等都是它正在涉足的工作。
“快筆小新” 機器人寫稿 人工智能
2015年11月7日,在新華社84歲生日之際,新華社的編輯記者們迎來了一位特別的同事,名字叫“快筆小新”,這是新華社第一位機器人記者。經過兩年多的不斷迭代開發,“快筆小新”具備了更強大的“寫稿”能力。
“快筆小新”上線運行后,7×24小時不間斷工作。每逢重要體育賽事,或股市開收盤、突破整數關口,或國債開收盤,或是上市公司年報季報等金融信息發布之時,它會自動根據所公布的信息快速生成新聞稿件。編輯在編輯系統對“快筆小新”生成的稿件進行核對后正式簽發。
“快筆小新”是如何工作的?
在財經和體育報道中,“快筆小新”可以同時完成多項任務。“快筆小新”的寫稿可以分為“採集清洗”“計算分析”和“模板匹配”三個流程。依托大數據技術對數據進行實時採集、清洗和標准化處理,再根據業務需求定制相應的算法模型,對數據進行實時計算和分析,最后,根據計算和分析結果選取合適的模板生成CNML中文新聞置標語言標准的稿件,自動進入到待編稿庫,供編輯審核后簽發。
機器人“快筆小新”有一套能和技術人員交流的“語言”,技術人員會告訴小新按照什麼樣的規則和樣式生成什麼樣的稿件。這個過程我們稱之為“模板定制”。有了定制好的模板,機器人就會自動採集數據,進行進一步清洗、分析、加工后,再根據計算和分析的結果按照定義好的格式自動生成新聞稿件。
“快筆小新”雖然是根據固定格式模板寫稿,但寫出來的稿件並非是一成不變的。一方面我們可以在模板定制的過程中,通過為每個報道場景建立領域知識庫,針對不同的場景賦予其豐富的稿件樣式,在具體運用模板的過程中,對每個知識點對應的模板賦予不同的權重,利用規則庫的信息計算出權值,最后根據權值自動匹配出最佳的稿件。這其實就是建立模板庫和規則庫的過程。另一方面,通過建立完善的歷史數據庫,例如財經類的季報、年報、歷史報價等數據庫,體育類的賽事等基礎數據庫,並針對業務報道需求,研發計算同比、環比、指數、累計進球數、積分排名等各種指標的歷史統計模型和趨勢分析模型等,提高“快筆小新”新聞報道內容的豐富性。
“快筆小新”能為編輯記者提供什麼?
體育、財經類相關稿件是“快筆小新”的強項。面對互聯網公布的大量紛繁冗雜的數據,比如失業經濟數據、股價報盤、人民幣匯率報價、上市公司公告和財報、個股資金淨流入流出、融資融券數據、中超比賽結果和積分公報、CBA比賽結果和積分公報等,“快筆小新”能迅速採集整理相關數據,准確編寫新聞稿件。其中也包括國外的相關數據,如英國CPI、英國失業率情況、歐元區失業率數據、全球主要股票市場開收盤情況,都可以迅速處理,生成相應的稿件。
“快筆小新”運用文本摘要技術實現上市公司公告摘要。上市公司每天都要發布大量上市公司公告,編輯記者很難對每篇公告都進行詳細閱讀和跟蹤。通過使用文本摘要技術,對於原文中的句子分析、評估和抽取,根據已經設計好的算法模型,自動分析和摘取其中的要點和知識點,輸出短小的摘要,為編輯記者提供素材服務。這極大地降低了編輯記者的工作量。
“快筆小新”能夠實時關注網上的熱點新聞。網絡用戶既是內容的消費者,也是內容的生產者。自媒體時代,人人都可以寫稿,人人都可以發聲,微博、微信等UGC平台正在變成一個巨大的信息匯聚場所,一些熱點事件往往首先從微博和微信平台發布出來。機器人從微博、微信等UGC平台上獲取並整理這些信息,提醒編輯記者發現熱點。目前,“快筆小新”通過採集新浪微博上多位在金融領域有權威和聲望的專家微博,動態關注並採集其發在微博的相關言論,對其相關內容進行關聯分析,分析結果作為素材供編輯記者參考。
“快筆小新”的實際工作成效怎樣?
上線兩年多,“快筆小新”在工作崗位上不眠不休,盡職盡責,是一位名副其實的“業務能手”。在擅長的體育和財經領域,無論是CBA和中超的體育比賽,還是諸如財經領域的股市行情觸發、年報等財報的實時分析,原來需要編輯記者用15∼30分鐘時間完成的稿件,“快筆小新”隻需要3∼5秒鐘就能完成,極大地降低了編輯記者的工作強度,提升了新聞信息的生成能力和發稿時效性,讓編輯記者從基礎數據信息的採寫中解放出來,將更多時間用於採寫深度分析稿件。
在2016年的裡約奧運會期間,“快筆小新”全程跟蹤賽程中的所有比賽,在賽事結束的第一時間迅速生成新聞稿件,實時跟蹤報道了所有比賽的結果,共有500多篇稿件被正式簽發,實現了零差錯。在今年2月的平昌冬奧會期間,“快筆小新”不辱使命,以零差錯服務於整個冬奧會的成績播報和獎牌榜發布,採寫了大量稿件。與往屆奧運報道相比,因為有了“快筆小新”的參與,編輯記者第一次能如此輕鬆地播發奧運會所有比賽的成績公報,使奧運賽事報道時效有了極大提升。
在做好體育和財經這些“主業”的同時,“快筆小新”正在不斷地學習新的業務技能。例如,“快筆小新”可以實時跟蹤重要部委發布的信息,一旦外交部、國防部等部門發布了重要信息,“快筆小新”可以實時採集並生產稿件,為我們的編輯和記者提供參考。“快筆小新”可以實時接收中央氣象局發送的天氣預報數據,自動生成符合要求的中英文天氣預報稿件,編輯記者隻需進行簡單校對,就可以簽發了。
“快筆小新”的成長和發展空間如何?
隨著近年來機器學習技術的不斷發展,國內外紛紛推出機器人寫稿產品,寫稿機器人智能化水平不斷提高。美聯社、路透社、騰訊、百度等國內外新聞機構或技術公司都在開發和應用機器人寫稿技術,“快筆小新”將進一步學習和借鑒新技術、新應用,加強與外界的合作,互通有無,共同進步。當下,“快筆小新”也在不斷嘗試將智能語言處理、人工智能的技術應用到發稿中,進一步提高“快筆小新”的智能化水平。下面幾項是“快筆小新”重點探索的方向:
文本復述。就是通過對原有文本進行改寫,生成新的文本描述。在所生成的文本和原文本的比對過程中,會發現要表達的意思基本一致,但是可能會加入一些立場等,添加更多的表述風格,使復述出來的稿件更加生動,觀點更全面,更有可讀性。
語音交互。語音技術主要包括語音識別和語音合成兩個主要應用方向。語音識別簡單地說就是機器將人的語音轉換為文字。語音合成,又稱“文語轉換”(Text to Speech)技術,能將任意文字信息實時轉化為標准流暢的語音朗讀出來,相當於給機器裝上了人工嘴巴。“快筆小新”已具備了一些簡單的語音交互能力。目前編輯記者隻要口述股票的名稱和所需查詢的內容,小新就可以自動獲取生成的股市行情、股市公告、股市財報、體育賽事結果等消息,並進行實時播報。未來,我們的“快筆小新”在智能問答、人機交互等領域還有很大的成長空間。
看圖寫話。探索圖片、視頻的自動生成。根據給定的圖片或者視頻,自動生成可以描述圖片或者視頻內容的稿件,類似於“看圖寫話”或是“看視頻寫話”。首先,需要從圖片或者視頻文件中抽取出諸如人物、時間、事件等信息,然后根據這些信息找出其表述的重要概念,最后運用自然語言處理技術將上述概念等,根據該事件的實際場景和實際語境整理成一句或者一小段合乎邏輯的文本。未來,我們的“快筆小新”將探索在該技術領域的文本編寫,從體育實況比賽開始進行嘗試,相信它能寫出更加符合語法習慣、符合實際場景的完美表述。
智能模板生成。目前,“快筆小新”所採用的模板,多為技術人員將以往的稿件採集、分析后入庫,從技術角度挑選最合適的模板來匹配實際場景。通過應用機器學習技術,讓機器學習編輯記者曾經發過的稿件,根據不同的報道要求,自動生成最合適的模板。
豐富數據庫,拓展新行業。擴展信息來源、豐富數據庫資源是“快筆小新”向前邁步的“第二條腿”,目前,“快筆小新”具有規模可觀的數據庫和新聞線索來源,已經建立了奧運、籃球、足球、滬深股市、國內期貨債券、外匯等近20多個不同類型的數據庫。“巧婦難為無米之炊”,豐富廣泛的數據庫資源是“快筆小新”寫稿創作的源泉,不斷完善擴充新的數據庫是加強“快筆小新”寫稿能力的重要手段,完備、豐富、准確的數據庫是“快筆小新”寫稿質量的強有力保証。承上所言,在體育、財經領域之外,“快筆小新”目前已經具備了地震快報、天氣預報的寫稿能力,隨著數據來源的不斷豐富,“快筆小新”會涉足更多行業的新聞寫稿。
“快筆小新”對媒體有怎樣的意義?
科學技術是第一生產力,每一次新技術的應用都給新華社新聞信息的生產方式帶來翻天覆地的變化。
新華社經歷了三次重要的技術變革。第一次重大技術變革是摩爾斯電報和短波通信技術的應用,改變了原來主要靠信件傳遞的通信方式。第二次重大技術變革是電傳機、漢字模寫機、照片傳真機的應用,取代了莫爾斯收發電報機,電纜通信、微波通信也得到了應用,極大地提高了新華社的信息收發和處理能力。第三次重大技術變革是計算機處理和數字通信技術的應用,取代了傳統的電傳機和傳真機,使新華社迎來了多媒體新聞信息生產的時代。
當前,我們正處在一個新的十字路口,這是一個“互聯網+”和雲計算、大數據、人工智能、機器學習等新技術廣泛應用的時代。“快筆小新”,是科技和新聞不斷融合發展的產物,從誕生之初發展到今天,代替人工完成一些輔助性工作已經成為趨勢,未來新聞信息的生產加工和傳播,必將隨著技術的發展發生更大的變化。
“快筆小新”作為新華社一員,將以服務新聞採編工作、提升現代化報道水平為宗旨,一步一個腳印地向更高目標邁進。
(作者鐘盈炯系新華社技術局工程師,張寒系新華社體育部主任編輯)
分享讓更多人看到
推薦閱讀
相關新聞
- 評論
- 關注