首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
- 經濟 · 科技
- 社會 · 法治
- 文旅 · 體育
- 健康 · 生活
- 國際
- 軍事
- 港澳
- 台灣
- 教育
- 房產
- 科普
觀點
互動
可視化
- 視頻
- 圖片
- 圖解
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
舉報專區
多語言
- |
合作網站
登錄

退出

人工智能剛上崗就"翻車" 培養一名合格的AI編輯總共分幾步

2020年07月01日07:24 | 來源：科技日報

小字號

原標題：人工智能剛上崗就“翻車” 培養一名合格的AI編輯總共分幾步

日前，微軟宣布6月底擬裁撤近80名外包編輯，由AI編輯負責接下來的MSN網站的新聞抓取、排版和配圖等工作。但沒想到，剛到崗沒多久，AI編輯就“翻車”了，而且犯了一個非常低級的錯誤。AI編輯在尋找配圖的時候，把非裔歌手Leigh跟阿拉伯裔歌手Jade弄混了。

針對此次微軟AI的配圖錯誤事件，Jade也在社交媒體上表達了不滿：“正常區分兩個不同膚色的人有那麼難嗎？”為何一向以高識別率著稱的AI，這次卻“翻車”了？

解決臉盲問題需要不斷擴大學習范圍

人臉識別技術是目前AI領域公認的比較成熟的技術，圈內人士也熱衷像刷分一樣把人臉識別准確率屢屢刷出新高，最高的號稱准確率可達99.9%。人臉識別技術有如此輝煌的戰績，為何此次AI編輯還會臉盲呢？

“人臉識別技術的工作原理，主要是比對五官比例以及面部特征。”天津大學智能與計算學部教授韓亞洪解釋，簡單說，就是基於人臉圖像的大數據，先對看到的人臉圖像進行預處理，提取面部各個方面的特征，並通過分層多次提取，尋找對於識別個體人臉最有效的特征表達。

人臉識別技術這些年已經發生了重大的變化，傳統的人臉識別方法已經被基於卷積神經網絡的深度學習方法替代。深度學習方法的主要優勢是它們可通過大規模數據集進行訓練，從而學習到這些數據的最佳特征。

“雖然可以使用大規模數據集進行訓練，但是目前99.9%的准確率，基本上是在一些基准的數據集上測試的結果。這個數據集肯定是有范圍的，如果收集的數據是在數據集分布的范圍內，便可獲得比較高的准確率。”韓亞洪說。

據了解，目前號稱人臉識別准確率達到99%以上的，很多指的都是和全世界最權威的人臉數據庫LFW（Labeled Faces in the Wild）進行比對測試的成績。LFW可以被認作一個考查深度學習系統人臉識別能力的題庫。它從互聯網上提取6000張不同朝向、表情和光照環境的人臉照片作為考題，可以讓任何系統在裡面“跑分”。“跑分”過程是LFW給出一對照片，詢問測試系統兩張照片是不是同一個人，系統給出yes或no的答案。

“解決特定的臉盲問題並不難，其實就是重新針對任務，收集這項任務領域內的人臉圖像，在原有算法模型上訓練，或者重新設計新的算法模型進行訓練，都會提高人臉識別率，以滿足實際應用的需求。”韓亞洪說，但是超出了特定任務，AI的“臉盲症”就會復發。目前並沒有哪個通用的模型算法可以解決所有的任務，但是AI可以通過不斷地調整，大量的學習，從而提高人臉識別的准確性。

深度神經網絡模型是進階的必要條件

“目前針對新聞文檔的分析和處理任務，AI編輯做起來相對得心應手。”韓亞洪介紹，具體地說，比如在一篇很長的報道中，讓AI編輯把重點摘出來，這是沒有問題的。現在是多媒體時代，大量的新聞報道會涉及圖片和視頻，AI編輯可以將圖片或者視頻自動提取出來，再從大篇幅的文字報道中，選取與之相匹配的文字說明，這個工作AI是可以比較准確地做到的。

“解決特定領域的問題，AI大多時候還是沒問題的，但是要實現通用，就比較難了。”韓亞洪強調，實現這些功能需要用到自然語言處理、模式識別、圖像視頻理解等領域的技術。

要培養一名AI編輯，首先需要收集大量的新聞報道和圖片視頻，再根據收集到的數據設計一個針對這個任務的深度神經網絡模型，網絡模型裡會有很多參數，然后通過數據把參數訓練出來，它就具備了最初設定的各種編輯能力了。在使用過程中，隨著AI編輯學習了更多的新聞，它的業務能力和性能也將不斷提升。

“不過目前的新聞生產對於AI編輯來說還很困難。”韓亞洪說，要讓AI學會寫新聞，必須要針對某個特定新聞主題，進行大量資料搜集和模型訓練。目前AI技術隻能在風格相對固定、詞匯量使用范圍較小的領域完成文本生成，比如天氣預報等內容，AI可以很好地輸出相關報道和消息。但要生成人類創作的那種有創新要求、情感描述豐富的文章，AI編輯的能力仍有待進一步提升。

協作將使新聞生產更加高效

“有趣的是，AI犯的錯誤大多是我們意想不到的低級錯誤，但在某些方面又強悍到讓人類望塵莫及。”韓亞洪舉例說，像給文章分類這種工作，人類編輯要進行大量閱讀，重復性勞動耗時耗力，速度非常慢。但這項工作AI編輯做起來就非常簡單了，通過文字—文檔的主題建模，AI可以比較准確地對文章按主題進行分類。另外，對於可以使用模板的短新聞，比如天氣預報、証券信息等，AI編輯可以准確迅速地將各種數字或者專有名詞嵌套到模板中，從而完成一定的文檔生成任務。

美聯社曾使用AI系統自動編發企業財報。AI系統對數據進行自動抓取，將其嵌套在美聯社預先設定的新聞模板中，幾秒鐘就能完成一篇150—300字的短消息，該系統每季度能產出約4000篇新聞，與之相比，美聯社的人工編輯們每季度隻能完成400篇。

做這些特定的工作，AI編輯比人類厲害的地方不僅在於速度，准確率也可圈可點。“像分類或者是嵌套模板寫短消息這類的工作，因為任務明確，AI的准確率還是非常高的，很少出現錯別字或者數據錯誤。”韓亞洪介紹。

在運用大數據分析預測爆款方面，AI編輯可能比人類單純從經驗出發顯得更“科學”。2015年，《紐約時報》使用AI機器人對社交平台中的文章進行篩選和分析，預測哪部分內容適合推廣。凡是由它自動推薦的文章的點擊量都大大增加，甚至達到了普通文章的38倍。

“但在AI編輯的世界中，隻有知道和不知道兩種狀態，因此處理的內容一旦超綱，它們就會立刻犯很多低級到可笑的錯誤。”韓亞洪說，像這次AI編輯把非裔的Leigh跟阿拉伯裔的Jade弄混了的這樣的錯誤，對於人類來說，即使沒見過Leigh ，但根據常識，也不會把非洲裔和阿拉伯裔弄混。

“目前階段的編輯工作完全依賴AI是不現實的，讓AI成為人類編輯的幫手似乎更切實可行。”韓亞洪說。美聯社預測，AI介入媒體行業能夠幫助新聞工作者釋放20%左右的時間，讓后者可以將這部分時間更多地投入到內容創作方面，簡單的事實核查與調研方面的工作交給AI，有利於提高新聞質量。

“未來，人類應該把AI編輯當作合作伙伴，雙方協同起來，使工作更加高效有質量。”韓亞洪說，人類不應該覺得AI是來“搶飯碗”的，而應該為有AI這樣的合作伙伴而感到幸運。（記者陳曦）

(責編：宋心蕊、趙光霞)

分享讓更多人看到

傳媒推薦

@媒體人，新聞報道別任性
網站運營者這些"紅線"不能踩！
一圖縱覽中國網絡視聽行業

人民日報報系

旗下網站

人工智能剛上崗就"翻車" 培養一名合格的AI編輯總共分幾步

推薦閱讀

傳媒推薦

相關新聞

客戶端下載

熱門排行