人民網
人民網>>傳媒

語音師讓手機更聰明 語音輸入法能"聽懂"19種方言

2017年04月11日07:01 | 來源:人民網-人民日報
小字號
原標題:你的方言,我懂(體驗·新職業)

翟吉博(右)和同事在工作中交流。

剛一見面,科大訊飛的智能語音產品官翟吉博對著手機快速說出:“你好,很高興接受你的採訪,語音輸入法的效率、准確率有多高,你現在就能看到。”這段話被迅速識別並轉換成文字出現在手機屏幕上。

“這就是我們團隊這幾年的工作成果。”採訪時,翟吉博一直開著語音輸入。他笑言,他說的每一句話都將被轉為文字,為記者省去整理錄音的時間。

輸入法能“聽懂”19種方言

“大家習慣叫我們語音師,實際我們是很多掌握不同技術的人員,共同在打造一款語音技術產品。”翟吉博畢業於上海交大電子信息與電氣工程學院,2009年以“碼農”的身份離開外企加盟位於安徽的科大訊飛公司。2010年,翟吉博創建訊飛輸入法,見証了訊飛輸入法從0發展到4億用戶的全過程。

為什麼要做語音輸入法?翟吉博回憶,2010年6月8日,蘋果公司發布了經典產品iPhone4。當晚,翟吉博和幾位年輕同事就該款手機的使用進行討論。由於其屏幕僅為3.5英寸,大家認為用全鍵盤輸入法打字並不方便。

既然用手指輸入文字的體驗不好,可不可以用語音輸入?一番思維碰撞后,翟吉博決定把科大訊飛的語音識別、手寫輸入技術結合到拼音輸入法上來,僅僅用三天的時間就做出一個演示版本。

翟吉博沒想到,他的心血來潮之作得到公司上下一致認可,使用者都認為這個產品前景廣泛,應該讓更多人使用。就這樣,翟吉博組織團隊封閉數月打磨產品。4個月之后,訊飛輸入法正式上線。這是語音識別技術首次運用在手機上,科大訊飛成了第一個吃螃蟹的人,翟吉博從此擔任產品總監。

“從那時起,我不再是單純的‘程序猿’,而成了‘產品狗’。換句話說,我的工作不是單純地寫代碼,而是發現用戶的需求后,再評審是否有前景,實現的成本有多大?如果有應用價值,就用技術架構去實現,再慢慢完善產品體驗,不斷地去優化產品。”

最初版本的語音輸入法想要大規模普及,面臨諸多難題。首先,當時的語音識別准確率過低,第一個版本語音識別准確率還不到70%﹔其次是網絡,當時的訊飛輸入法需要通過網絡調用雲端數據,但當時的移動互聯網並不穩定,用戶對使用流量也比較敏感﹔然后是方言,不同地區的人語言有很大差別,方言區用戶的口音無法被識別﹔最后是個性化語言,不同的用戶有不同的語言習慣、說話方式、口音差異等。

通過推出離線識別、方言識別、學習個人習慣等功能,攻克一個又一個難點,不斷滿足用戶的個性需求。目前訊飛輸入法支持包括粵語、四川話、閩南語、客家語、貴州話等在內的19種方言。

“在一個又一個需求被滿足的過程中,不僅用戶規模逐漸擴大,技術也在不斷改進。目前語音識別准確率已提高到97%以上,1分鐘可識別約400個字。”翟吉博很是自豪。

讓跨語言交流更暢通

這些改進,聽起來很簡單,實際上難度不小。以構建各個方言版本為例,推出每一款方言版本時,都需要找到諸多語言學家組織採集數據。“每一種方言識別功能剛推出時識別准確率都較低,得想辦法不斷去改進。在這一過程中,難就難在技術人員不懂語言,而語言學家又不懂技術,隻能是技術人員不斷借助語言專家的經驗。”翟吉博現場演示,選擇四川話后,“巴適”“瓜娃子”等都能被迅速識別。

在攻克各個方言版本之后,翟吉博正嘗試滿足日益增長的跨語言交流需求,目前訊飛輸入法已經拓展了中譯英、中譯韓、中譯日、英譯日等隨身譯功能,讓不同語言的人可以通過文字溝通。

記者當場體驗了隨身譯功能,在選擇“中英文”之后,對准手機話筒說中文,屏幕上出現自動翻譯的英文。翟吉博說:“隨著翻譯准確率的不斷提升,在不遠的將來,一定可實現不同語言的人直接交流。”

“未來,語音技術有著越來越廣泛的運用空間,如與汽車結合,進行車載控制等。語音技術不是短平快的產品,而是基礎性的產品。當人工智能、智能設備廣泛運用時,語音技術的春天會真正到來。”翟吉博相信,語音技術的發展前景不可限量。(孫 振 李家林)

(責編:宋心蕊、趙光霞)

分享讓更多人看到

傳媒推薦
  • @媒體人,新聞報道別任性
  • 網站運營者 這些"紅線"不能踩!
  • 一圖縱覽中國網絡視聽行業
返回頂部