人民網
人民網>>傳媒

發力智能信息檢索與挖掘 頂尖研究團隊打造"超級助手"

張航
2019年09月12日07:09 | 來源:北京日報
小字號
原標題:打造“超級助手”

  有了“賈維斯”,“鋼鐵俠”可以毫無后顧之憂地穿梭地面、天空,遠程指揮機甲,攻擊敵人,拯救世界……

  有了“大白”,小宏臉色微紅、肢體微痛,就會得到全身健康掃描,獲得多個健康建議……

  還有《流浪地球》中被賦予重任的“莫斯”……

  幾乎所有超級英雄的身邊,都有一位能精確感知甚至預知主人需求的“管家”,毫厘不爽地匹配主人想要的信息資料、行動建議等資源,使主人變得更強……

  “其實這樣的‘管家’,每個人都有,這就是另一個‘自己’。”文繼榮說。8月底,這位中國人民大學信息學院院長,剛剛榮膺北京智源人工智能研究院“智能信息檢索與挖掘方向”首席科學家,他與來自中國科學院、清華大學、北京大學等高校和科研院所的10位科學家組成頂尖研究團隊,全力打造“善解人意、無所不能”的個人智能信息助手。

  也許,在不遠的將來,科幻就將變成現實。

  圖書館裡的小卡片

  1990年,文繼榮考入中國人民大學,就讀經濟信息管理專業。

  上大學的時候,圖書館是文繼榮最愛去的地方,也是他最憷的地方。

  上世紀90年代初,計算機、網絡都處於起步階段,找書隻能靠一張張小小的索引卡。

  想要查資料,往往需要耗費一整天的時間。

  那時候,文繼榮常常一大早就騎上自行車從學校出發,趕去國家圖書館借書前台,埋頭尋找所借圖書的索引卡片。

  卡片上,有一串長長的編號,可以指向某本書在哪個書庫,哪個書架,哪一排。找到卡片,就要開始填寫借書單,一定要寫詳細、寫准確。工作人員接過書單后,通常會告訴文繼榮“先去吃個飯”,因為他們也得進書庫“按單索驥”……

  匆匆吃完飯,文繼榮再趕回國圖,才會看到想借的幾本書。然后是辦理借閱手續,或者復印其中的一些資料……等一切忙完,抱著心愛的書走出圖書館,往往已是夕陽余暉。

  “現在的年輕人都覺得不可思議。”文繼榮說著,笑了,“他們在宿舍、教室,打開筆記本電腦上網,可以隨時搜索、借閱學校圖書館裡的幾百萬冊書籍,查詢全世界幾乎所有主流的文獻數據庫。”

  “索引卡,早就過時了。”年輕的學生曾經這樣說。文繼榮點點頭,又搖搖頭。

  的確,在現代圖書館中很難再見到索引卡,也不會有人再翻索引卡找書。但這張3×5英寸的小卡片不該被人類忘記。

  從最初用於整理動植物和礦物信息,再到后來用於圖書館系統目錄索引,這張小卡片曾經幫助人類分類所有的知識。

  更重要的是,正是這張小卡片,以及后來不斷發展的分類索引、圖書館編目革命,催生出一個又一個獲取信息的創意,並最終孵化出互聯網的原型,給了我們快速獲取信息的無限可能。

  文繼榮說,借助高速互聯網、信息化技術,全世界的學術資料連接成了一個龐大的“圖書館”,“我們要做的,就是找到那張能快速抵達所需信息的‘小卡片’。”

  辦公室裡的“大白”

  文繼榮的辦公室裡,一塊約1.5米長、1米高的白板豎在辦公桌背后。

  白板上寫著一堆技術研究符號、公式,最下方畫著5個形態各異、憨態可掬的“大白”。“這是我女兒上小學時候畫的,她特別喜歡《超能陸戰隊》裡的機器人‘大白’。”文繼榮凝視著“大白”,臉上有幸福,也有得意,“現在女兒都上初中了,我一直舍不得擦掉。”

  也許給女兒制造一個“大白”,也是文繼榮不斷探索的動力。

  無論是在中國人民大學讀本科、讀碩士,還是在中國科學院完成博士學業,抑或是作為首批研究人員加入微軟亞洲研究院,看科幻電影一直是文繼榮喜歡的休閑方式,“不僅能放鬆,好多電影情節,還能給我的研究帶來靈感。”文繼榮說。

  比如《鋼鐵俠》裡的“賈維斯”,能獨立思考,幫助主人處理各種事務,計算各種信息﹔《超能陸戰隊》裡的“大白”是私人健康顧問,能掃描生命指數,存儲多達一萬種醫療知識,隨時為主人提供醫療幫助……

  文繼榮說,這都是典型的智能化個人信息助手,這才是未來智能搜索技術應該發展的方向和目標。

  博士畢業之后,文繼榮一直在朝著這個目標努力。他專注於信息檢索、數據挖掘等領域,獲得多項專利,成為搜索領域專家。他所領導的研究團隊在互聯網搜索和數據挖掘領域做出了一系列開創性工作,開發出的“微軟學術搜索”“人立方”等產品,名噪一時。

  2013年,文繼榮回到母校中國人民大學任教。為支持信息學科建設,人民大學專門建立了大數據中心,文繼榮和團隊如魚得水。

  目前的搜索引擎不夠聰明

  我們常用“學富五車”來形容一個人學識淵博。“其實,五車的知識也挺有限的。”文繼榮笑著說。“學富五車”這個成語誕生的時候,中國人是在竹簡上寫字,五輛大車所裝的竹簡,知識信息含量並非遙不可及,依靠互聯網和現代搜索技術,可以輕鬆擁有。

  8月底,在“智能信息檢索與挖掘方向”智源學者候選人發布會上,文繼榮做了一場報告,深入淺出地講述“智能信息檢索與挖掘”。

  文繼榮提到了每個人都很熟悉的搜索引擎。他說,搜索引擎如今已成為人們主動獲取信息的主要手段,也是迄今為止最成功的一項大規模人工智能應用。在過去20多年裡,搜索引擎極大地方便了我們的工作與生活。可以說,搜索引擎提升了人類獲取信息的能力,拓展了人的記憶查找能力。同時搜索組件開源化,也已經潛入各種互聯網應用,“我們瀏覽的各種網頁,使用的各種手機APP幾乎都具有搜索功能。”文繼榮說。

  “但是,現在的搜索引擎還不夠聰明。”文繼榮說。

  “不夠聰明?我覺得找信息,足夠用了!”記者說。

  “那是你們要求太低了!”文繼榮笑道,“大家已經習慣搜索引擎返回不相關的結果,然后靠自己不斷變換輸入關鍵詞、遍歷多個網頁來尋找信息。但搜索引擎本應做得更好!”

  文繼榮說,事實上搜索技術的架構和交互界面已經30年未變,搜索的核心技術已經10年沒有重大進步。因為用關鍵詞檢索的方式表達能力有限,在使用過程中,通常和搜索工具的信息交互都是採用“一問一答”的方式,無法完整描述整個信息需求,搜索系統也不會主動交互和引導,只是高度依賴用戶的表達能力,獲得的信息也是千人一面。

  “超級助手”未來五年將有雛形

  智能信息助手,就是文繼榮認為的“聰明的搜索”。在他看來,智能信息助手將取代搜索引擎成為連接人與信息的新工具,用存儲、計算和智能拓展人的能力,構建具有超級記憶力、知識能力和分析能力的“超級助手”。

  如果再深入一步,這個信息助手還應具備個性化特點,通過不斷的深度學習,與每一個人的行為習慣、愛好相匹配,如同配置了一個加強版的自己來當“助手”或“管家”,“這遠遠不是現在我們在市面上見到的那些數字助手所能比擬的。”文繼榮說。

  文繼榮舉了個例子——如果我們想和朋友聚餐,但又不確定去吃點兒什麼。當你提出聚餐成員時,這個信息助手會自動根據聚餐成員的喜好,安排餐廳。比如都是浙江朋友,那麼在這個時節,應該更願意來一壺黃酒,嘗幾隻大閘蟹,於是“信息助手”推薦了北京很有特色的紹興菜館,還幫你訂了位,叫了車。“舒心吧,這就是個性化的智能信息助手,是我們正在研究,力求打造的目標產品。”文繼榮說,它善解人意,無所不能,就像你身邊的“賈維斯”或者“大白”。

  “智能信息檢索與挖掘方向”研究,遠非僅限於高質量地服務個人。文繼榮說,它所帶來的成果價值將在全社會生產力提升、生產方式變革的方方面面得到體現。

  統計數據顯示,截至2018年12月,我國網絡域名總數達3792.8萬個,網站數目523萬個,網頁數目2816億個,我國在“貨架”上可供下載的移動應用程序也已經達449萬款。這些數字實實在在地反映著社會運行、生產建設和百姓生活。如果能通過一系列人工智能技術,整合、優化這海量的數據信息,就可以有效服務生產與生活。

  例如在生活中,我們習慣了網購,也誕生了一批“選擇困難戶”。如果在網購中,系統嵌入的智能檢索信息能精准找到消費者所愛的產品,提供直達內心、令人無法拒絕的理由,網購的效率就會大幅提升。

  在生產領域,智能數據檢索與挖掘有助於企業不斷優化產品,調整自己的發展方向,精准對接市場。

  智能信息檢索甚至可以使新聞媒體從業者如虎添翼。比如,記者突然接到了新聞採訪任務,智能信息檢索與發掘技術可以快速、精准地提供所需要的資料背景和該新聞事件的最新進展,讓記者后續的採訪有的放矢,提供高質量的新聞產品。

  作為團隊首席科學家,文繼榮直言,“交出怎樣的成果”是他最大的壓力。

  智能信息助手本質上是個軟件,它的外觀形式可以是單獨成形的硬件,也可以與我們日常使用的手機等設備深度整合綁定,但功能一定是最強大的。

  文繼榮告訴記者,今年起將全面迎接5G時代的到來,物物相連的速度將大大加快。“如果順利的話,未來五年,這個‘超級助手’將初具雛形。”

  研究團隊

  “北京學派”即將登上舞台

  1998年年底,還在中國科學院計算所讀博士的文繼榮,被一家新的研究機構所吸引——新成立的微軟中國研究院。后來,文繼榮成了研究院裡的一員,一扇神奇的大門,就此打開,他第一次接觸到了“搜索”技術。

  20年過去了,又一扇大門在文繼榮的面前打開——去年底科技部與北京市委市政府支持成立北京智源人工智能研究院,“這使跨界成為可能。”文繼榮說。

  如果想打造一個最懂自己的管家,這要求智能信息助手必須具備自然語言對話、高精准知識融合、場景感知、互聯網數據與個人數據高效整合等能力。需要攻克數學與認知基礎、基於自然語言的交互信息獲取、信息的深度挖掘與表達等一系列難題,“這些幾乎都是人工智能的精髓。”文繼榮說,他需要一個超級精英團隊,跨學校,跨領域。

  “智源學者”使文繼榮有機會打造最強戰隊。

  今年8月底,北京智源人工智能研究院發布“智能信息檢索與挖掘方向”智源學者候選人名單,這是該研究院啟動“智源學者”計劃以來發布的第三批重大方向支持學者,共有來自中國科學院、清華大學、北京大學、中國人民大學等單位的10位科學家名列其中。

  入選的10位學者平均年齡在40歲左右,正處於學術研究的黃金時期,他們在信息檢索、數據挖掘領域都已經成就頗豐。如44歲的北京大學教授崔斌,是數據庫與數據挖掘領域的杰出學者,長江學者特聘教授﹔42歲的清華大學教授唐杰,從事社交網絡挖掘與知識圖譜的研究,國家杰出青年科學基金資助者。此外,來自清華大學的王建勇和劉奕群、中科院計算機所的郭嘉豐、中國人民大學的徐君等一批學者,都是相關領域全球頂級科學家。

  文繼榮自豪地說,在智能信息檢索與數據挖掘領域,這個團隊的實力絕對是國內第一,放眼全球任何一個科研機構也是頂尖的,“國外最頂級的高校,能集合起三四個人就非常不易,我們一下子集合了10位。”每位科學家各自還有一支學術團隊,因此整合起來,這是一支實力驚人的學術團隊。

  文繼榮很清醒,團隊必須直奔解決實際應用需求,而不是“各自為政”,發一堆論文了事。他說,團隊每個人的學術分工已經確定,未來會定期研討,及時交流進展,共同解決一系列“卡脖子”問題。團隊有一個共同的目標——期待以這支團隊為基礎,未來能形成智能信息檢索與數據挖掘領域的“北京學派”。

  焦點回應

  人工智能是否會失控

  不少科幻電影中,機器人甚至計算機系統越來越聰明,某一天突然“覺醒”失控,危害人類社會。我們的智能信息助手會不會突然失控帶來危險?比如瘋狂下單購物、自動支付,對身邊人發起網絡攻擊等。

  文繼榮表示,大可不必擔心。人工智能是沒有意識的,它靠人類設定的方向發展,即使自主學習,也有設置的既定方向和目標。比如自動駕駛汽車,它再聰明,也要事先設定“路口要轉彎”“遇到人或者障礙物要繞行”等指令,基於此再通過深度學習不斷優化行駛能力,而不是橫沖直撞。

  未來的智能信息助手的確會非常聰明,但每一個聰明的層級,其控制權限架構都是由人在更高一個層級設定,不會也無法超越。即使系統出了故障或者漏洞,人也可以在更高層級對它進行修正,或者中止運行。不會出現科幻電影中的那種“覺醒”。

(責編:宋心蕊、趙光霞)

分享讓更多人看到

傳媒推薦
  • @媒體人,新聞報道別任性
  • 網站運營者 這些"紅線"不能踩!
  • 一圖縱覽中國網絡視聽行業
返回頂部