王小川：工程师在人工智能时代会处于越来越重要的位置

2016年11月17日14:20 来源：人民网-传媒频道

王小川在演讲中

人民网11月17日电（温静）11月17日，第三届世界互联网大会“移动互联网论坛”在乌镇举行。论坛以“人工智能开启互联网新未来”为议题。搜狗公司首席执行官王小川作了主题演讲，以下为全文内容：

前面十二场演讲嘉宾有技术、有产品，我是希望我给大家的分享能够再有一些不同的内容，有自己独有的视角。其实今天一开始大家都提到了Alpha Go，作为今天引爆人工智能的开端，深度学习在中间承担了最重要的责任。

今天我们大家开始畅想的时候，有可能认为人工智能未来真的会取代人，那么我希望今天的分享更多的能够知道人工智能在今天能做什么，不能做什么，未来终极的理想又是什么。

Alpha Go之后，我们看到最重要的领域突破是在语音和图像，但是事实上在文字领域的进展是缓慢的，今天在机器翻译里面有一些突破，但是更多的问答和其他的对语义的理解是不够，回到图灵测试，上个世纪五十年代图灵提出了问答机器推想这样一个概念，今天我们直观感受是语音图像进步很快，但是自然语言的处理其实是比较慢的。

抛开技术作为一个产品经理，我提到人工智能有三个产品方向，今天的会上我们都谈到过了。一是识别、语音识别、图像识别、视频识别。二是图像，我们去生产图像，生成识别都有。三是创造。大家提到了人工智能问前进步的层次，我想换一个语言描述，就是工程师在今天人工智能时代会处于越来越重要的位置。我们开始提到传统的方法是把规则交给机器，随着统计系统的发展，包括深度学习，我们开始更容易的将答案交给机器，刚才汤道生讲的监督学习就是这样一个方式，所以在数据的积累下我们就可以让机器变得更加聪明，这里面更前沿的方式是将目标交给机器，Alpha Go融合了几套算法，但是我和他们工程师沟通的时候，这样的目标交给机器的强化学习，还并不成熟，也就是说如果没有之前三千万局人机对战的棋谱这样的Alpha Go机器没有能够做到只通过强化学习赢人类的，这是技术层面需要往下突破的重点，如果将目标交给机器能够做自我学习，有新的突破，那我们离新的人工时代人工智能时代的到来就更近了。

今年六月份，我去了英国伦敦，和Deepmind公司的工程师做了交流，我特别好奇的事情就是下棋的第四局机器输掉了,我遇到他们问第四局发生了什么事情，他们和我说不是程序有BUG，就是深度学习本身有瓶颈，围棋比赛是三月份，我是在六月份去的伦敦，已经过了三个月，三个月的时间，这个问题依然没有解决。但是我离开以后一个星期，他们的程序能够正确面对之前的第四局棋谱，我问他是否这个BUG修好了，工程师说没有，只是代表第四局那个特定问题，正好机器可以解决，但是我们依然不知道什么情况下，这样的Alpha Go会继续出错。所以我们知道深度学习这样一个体系其实还是有它的瓶颈所在的。

所以在今天我和大家更多想谈以深度学习为代表的今天的人工智能技术，还有哪些不靠谱的地方，在产品上不适用的。第一个问题，语音识别靠谱吗？在百度、腾讯，都提到了语音识别这样的能力，今天我给大家的演示也谈到了语音识别，这是搜狗自己的技术。我们都提到了在安静的环境里面我们的识别准确度已经到了95%，甚至97%，但是一旦有噪音，迅速下降。那这种噪音可能还只是汽车的引擎噪音、风的噪音，这种情况下我们怎么解决，我们把噪音当成原始数据进入监督学习系统里去，把这种噪音变成机器见过的问题之一。但是事实上我们见到更多的情况，如果同时两个月说话会怎样，在今天的学术界依然无解，同时两个人说话的时候，这样的噪音我们都是没见过的，也没法提前做训练。

今年六月份，我问学术界的人，人和机器在语音识别上的区别，究竟怎么解决？我们用机器的时候，采用立体声的方式做定向的识别，也就是说我们做一个麦克风矩阵，通过立体的方式知道其中一个人在说话，把另外一个人说话去掉，我想人是这样干的吗？如果把一只耳朵堵上，我是否没办法分离出谁在说话及或者把两个说话的声音录在一个单声道里面，人可以识别吗？人是可以的，所以人的方法和机器不一样，人怎么识别，因为人的音色不一样，还是因为两个人的一个声音大一个声音小，还是因为他们说不同的语音，博士说但凡同时两个人说话的时候，只能能够找到差别，人就能够把其中的一个声音识别出来，所以人在和机器处理过程当中还有巨大的不同。我在这里先不展开，语音识别最成熟的领域其实还是和人有很大的区别。

另外一件事情是语义靠谱吗？就是对语言的理解，谷歌在之前是用知识图谱的方法解决，现在遇到了瓶颈，也是今年六月，我在一个实验室看到最先进的人机对话系统，这个系统可以帮你订餐订酒店，对话过程当中机器的表现非常惊艳，我们上去试，有一个环节请大家注意，机器开始问你，你是需要停车位还是不要停车位，如果这个时候我们回答说要或者不要都没问题，我们如果说我没车。大家知道机器会怎么样？他们完全不理解我没车代表着我不需要停车位，因为今天的机器，在自然语言概念的理解里面，还是远远不够的。所以自然语言处理是可以做的，但是语义理解到现在还是一个不靠谱的阶段。谷歌也在今年发布了一套对于自然语言能够做句子分析的引擎，把主语、谓语、宾语提出来，但是准确度只有90%，提不上去了，因为这个时候光靠统计靠语法已经不能支撑，往下是需要对句子当中的具体概念有理解才能消除歧义。我们知道不能把马路放在冰箱上面，这对于人来讲非常好理解，但是对计算机的挑战非常大，这是深度学习人工智能还不够的地方。

很敏感的问题，无人驾驶靠谱吗？今天百度在现场也提出了发布无人驾驶汽车，但是从我的了解，如果以今天人类的技术我们确实对于见过的场景对于封闭场景的无人驾驶汽车可以使用，但是对于真正开放的环境，不只跑在高速上的汽车，跑在五环上的汽车，对不起以现在人类的技术是不安全的，因为这个场景只要没见过，可能会犯严重的错误，就像AlphaGo下棋一样会突然发疯，所以辅助驾驶是可以的，无人驾驶在真正的技术突破以前还做不到。今天的深度学习缺乏推理缺乏符号的理解，如果没有符号，自然语言的理解就会成为瓶颈。

即便是这样，我们也提到了能够取代一些行业，比如说棋手、医生、司机，机器在里面都可以做很好的辅助，但是对大家没见过的创造性的事情，规划、科研，其实很难，今天在媒体上机器自动写文章、自动画图，在科研层面展示出了一些魔力，但是还不是可以取代人的阶段。所以在这里面我先把大家对人工智能预期降低下来，所以有人在问，是否会出现第三次退潮，前两次我们都认为人工智能到来了，但是这次可能会比之前好，之前的人工智能两次退潮前，我们问一个老师，说你是研究人工智能的吗？这是骂他的话。因为人工智能不靠谱，这次是第一次真正进入到了使用，这就是确实在语言处理、声音处理、图象处理，和在一些高维数据空间上能够比人做的更好。所以这次的区别就是大量资金、资本投入到了人工智能。也有大量的研究人员在毕业以后从事人工智能工作，这是和之前不一样的。所以一方面开始使用，另外一方面我们开始期待不断产生新的突破。

我个人对这次是乐观的，但是我也很紧张，也许我们自己做的搜索引擎就是会被颠覆的一部分。在这里面我要开始畅想未来的路在什么地方，从我自己的描述来看，搜索的未来就是人工智能时代的皇冠，为什么这么说，搜索的未来是什么，人工智能的未来又是什么，为什么是皇冠？

简单来讲，我认为搜索的未来就是问答机器人。因为我们习惯了一件事情是做搜索的时候我们先输入关键词，然后给你十条结果，或者叫十条链接。但是这真是最好的方法吗？肯定是不够的。我们也会提到是否我们用个性化的方法能够使得搜索的结果更准，但是其实个性化能够提供的信息非常的有限。真正能够使得这个系统变得有用的办法是用问句。以前不用问句的原因是因为机器听不懂你在说什么，真正到了问句以后，从给你十条链接，变成给你一个答案，就会好很多，如果你去问机器，四个字，乌镇大会，机器不可能给你想要的内容，最多把新闻，乌镇的百科或者是官网介绍给你，只有你问乌镇大会哪天开，这个时候机器才能理解你要什么，才有机会给你最好的答案，我相信随着技术的突破，搜索引擎会自然而然演化成为问答引擎。

这个过程里面很多公司都在做，苹果、微软、亚马逊、谷歌，这里面起步最早做对话系统的是苹果的Siri。这个系统并不成功，在中国用的人很少。为什么不成功？因为现在技术没有到来，现在对于自然语言的处理能力、自然语言的理解能力非常有限，为什么苹果这样一个追求极致的公司，会把这个系统发布出来，一种可能性是苹果对技术了解不够。另一种可能性我认为是乔布斯的一个遗愿，咱们知道发布iPhone手机的时候，乔布斯已经躺在病床上看发布会，发布会完成之后，他很快就离开人世了，所以这像一个早产的婴儿在iPhone4S里面发布出来，所以我认为这样的系统代表着人类终极人机。

交互的畅想。事实上在大量的文学作品电影里面，科幻里面，都会提到问答机器人，不管是《星球大战》、《超能陆战队》、《星际穿越》都提到了，阿西莫夫的短篇《最后的问题》，描绘就是人类造了一个机器，把所有的资源都用了上去，但是机器回答不了一个问题，就是宇宙是怎么诞生的，但是可以回答其他任何问题，这是文学作品对问答机器的思考。除了搜索引擎做问答以外，咱们知道在中国搜狗输入法拥有三亿用户，输入法的未来是什么呢？和自动问答有关系，大家一起来看一个视频。之前我们讨论输入法的时候很多朋友和我说语音是最重要的，搜狗有完整的语音识别技术和语音合成技术，但是在我内心，这个远不是输入法的极致，它真正的极致是能够开始寻找信息，帮你思考，刚才大家演示的是一个分享的能力，真正的回答能力可以在后面给大家做一个新的演示。

我们讨论问答技术和讨论人机对话的时候，输入法也许是最好的一个切入场景，以前提到了百度的“度秘”是独立的引擎，但是输入法作为一个人的分身，更容易帮助你建立思考，输入法也会从一个拼音工具走向一个对话和问答系统。搜狗有两个核心产品，一个是输入法一个是搜索。一个是搜索信息一个是表达信息，随着AI技术的发展，我们更好的解放人的思考。我们有一个理念，两件事情，一个是做自然的交互，不只是语音，而是语言，另外就是做知识的计算，能让机器开始逐步建立推理的能力。搜狗输入法在中国拥有最大的语言数据处理积累，我们有机会在这个领域取得突破。这是我今天的分享，谢谢大家！

(责编：燕帅、宋心蕊)