王小川:随着技术发展人和机器的交流会变得更加自然

2018年09月10日17:30  来源:人民网-传媒频道
 
搜狗CEO王小川。摄影:人民网记者翁奇羽
搜狗CEO王小川。摄影:人民网记者翁奇羽

人民网深圳9月10日电(记者 燕帅) 以“构建全媒体传播格局”为主题的2018媒体融合发展论坛今日在深圳举行,搜狗CEO王小川在下午举行的主论坛“如何用好技术引擎, 弘扬主流价值观?”这一议题环节作主旨发言,以下是发言全文:

各位朋友,今天给大家的主题是谈技术。之前是陈睿在哔哩哔哩做了很多的关于新的媒体形态的讲解,我觉得很震撼。谈技术这件事相对会难很多。技术和这种价值观的关系,其实很值得探讨的一个话题。我们先强调搜狗本身是有这样一种历史使命感,我们去响应中央的要求,提升影响力,提升正能量。作为一个时代一分子,我们做一些探讨。

传统的理解,技术第一个是来做内容审查,第二个是用来做流量的分发,但是今天随着AI技术的产生,已经有更多更前沿的事情,技术已经开始在探索了。第一件事情,我们可以看到腾讯新闻,之前做了这样的写稿机器人,能够基于搜集到的信息,在数秒钟内就完成初级稿件的写作,还能够自动配图,配剪辑的视频,帮助记者和编辑提高他们写作的效率。涉及到的技术已经开始参与到了内容的生产、内容创作。不仅是文字新闻、视频新闻可以用人工智能完成写作,我们今年夏天,在国际大会上展示了我们搜狗的虚拟主播,首先真人主播做一个训练,其次就可以让机器去掌握他的面部表情的特征,之后你只需要把新闻的文字稿输入进去,机器可以自动地组织这个视频,完成声音和表情的合成,实现虚拟的主播。这个又把技术在创作内容上往前推进了一步。

今年8月份人民日报与搜狗合作做党媒推荐频道,在搜狗搜索里面和搜狗今日时代两个客户端上线我们党媒推荐。依托我们自己的内容分发技术,采取个性化的推荐,也是能够去为主流媒体提供优质的内容分发,使得主流价值观扩大传播。这个事情而言,可能不是那么性感的技术,但是确实也是今天大家探讨的最多的信息流里面怎么掌握的事。

我给大家做一个简单的解构,探讨技术相关的时候,我们媒体有什么新闻,有音频、视频等等,包括哔哩哔哩讲到了UP组上传的内容,核心有一件事情,我们认为,在技术之上,有个词叫做语言。没有技术就没有语言,但是语言是可以在技术之上存在的一个更重要的概念。为什么这么说呢?因为技术本身是没有价值观的,但是,语言是有价值观的。而且语言这个概念很重要,我们认为在人类几百万年的进化里,人和动物最大的区别就是人类掌握了语言,动物是没有的,动物只有一些简单的声音,或者几个简单的单词,它不能够通过语言去做一个复杂的对世界的认知。所以,我们提到,语言在人类的进化史里面会变得非常重要。

第二件事情,语言本身在人工智能,在技术领域里面也是最前沿的内容。声音和图像更困难,但是今天主流的技术观点不是这么认为的。深度学习的产生,我们对于声音的识别、声音的合成,甚至包括视频里面的这样一些内容的识别,都已经有很大的突破。但是最前沿的东西,是对语言的理解。语言怎么表达,不是个简单的波形,不是简单的图片的点认,比如我们说一个词叫“华夏文明”,这么四个字里面包含着极其丰富的信息,怎么让机器理解它、掌握它,这件事情在学术界,在人工智能界,一直在讲是最前沿的事情。语言跨了两件事,一件事情是在我们的价值观里面,在我们对人的表达和思想里面变得很重要,同时,也是人工智能皇冠上的明珠,这是这个行业的共识。

在这里面,搜狗一直关注重心就是在语言里。核心的语言。我们熟悉的两款产品,一款是搜狗输入法,在中国处于绝对领先的位置,是通过语言为大家去创造内容这样一个工具。之前的做法,还是只提高效率,让我们工作人员打得更快一些。其实在这里面我们做了一些审查的工作,如果没有我们内部对于词库真正是按照一些我们价值观的判断,只是按照一个流量去通过拼音到文字转换,里面会有大量的暴力的、色情的词是排在很前面的,所以不是我们今天讨论的问题,我们从第一天做输入法的时候就已经意识到了,如果敲拼音的时候,最后得到的结果是引导到一种负面里去,引导到暴力色情里去,对于我们的主流价值观就会有伤害。

另一件事情是中国第二大搜索引擎,也是处理语言的,当你输入关键词的时候,以语言的方式,互联网上沉淀的上百亿的接近千亿的内容,能够做好一个排序给你。用户是用语言表达,用语言获取信息。信息流这个模式和搜索是比较类似的,也是一个信息分发和获取的方式。这几个产品都在讨论语言相关的问题。

抛开现在语言的理解,我们谈到人工智能往下再做什么样的事情。语言在这里面,以AI角度来看,有两件事情是行业,也包括搜狗认真对待的。一件事情是,用语言去承载沟通交流,语言是个抽象的词,在这里面我们不能说人和人之间直接就靠语言,一定要转化成语言,甚至转化成视频,以图像的方式做这样的承载。在计算机发展史里面,以前更多的是让人以机器的方式进行沟通,比如键盘、鼠标,但是今天越来越多的键盘鼠标从五笔、拼音走向语音图像的方式,用更加自然的方式让机器和人产生了沟通。这几年火热的语音识别就在这个大的主流下。

总的来讲,随着技术发展,人和机器之间的交流会变得更加自然,这个领域,我把它称为自然交互,在学术圈里面会把这个叫做感知这样一个问题。在一个技术点上,从语音怎么变成语言,以及语言怎么变成语音,才能实现人机之间的交流。同样有图像,图像变成语言有识别的工作,或者给到语言生成上的图像甚至视频,这叫自然交互。一会儿我会给大家做几个简单的展示。

另外一个理解更深的,不是在人机交互这个领域,而是在语言当中产生知识的推理和计算的能力。语言里面,能产生知识,我们称之为认知问题。对应产品逻辑,我们叫做知识计算。在语言中间能产生推理计算。其中最容易突破的一个点是中间这个翻译,翻译是在语言的计算里面,除了语音图像以外,是走得最快的。另外还有更难的两点是产生对话和产生问答。这是我给大家一个基本的框架。随着技术往前走,自然交互的提升,也会使得媒体形态发生一些变化。

简单讲,搜狗今天是中国面对消费者直接能提供语音识别服务量最大的公司,大家能理解搜狗输入法拥有巨大的用户规模。里面就有语音的识别。包括在这里面,有很多的语音修改等等这样能力,包括麦克风矩阵、收音,使得机器能听到人在说什么内容。在此之外,为了把技术推到新的高度,我们研究院做了唇语识别的项目。做语音识别不仅可以靠声音,AI的前沿是通过你的嘴形的变化,就能够识别出你说什么样的内容。这个技术前沿是语言和图像的联合建模,探寻人在表达的时候,声音和你的表情之间的关系。我们现在能够做到在一些唐诗宋词里面超过90%识别的准确度。前两年一些展会上给大家体验这样一些特别的技术能力。

另外,语音合成,往下会非常热的一个要点。语音合成有合成标准的播音员声音,甚至合成特定的主持人的声音,或者让邓丽君复活,或者现在能够川普的声音合成,去年上市的时候让纽约的司机误解了,我拿一段合成的川普的声音,他以为真是川普在讲话。在这个领域里面还有继续探讨的和情感相关的,机器合成声音没有对于内容深刻的理解,它的声音的音色音调是不够理想的,这里我们强调更难的课题是做情感的迁移,把一定的音色迁到一个韵律和节奏上去,或者让一段韵律和节奏能够用特定的声音发音。这里给大家做一个简单的演示。我们的技术能够做到把一个特定声音和一个韵律和一个特定发生的内容进行调和。大家很害怕,未来在里面,可以完成虚拟化,一个人的声音或者一个音频的内容。基于这样的一些技术,我们会推出我们搜狗的虚拟主播,它是能够把原有的唇语合成、语音合成技术以及联合建模技术放进去。可以做到什么样子呢?我们可以做一个简单的演示,输入一段文字之后,现在它就能够创作出这样一个虚拟主播的视频。讲到在自然交互领域里面,未来媒体形态可能会发生更多的变化。机器除了交流以外,还能产生更多内容计算和创作,我们认为往下和这样主流价值观之间的关系更加接近。

其中一件事情就是机器的翻译。在最近两年我相信各位都能感觉到,互联网界不断地推出翻译的硬件、软件,这是很重要的一件事情。我们在想,中国有十多亿的人口,但是世界的主流语言还是英文。如果出国交流学习的时候,我们得学习讲英文,在联合国发言的时候,我们得用英文去表达,但是其实这件事情会极大阻碍我们在世界舞台里面的沟通能力。同样,全球最重要的这些文献,像科技文献、医疗的、文化的文献,是由英文产生的。我们去阅读它的时候也会很困难,虽然我们学习了很多年的英文,但是毕竟和母语是英文的人是有距离的。因此中间有巨大的课题,如果我们要建立我们自己的文化自信,真的需要能够把中国的内容很容易输出出去,以及我们能够把国外的信息翻译回来,在翻译这个项目中间很重要的事情。我们认为未来三年时间,翻译会达到一个专业翻译的水平上。而搜狗自己的使命,因为我们做输入法帮你表达,我们现在可以做到讲中文的时候能把你的语言翻译成英文、日文、韩文等等,和老外进行直接对话,而搜索引擎也能做到搜索全球的日文、英文、韩文信息翻译成中文做阅读,我们做一些同传或者更多翻译的硬件。这是2016年搜狗是中国甚至全球首家能够在大会上公开场合提供这样同声传译能力的公司。这个能力在未来几年时间里面,不仅能够转成文字,而且能够用我自己的语音语调翻译成另外一个语言,让耳朵来听。不仅文字,如果一个比较轻言细语的说法,翻译过去的英文也是轻言细语的,这就是从文字到语音会做很多的工作。

除了翻译以外,还有哪个技术前沿,我们认为和媒体新的形态很有关系呢?一件事情就是问答。以前我们说这种创作工作是靠人工创作的。在网上有数千亿的中文+英文的内容,搜索引擎做的工作是里面做一个整理,当你输入关键词的时候,它能够把内容推到你面前,这里面是有价值观的问题。再往下走,搜索引擎会产生巨大的变化,这是从搜狗、谷歌都在进行的,搜索引擎未来会变成一个问答引擎。也就是说,以后的模式不是你输入一个关键词,给你一堆页面、文章,而是你输入一个问题的时候,这个机器开始试图利用它的AI能力,对互联网文章做阅读理解,给了你一个答案,这个答案可能来自于一篇文章,可能来自多篇文章的推理,如果简单演示一下,中间我们是有这样一个问答的机器。这是一个真实的场景,机器在有确定答案的问题里面比人做得好很多。

另外还有一个领域和语言相关的,让机器产生沟通交流的能力,能够去对话。包括输入法,未来有很大的变革。语音是中间很重要的事情,语音输入,但是这个还不够。去年搜狗在上市的时候,我在一天时间里面收到了三千条祝福的微信,如果用语音去回答,靠我真人,效率是低的。这个时候我们提倡能力,输入法能够替代人产生这种交流回复的能力。根据不同人,你的老师、同事、领导,给出不同的回复,人只需要做一个确认就行了。今年在谷歌大会上,机器取代人,能够跟人对话,包括订餐服务。输入法,未来随着AI技术成长之后,机器开始具有自己的表达能力会是什么样的景象。我们知道技术未来有几个方向,一个方向是能够让它产生从文字到语音到图像,大家已经有了一个共识。第二个领域,用技术做审查,或者做流量分发,中间制定这样一个权重。今天给大家更多介绍的第三件事情,技术本身能够参与到内容,特别是这样一个语言的创造,本身还会带来更多的这样一个挑战和机会。坚持语言为核心,我们今天谈到这个话题,是怎么能够通过这样的一个技术去开始思考我们怎么去凝聚共识,能够把这种正能量推到前台去。今天给大家分享不是给到一个结果,而是看到技术往前走,我们会看到哪些机会。谢谢。

(责编:赵光霞、燕帅)

推荐阅读

人民日报创刊70周年
  70年,25541期,25541个日夜,人民日报与党和人民风雨兼程、一路相伴,一同走过革命、建设和改革的峥嵘岁月,一起走进更加昂扬的新时代。
【详细】人民日报创刊70周年   70年,25541期,25541个日夜,人民日报与党和人民风雨兼程、一路相伴,一同走过革命、建设和改革的峥嵘岁月,一起走进更加昂扬的新时代。 【详细】

2018(第三届)全国党报网站高峰论坛
  2018(第三届)全国党报网站高峰论坛暨全国党报网站总编辑看天津活动6月20日在天津市举行,主题为“媒体融合:宣传新时代 拥抱新时代”。
【详细】2018(第三届)全国党报网站高峰论坛   2018(第三届)全国党报网站高峰论坛暨全国党报网站总编辑看天津活动6月20日在天津市举行,主题为“媒体融合:宣传新时代 拥抱新时代”。 【详细】