人民网
人民网>>传媒

罗彤:媒体融合时代下的智能服务及应用

2016年08月21日23:08 | 来源:人民网-传媒频道
小字号

微软(中国)资深软件架构师罗彤

人民网深圳8月21日电(记者 燕帅)由人民日报社与中共深圳市委、深圳市政府联合主办的2016媒体融合发展论坛技术分论坛在深圳举行,微软(中国)资深软件架构师罗彤发表演讲。

以下是微软(中国)资深软件架构师罗彤演讲全文:

谢谢大家,谢谢主办方!

非常高兴今天能有这样一个机会,来跟大家分享一下,微软在人工智能和大数据领域,在媒体融合里头的一些应用和服务。

我们看一下,在媒体融合这个时代下,我们看到不管是人工智能技术,还是大数据技术,都展现了无限的可能性。我们看到媒体他的整个生产过程,就是一个大数据处理的过程。从数据的采集,到存储,到后面的整个分析,然后写,最后我们可以有相应的各种各样的技术来应用在里头。

我们今天给大家举四个例子:

首先来看一下微软在智能机器人,在人工智能的认知服务,在知识图谱和最终的混合现实,这是微软现在最新的一些科技里头,如何运用于在媒体融合的时代。

我们先来看一下微软的智能机器人,实际上智能机器人是微软在整个全球人工智能战略当中一个非常重要的核心,微软在人工智能里头,也投入了非常强的投入和能力,来做相应的技术开发。

我们在今年的开发者大会上,我们的CEO萨蒂亚提出了一个新的概念,这个概念就是我们认为人工智能时代最最核心的是“对话及服务”,所谓对话及服务实际上就是,我们可以看到,不管是媒体还是新闻报道,还是很多的采访,实际上都是在发生人和人之间的互动,那么人和人之间的沟通就是非常重要的平台,特别是媒体融合时代。刚才腾讯同仁介绍的,微信也是一个非常强的沟通平台,对话及平台,实际上是未来非常重要的方向和领域。

人工智能里,微软应用了两个新的人工智能的机器人,大家也都听说过,一个是小冰,一个是小娜。小冰更注重的是人之间的情感交流,他有比较高的情商。小娜更注重的是生产力交流,扮演的是电子助理的角色,去提高每个人工作的效率。

我们看一下,实际上在对话及平台的环境里头,最核心最重要的是什么?就是交互的次数。当你在和一个人沟通和对话的时候。我们可以看到,平时你可以跟一个人聊天,聊几句可能就结束了。我们有一个指标,这个是小冰刚推出的时候,可能每个人和他交互平均的次数,只有五次。

但后来,随着他的这种情商的提高,随着他采用的互联网的数据的增多,随着人工智能技术越来越多应用,交互的次数在逐步提高,很快就达到了每一次对话,能达到18次的交互。现在基本可以达到23次交互的水平,而其他对应的产品,只能达到差不多2次的水平,所以你可以看到,中间还是有一个非常巨大的差距在里头。

这个是一个非常有趣的事件,这是一个记者,是南方的记者,他在没有通知微软的情况下对小冰做了在线的采访,她直接和小冰来沟通、交流、聊天,她把聊天的记录作为她采访的素材,最后公布出来了。

你可以看到,小冰可以持续跟她对话160多次这样的水平。所以从某种角度讲,小冰已经通过了图灵的测试,也就是说你跟他聊天的时候,你不会感觉到,他是一个机器人,而你会把它当成一个普通的人来对待,这背后的技术是什么?实际上我们可以看一个视频。

从这段视频我们可以看到在整个场景里头,你可以分析一下,它集成了多项人工智能的服务,首先是说小冰是一个智能的机器人,它能收集到相应的天气的素材情况,然后我们通过相应的机器人的写稿,能够把它变成它播报的一个条目,我们最后通过视频的合成,语音的合成,能够最终呈现出这样一个作品,实际上它就是一个媒体融合非常典型的案例。

我们看另外一个,在媒体融合时代,我们采取了当下最时髦的词洪荒之力的是什么?实际上是情感。我们如何把情感作为一种,可以被使用的价值,能够发挥在媒体里头,实际上我们可以看到,这是这次奥运会里,传播效应非常广的几张照片之一。我们用微软的人工智能的情感分析的技术,我们对它做了一个非常数值化的分析,我们就可以看到,傅园慧当初在她这个表情的时候,她到底是一个什么样的状态?是高兴?兴奋?还是什么样的状态?实际上我们最终有相应的数值化的值出来,我们把人的表情分为了八个不同的尺度,对每一个尺度我们都有相应的概率,我们拿到一张照片的时候,我们就可以对这张照片做相应的分析,然后看到相应的这张照片里头的人物,首先定位人脸在什么位置?然后对人脸做相应的识别,特征值的抽取,最后我们对情感的状态,能够做一个分析。

所以实际上这就是说,我们可以通过现在的人工智能的技术,来对所有的新闻素材做相应的智能化的处理,不仅仅是说我们前面看到的,一般处理,同时包括情感处理。

基于这一点,微软提供了非常多的认知的服务API,智能API,我们一共现在提供了21个API,现在全部开放给全国的媒体,和所有的开发商,都可以来使用。从视觉到语音到语言,包括知识的抽取,然后到搜索。一共有21个,我们现在也在不断的增加新的包装,新的API出来,逐步的加入到平台里头。

我们再举一个例子,基于这些API,我们提供了很多应用服务,我们举一两个例子。比如说how old .net这个网址,它测的是颜龄,当你的照片上传的时候,我们能判断出来这个人的年龄、性别,包括刚才说的情绪、表情、好坏,是根据你的照片来判断的。当然我们也把这项功能也嵌入到小冰里头,她能更准确辨别上下文的年龄,在小冰里头有一个上下的浮动概率出来,这样速度会更准确一些。

我们举这样一个例子,比如说引申到媒体融合里,我们可以拿这样一个技术判断当会场很多人的时候,采访了很多的照片出来,新闻的素材出来。我可以自动的用这种技术,把人脸识别出来,然后匹配说,这个人是谁,那个人是谁,可以建立相应的索引出来,你可以非常快速的对你新闻的素材做索引,去做使用,为后来提供相应的帮助。包括两个人相不相?我们可以对双胞胎做相应的判断,网上也有把它用于王宝强的测试,这个我们就不说了。

比如说下面这个,是照片的自动摘要,我有一张照片以后,我可以对照片的关键的内容,提出相应的摘要出来,这样能判断出来,这个照片在描述一个什么样的场景?里头有什么样的人物。我们这儿放的一个例子是他能看见,中间有一个人,然后他有99%的(相似度)确信他是比尔盖茨。所以这些都是由机器自动完成的,并不是由人工来判断的。包括我有一些名人,你和这个名人有多少相似度,你也可以做这样的事情。所以我们把这样的技术,可以非常深入的应用到新媒体,媒体融合的场景当中去。

除了人以外,我们也可以判断,除了人以外我们也可以判断植物,这里有另外一个案例,我们可以对各种各样的“狗”做判断。所以只要有数据,可以对任何的事物做相应的识别和分类。

我们再来看一下进一步的例子,这里举了一个案例,在我们的新闻客户端上,我们经常在浏览相应的这些内容。当我们发现一个内容的时候,我们有时候,比如说我们这儿看到一个词,我们有时候并不知道,它背后的概念是什么?背后的原因是什么?实际上通过我们现在的技术,我们可以把这样的东西,关联到一个相应的知识库里头去,然后自动告诉你说,这个新闻条目里头的这个名词,它背后是一个什么样的解释。相当于一个,我们叫知识的百科全书,这样能够让你的新闻客户端,能够把相关的内容,不断的链接起来,成为一个活的内容,而不是一个死的新闻的报道,所以这背后,需要有大量的知识的关联。

比如说我们举另外一个例子,这是一个体育新闻,我们有一个女运动员,她在这儿打网球,但是大家对她都不熟悉,要了解这个人背后的信息的时候,你可以直接点击客户端上人名的时候,能帮助你链接到对这个人背景知识,调查理解上去。如果我们延伸到媒体里头,比如我们采访一个人的时候,这个人在我可能还没采访他之前,我拍他一张照片,可能识别出来他是谁的时候。我点击他的名字,这样就能自动把他相应的背景相关的材料,能够在我的客户端上列举出来,这样你就能在你采访他之前,了解他相应的这种背景,这就是一个后台的知识的提取。

所以实际上在媒体融合时代,我们觉得对大数据的这种利用,最终的形态,就是要提取,在大数据背后相应的知识。而这些知识,反应成一个相应的,是相互联系,相互整合的整体,所以我们把它变成相应的,我们叫知识的图谱。我们要在需要建立基于互联网的,基于媒体的知识的图谱。

微软也提供了相应的技术手段和方法,从相应内容里面提取知识,最终把知识还原到内容里,让我们简单看一个事例,我们如何自动化处理知识的提取然后和和使用。

比如我们看到这张网页,这个网页里面有很多内容,都是平铺直叙的,大家平时看到的网页都是这样的。我们后台看到的数据是什么?就是H5的脚本,你看到是这样的内容。我们有相应的程序,我们第一步去做相应的数据的提取,把它从结构化的文本当中,把它提取出来,变成相应的表格。但是这种表格还是比较粗的,因为对所有网页,我们都要采用同样的表格来做相应的提取。然后在这个提取的内容里头,我们会看到有各种各样的知识点存在,比如说我们看到房子,什么时候建的,它是什么类型的,对我们来说都是非常有意义的数据,我们需要把它提取出来,所以我们再进一步对它做相应的特征值的抽取,然后把相应的时间,相应的房屋类型,提取成我们可以被访问到的结构。

逐步的把所有这些属性,全部都能够提取出来的时候,我们就把所有的这些,可以被利用的知识,抽取到了我们一个更熟悉的状态就是一个结构化数据的状态,这时候我们就可以进一步来使用相应的数据。

所以你最终看到这样一个形态是,这样一个记录。这是一个我们叫知识表的结构,然后我们把所有这些知识表里头的这些实体,通过相应属性,自动匹配自动关联上,就构建出我们整个的“知识图谱”。知识图谱就可以被我们利用来做相应的内容的生成,和媒体融合中间的内容关联。

最后看一个微软的另外一个技术,我们叫“混合现实”。大家可能都比较熟悉了虚拟现实,也比较熟悉了增强现实。微软最近提出的MIXED REALITY(混合现实),我们可以看一下,不同的产品,它的代表的作品,虚拟现实就是右下角的这个人戴的设备,现在也很火,很多地方都在不管是玩游戏,还是看新闻节目,可能都会戴这样一个设备。

但是他沉浸在的是一个纯粹的虚拟世界里,完全是由计算机,不管是拍摄出来,还是模拟出来的环境。增强现实,像Google眼镜,你戴上以后,它前面有一个屏幕帮助你拍摄信息。

而微软做出来的混合现实,通过“全息技术”做出来的产品,我们叫它“混合现实”。所谓混合现实是他既能看到眼前的环境,同时前面又有一个计算机的屏幕,这两个可以叠加在一起,然后头戴的是一个纯粹的,单独的计算机,完全不需要和外头其他的设备打教导,通过网络就可以直接进行互动的沟通。

所以我们通过一个视频,最后看一下它如何来实现很多场景的应用。

把虚拟的和真实的叠加在一起,这样你能看到很多交互场景在里头。

最后总结一下,我们认为在媒体融合时代,大数据和人工智能有无限的前景,这种前景体现在它是一个智慧的融合,对话及平台,是情感的融合,能够把各种各样计算,集成在情感,集成在计算框架里头,它是一个知识的融合,能够把大数据背后的各种各样的知识,能够深度的挖掘出来,它也是一个虚拟与现实的融合,能够通过这种混合现实的技术,能够把你的产品有一个更好的呈现。谢谢大家!

(责编:刘雨霏(实习)、燕帅)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部