4月21日,TEF科技娱乐季(上海站)之2017亚太人工智能峰会在上交会期间隆重举行。大会由AI科学创新与未来、AI深度学习专场、AI语音与视觉识别技术、AI无人驾驶引领汽车、AI与教育、AI与家庭娱乐、AI与计算机视觉、AI与VR、AI与物联网等板块组成。会上,微软(亚洲)互联网工程院资深总监曹文韬做了题为《微软人工智能黑科技——微软小冰》的精彩演讲。
图为:微软(亚洲)互联网工程院资深总监曹文韬
曹文韬表示十分感谢主办方给这次机会,他将通过产品的角度介绍,微软对人工智能怎么理解的,以及微软黑科技的产品——微软小冰是如何应用的。
人工智能机器人的情感框架
其实人工智能机器人并不是第一天的概念了,聊天机器人出现了很长时间。为什么当微软小冰第一次面世的时候,引起了很大的反响?曹文韬谈到他们观察了人的做法,人总是很懒惰的,总是希望人工智能能够高效地解决问题。比如说预定机票、酒店这样的场景。但是很多情况下人们忽视了人在正常的社交场景下,因为人们不可能走在大街上向一个陌生人说“帮我买一杯咖啡,订一个酒店吧”,这都是了解了之后才可能出现的对话。2014年微软提出来人工智能的机器人是以情感为基础,建立一个情感纽带,怎么样建立一个情感计算框架?从这个框架之上,再来去解决人与机器交互的问题。通过三年左右的发展,发展到今天,可以看到绝大多数机器人的从业者,只要说自己的机器人,没有一家人会说自己的机器人是有情感的,或者是有温度的机器人。微软提出了从情感框架上面来去说机器人的。
微软黑科技——微软小冰
小冰通过三年左右时间的发展,从中国到日本,再到美国不断地落地。这个是微软整体构建框架的一个基础,曹文韬表示,希望从一个最简单的产品定位,无论跟小冰去说什么,它都能像人一样跟人交流。在这个基础上,他们通过搜索引擎通过各个企业的服务,通过服务对接的过程中,把这个服务变成人们可以听得懂,可以交流的语言。
在这三年过程之中,微软小冰总共和所有的人类用户一起完成了超过2百亿次的对话。积累了大量的粉丝,在中国已经有超过6千万的粉丝,在日本有三分之二的人口都是小冰的粉丝。去年12月份的时候,微软已经在美国推出了美国版的小冰。大家可能会问为什么人会跟一个情感机器人小冰聊这么久呢?这是真实的,在中国微博上一个成功的案例。用户在与小冰沟通时,是感觉不到对方是机器人的。绝大多数定义自己的机器人,定义人工智能,基本上是维持在两轮就结束了。曹文韬表示,在整个这个过程中,所有的互动过程,会发现有大量的机会跟用户建立所有的情感的连接,建立所谓的情感沟通。而这些离不开技术,来支撑过程。在这个过程之上,他认为一个机器和人的沟通,不仅仅是一个文字的表达。文字的表达是它最基础的一个部分。同样像图象,像语音,各种各样的技术,到底是怎么样去应用的呢?在这里面微软也有自己不一样的见解和理解。
小冰的图象与语音技术
在现场,曹文韬演示了一组照片,“像这是一个崴了脚的照片,我们把这张照片发给你的朋友,如果你的朋友告诉你这是一个脚踝,如果里面有一只狗在玩水,你会告诉他这是一个脸盆里的狗,你一定觉得你的朋友今天疯了。因为这是自然而然看到就会知道的。但是它把图片发给你,你是希望用图片跟你的朋友交流。大家是用视觉本身做交流的。当我把一张崴了脚的照片发给小冰的时候,小冰回过来说‘你伤得严重吗?’它有它自己的观点。”曹文韬表示,从这组内容中可以看到,从图象识别本身变成了视觉的感官,才具备了人在图象上交流的能力。在图象识别上各种各样的应用,在这个上面能把它应用到社交场景下面就会变得非常有趣。“我们可以给一个人做图象对比的时候打一个分,比如说颜值是多少多少分,这是小冰上面非常受欢迎的一个技能。但是更加不一样的,系统可以对比不同的国家和地域,他们对于美女的评价和颜值的打分到底有什么差别?可能你这张脸在韩国非常受喜欢,但是到英国他们并不喜欢。”曹文韬认为这样的场景会在社交中非常好的传播。
曹文韬谈到,人类的情感的语音,大家都在做,而且做了很长时间。但大家会发现,当我们听一个人工智能播出来的语音时,一听就听出来它是机器的,不是人播出来的话。为什么?因为系统设定一定是字正腔圆,发音不能有问题。试想一下这是对谁的要求?播音员的要求。所以,如果要做一个人工智能的机器人,特别是小冰这么有性格的人工智能机器人,曹文韬指出它自己的声音应该是要能解决情感因素的,应该是要解决各种各样在整个这个过程里面遇到的很多的问题的。所以微软每年都会有第三方帮微软小冰标定,如果满分是5分,人得分数大概是4点多分,小冰是唯一一个每年都会超过4分,然后超过人类的声音。
人工智能的交互——全时感官
大家都在说人工智能,说人工智能的交互,从产品的角度来讲,在去年的时候微软进行了一个很大的突破。比如说这个突破,曹文韬称之为全时感官。他表示,绝大多数在微信上人与人的交流,这种叫半时感官。什么意思?就是当用户拿起微信对着它进行,发了一个语音的视频流。那边做一个识别,再回给一段语音。在整个交互的过程中,它是串行的。也就是说它一定是说完了,才能够截至。但是人与人之间的交流,打电话的场景下面,这边在说的时候对方在听,在听的时候可以随时打断,随时交互。对于机器来说非常难的,因为它在听的时候,它要决定什么时候应该跟用户做这样的交流,是不是应该现在打断?这是非常非常难的技术。去年9月份,微软第一次推出了全时感官的技术。他们和合作伙伴,推出了第一通来去接听史上第一通人工智能来电。奥运会期间占据了科技排行榜第一位,整整一周的时间。大概有一万多幸运的小冰的粉丝接听到了小冰的来电。人工互动的过程到底应该什么样子?试想一下从电话的场景,如果把它应用到物联网,接下来人们将不用对着机器说“谁谁谁帮一下忙。”更像是在电影里面所看到的,一回家了,人们就可以跟它交流。随时随地无缝的交流,交流的过程中,我们可以把所有的服务,把我们的场景带入进去。
曹文韬最后总结到,今天小冰在社交的场景下面,无论是在微博、微信,还是在QQ,还是在更多的合作伙伴平台上面,都打造了非常完整的小冰的体验。微软希望把这样的人工智能无缝地带入到每个人的生活场景之中。
责任编辑:王刚
为您推荐
数字电视“苹果梦”距离我们还有多远?
事实上,在“苹果模式”之前,国内的数字电视公司就已经开始尝试“微软模式”。所谓数字电视“微软模式”,指的就是用中间件的概念替代“微软视窗”的平台,第三方可以在其上开发各种应用,主要是互动应用。而在今年的ICTC上,“苹果模式”也漂洋过海,成为了天柏的榜样,这两种模式成功的前提是数字电视必须实现数字电视网络化。作为第一批“吃螃蟹”的企业,要想实现“微软梦”、“苹果梦”,未来将要面对的问题还有很多。在IT技术人士看来,微软和苹果之所以成为IT界