4年前,智能语音助手Siri借 iPhone之势,第一次让人们体验到,原来通过和手机对话就能完成过去很多不方便的操作。
Siri给全世界展现的,是一种更加「拟人化」,更加「生活化」的新的交互方式,尽管推出后并不如人们所期待的那样聪明,但从那时开始,人类对于「语音交互能带来怎样的可能性」这个问题,开始有了更多的思考。
Siri给全世界展现的,是一种更加「拟人化」,更加「生活化」的新的交互方式,尽管推出后并不如人们所期待的那样聪明,但从那时开始,人类对于「语音交互能带来怎样的可能性」这个问题,开始有了更多的思考。
2年前,名叫「Alexa」的语音助手借Amazon Echo开始进入美国成千上万的家庭当中,人们惊喜的发现,原来只需要动动嘴,不但能像过去一样查询天气、日程,甚至还可以点播音乐、开关空调、调整客厅灯光,甚至包办下网上购物的功能。
Amazon Echo让人们认识到,原来在家庭生活当中,人们不用围绕手机,也能够拥有更智能化的体验。
2017年,国内互联网公司们也开始了智能音箱的征途,从百度、阿里巴巴、京东,到小米、喜马拉雅FM,众多厂商相继宣布要瞄准智能音箱发力,一系列新品也开始在市场出现。
智能音箱战场已经硝烟四起,它的「中国式玩法」究竟是什么?怎样扬长避短寻找到正确的路径理解国内用户和智能音箱的关系?这些问题在深圳米唐科技创始人&CEO宋少鹏看来,不单单是技术问题,更是用户体验差异的问题。要想找到答案,就必须了解中美环境的异同。
在极客公园Rebuild 2017大会上,宋少鹏和我们分享了如何从细节角度来看,中美智能音箱使用上的异同,从更深的角度去理解,中国人究竟需要什么样的智能家居产品。
语音交互是交互进化的自然阶段
在宋少鹏看来,在探讨语音交互、人工智能这些话题之前,首先要讨论的是Amazon Echo成功的一些必备因素,因为这些要素当中包含了三个问题:
为什么是语音交互而不是其它交互方式进入到人们家庭当中?
为什么智能音箱是从美国,从一个做电商的公司进行了落地?
中国和美国的差异,怎样影响智能音箱的不同体验?
为什么是语音交互?在宋少鹏看来,这是由人机交互演进之后的自然选择,因为它意味着交互成本降低,他举出了两个例子:
第一,如果你想算2 的10次方减1,在鼠标、键盘、触摸、语音四中交互环境下,完成这个交互时间最少的,就是语音交互。因为语音交互所需要消耗的能量更少,人们完成这个交互所需要付出的成本更低。
第二,在古代,热爱音乐的人去欣赏音乐,需要驾着马车到音乐厅或者歌剧院。后来留声机的发明使人们可以躺在家里听音乐。面到了iPod,大家可以把1000首歌装进口袋,手指一滑,就可以欣赏喜欢的音乐。到2014年 Amazon Echo发布智能音箱,人们只用动动嘴就能得到自己想要的音乐,这意味着能量消耗进一步减少。
所以说,语音交互降低了人跟物理世界交互所需的能耗。这个趋势符合产品迭代的趋势。
基于这样的判断,宋少鹏创立了Sugr米唐科技,从2013年开始研究音频产品的互联网化,从语音、触摸、体感等多种方式降低人们获取音乐的能耗。
而到了2014年,Amazon Echo和 Alexa的发布,解决了人们需要的语音交互的很多问题。于是Sugr主动拥抱Alexa平台,成为国内第一个经过Alexa认证的智能音箱产品。
从小众走向刚需的智能音箱
说到第二个问题:为什么智能音箱从美国,从一个做电商的公司进行了落地?宋少鹏和他的团队从2014年就开始运营自有品牌的音箱产品,通过用户访谈,以及后台数据发现了一些规律:中国的音乐消费者跟美国的音乐消费者在消费习惯上有很大的不同。
美国的音乐消费者是成长于汽车上的黄金一代,汽车上都配备收音机,所以他们的音乐消费是从听收音机开始的。大家习惯了这种背景式的、实时存在式的播放,在任何一个生活场景里面都会有音乐存在,这种情况下,他们更倾向于流媒体音乐形式。
而说到中国的音乐消费者,最初接触音乐是源于80年代初期改革开放,港台音乐以盒带和卡带形式大量流入内地,所以大家接触音乐是一个歌手的完整专辑,里面有各种各样的曲风,但很少有合集和混编。
这样的不同其实就在我们两地的音乐APP上有了体现,宋少鹏以Spotify和 QQ音乐做了类比:
搜索在QQ音乐始终是一级菜单,在最显眼的地方,最方便用户搜索。在Spotify上你要到二级菜单才能完成搜索的功能。
封面、歌词在QQ音乐属于非常显著的位置,非常多的视觉信息,而在Spotify里没有。
因为美国人对音乐的刚性需求,他们对于流媒体音乐的使用习惯,所以在智能音箱为大家提供语音交互的时候,用户对于语义理解的要求反而没有那么高,点播歌曲的频度没有那么多。
当我们再看Amazon Echo在北美刚开始的成功,其实就在于Amazon Echo首先解决了家庭环境听音乐的痛点,可以让音乐一天不停地播放,使得Amazon可以以MVP(minimum viable product,最小化可实现原型)的形式,拿出一款产品来迅速交付消费者并进行迭代。
这之后Amazon Echo进入了一个快速迭代的流程,开始迭代服务、信息,比如说天气、交通等等,这样使他的服务越来越丰富,也使得用户的黏性越来越高。
音箱本来是被动播放音乐的产品,人工智能和语音助手的植入使它成为一个主动获取信息、获取音乐,成为一个流量的入口。慢慢地,技术的迭代使得它开始加入了家居其他产品的控制功能,逐步成长为家居的中控,这样就有了无比巨大的想象空间。
这也就解释了为什么几乎所有的互联网巨头,包括Google、亚马逊、微软、苹果都进入了这样一个产品竞争的赛道。
智能音箱落地中国还缺什么
尽管宋少鹏和他的团队开发出的产品早已进入了亚马逊的Alexa认证体系,成为亚马逊平台上第一个通过认证的来自中国的智能音箱。但智能音箱在中国应该给用户提供什么样的服务?仍是他思索的问题。
中美消费者对于音乐消费的DNA是不同的,所以在中国,点播会是一个非常强的需求,是一个常态,点播所带来的技术上的需求会更加急迫,它包括更强大的语义理解能力,更丰富、更深入的音乐知识图谱,以及更完善的音乐版权和曲库。
另外,中国人家庭环境和美国也有区别,通常都是壁挂式或者是落地式的空调,每一个空调都有单独的摇控器,这就决定了如果音箱作为一个智能家居的中控,它对于空调的接口、控制场景和体验是不同的。
这样的场景还有很多,包括厨房、卧室等等,也正因为不同的场景,因此所带来的用户需求一定是不同的。
所以在宋少鹏看来,在中国做智能音箱一定不能复制Echo的路径,而是要找到我们真正消费者的需求,落实消费者的场景,来解决我们自己的问题。
宋少鹏和他的团队做出了Sugr Sense方案,这是一个完整的智能音箱解决方案,它包括了麦克风和麦克风阵列的处理技术,里面有去回声、去噪音、声源定位、语音唤醒等等技术特征。这其中有一套单麦克风的解决技术,是目前全球唯一一套可以通过Amazon严格测试并认证的单麦克风解决方案,不但可以降低行业门槛,还可以提升整个行业的效率。
这项单麦克风解决方案在Amazon的测试环境里拥有不错的成绩,在9 英尺的环境下(2.74米),普通办公或者是家居环境下,唤醒响应率能达到100%,在9 英尺的距离,在设备自身播放音乐,AEC(自适应回声消除)场景下,正确响应率达到了98%。
提到产品经历过Amazon的认证过程,宋少鹏提到,Amazon对于产品认证的环节非常考量,有多个环节:
首先,认证从产品开箱体验开始,事无巨细。
之后,官方会测试网络的配置、唤醒的速度、灯效、光效、回答的效率、回答的准确率,甚至连APP的交互体验都在测试范围内。
经历了这样的过程,产品会接入Amazon,帮助合作伙伴把产品送到线上和北美线下的店铺进行销售,这样是从认证-合作的整个过程。
所以,Amazon Echo的成功不仅仅在于提供给用户一些方便的功能,更是从包装到使用到售后的一套完整的用户体验,而在国内,经历这样良性的过程,才能把握好产品对于产品和消费者之间的关系,这也许是智能音箱落地中国的重要因素。
责任编辑:吴一波