智能音箱的“中国式玩法”究竟是什么？

2017-08-15 11:48:49来源：新芽NewSeed 热度:

4年前，智能语音助手Siri借 iPhone之势，第一次让人们体验到，原来通过和手机对话就能完成过去很多不方便的操作。

Siri给全世界展现的，是一种更加「拟人化」，更加「生活化」的新的交互方式，尽管推出后并不如人们所期待的那样聪明，但从那时开始，人类对于「语音交互能带来怎样的可能性」这个问题，开始有了更多的思考。

2年前，名叫「Alexa」的语音助手借Amazon Echo开始进入美国成千上万的家庭当中，人们惊喜的发现，原来只需要动动嘴，不但能像过去一样查询天气、日程，甚至还可以点播音乐、开关空调、调整客厅灯光，甚至包办下网上购物的功能。

Amazon Echo让人们认识到，原来在家庭生活当中，人们不用围绕手机，也能够拥有更智能化的体验。

2017年，国内互联网公司们也开始了智能音箱的征途，从百度、阿里巴巴、京东，到小米、喜马拉雅FM，众多厂商相继宣布要瞄准智能音箱发力，一系列新品也开始在市场出现。

智能音箱战场已经硝烟四起，它的「中国式玩法」究竟是什么？怎样扬长避短寻找到正确的路径理解国内用户和智能音箱的关系？这些问题在深圳米唐科技创始人&CEO宋少鹏看来，不单单是技术问题，更是用户体验差异的问题。要想找到答案，就必须了解中美环境的异同。

在极客公园Rebuild 2017大会上，宋少鹏和我们分享了如何从细节角度来看，中美智能音箱使用上的异同，从更深的角度去理解，中国人究竟需要什么样的智能家居产品。

语音交互是交互进化的自然阶段

在宋少鹏看来，在探讨语音交互、人工智能这些话题之前，首先要讨论的是Amazon Echo成功的一些必备因素，因为这些要素当中包含了三个问题：

为什么是语音交互而不是其它交互方式进入到人们家庭当中？

为什么智能音箱是从美国，从一个做电商的公司进行了落地？

中国和美国的差异，怎样影响智能音箱的不同体验？

为什么是语音交互？在宋少鹏看来，这是由人机交互演进之后的自然选择，因为它意味着交互成本降低，他举出了两个例子：

第一，如果你想算2 的10次方减1，在鼠标、键盘、触摸、语音四中交互环境下，完成这个交互时间最少的，就是语音交互。因为语音交互所需要消耗的能量更少，人们完成这个交互所需要付出的成本更低。

第二，在古代，热爱音乐的人去欣赏音乐，需要驾着马车到音乐厅或者歌剧院。后来留声机的发明使人们可以躺在家里听音乐。面到了iPod，大家可以把1000首歌装进口袋，手指一滑，就可以欣赏喜欢的音乐。到2014年 Amazon Echo发布智能音箱，人们只用动动嘴就能得到自己想要的音乐，这意味着能量消耗进一步减少。

所以说，语音交互降低了人跟物理世界交互所需的能耗。这个趋势符合产品迭代的趋势。

基于这样的判断，宋少鹏创立了Sugr米唐科技，从2013年开始研究音频产品的互联网化，从语音、触摸、体感等多种方式降低人们获取音乐的能耗。

而到了2014年，Amazon Echo和 Alexa的发布，解决了人们需要的语音交互的很多问题。于是Sugr主动拥抱Alexa平台，成为国内第一个经过Alexa认证的智能音箱产品。

从小众走向刚需的智能音箱

说到第二个问题：为什么智能音箱从美国，从一个做电商的公司进行了落地？宋少鹏和他的团队从2014年就开始运营自有品牌的音箱产品，通过用户访谈，以及后台数据发现了一些规律：中国的音乐消费者跟美国的音乐消费者在消费习惯上有很大的不同。

美国的音乐消费者是成长于汽车上的黄金一代，汽车上都配备收音机，所以他们的音乐消费是从听收音机开始的。大家习惯了这种背景式的、实时存在式的播放，在任何一个生活场景里面都会有音乐存在，这种情况下，他们更倾向于流媒体音乐形式。

而说到中国的音乐消费者，最初接触音乐是源于80年代初期改革开放，港台音乐以盒带和卡带形式大量流入内地，所以大家接触音乐是一个歌手的完整专辑，里面有各种各样的曲风，但很少有合集和混编。

这样的不同其实就在我们两地的音乐APP上有了体现，宋少鹏以Spotify和 QQ音乐做了类比：

搜索在QQ音乐始终是一级菜单，在最显眼的地方，最方便用户搜索。在Spotify上你要到二级菜单才能完成搜索的功能。

封面、歌词在QQ音乐属于非常显著的位置，非常多的视觉信息，而在Spotify里没有。

因为美国人对音乐的刚性需求，他们对于流媒体音乐的使用习惯，所以在智能音箱为大家提供语音交互的时候，用户对于语义理解的要求反而没有那么高，点播歌曲的频度没有那么多。

当我们再看Amazon Echo在北美刚开始的成功，其实就在于Amazon Echo首先解决了家庭环境听音乐的痛点，可以让音乐一天不停地播放，使得Amazon可以以MVP（minimum viable product，最小化可实现原型）的形式，拿出一款产品来迅速交付消费者并进行迭代。

这之后Amazon Echo进入了一个快速迭代的流程，开始迭代服务、信息，比如说天气、交通等等，这样使他的服务越来越丰富，也使得用户的黏性越来越高。

音箱本来是被动播放音乐的产品，人工智能和语音助手的植入使它成为一个主动获取信息、获取音乐，成为一个流量的入口。慢慢地，技术的迭代使得它开始加入了家居其他产品的控制功能，逐步成长为家居的中控，这样就有了无比巨大的想象空间。

这也就解释了为什么几乎所有的互联网巨头，包括Google、亚马逊、微软、苹果都进入了这样一个产品竞争的赛道。

智能音箱落地中国还缺什么

尽管宋少鹏和他的团队开发出的产品早已进入了亚马逊的Alexa认证体系，成为亚马逊平台上第一个通过认证的来自中国的智能音箱。但智能音箱在中国应该给用户提供什么样的服务？仍是他思索的问题。

中美消费者对于音乐消费的DNA是不同的，所以在中国，点播会是一个非常强的需求，是一个常态，点播所带来的技术上的需求会更加急迫，它包括更强大的语义理解能力，更丰富、更深入的音乐知识图谱，以及更完善的音乐版权和曲库。

另外，中国人家庭环境和美国也有区别，通常都是壁挂式或者是落地式的空调，每一个空调都有单独的摇控器，这就决定了如果音箱作为一个智能家居的中控，它对于空调的接口、控制场景和体验是不同的。

这样的场景还有很多，包括厨房、卧室等等，也正因为不同的场景，因此所带来的用户需求一定是不同的。

所以在宋少鹏看来，在中国做智能音箱一定不能复制Echo的路径，而是要找到我们真正消费者的需求，落实消费者的场景，来解决我们自己的问题。

宋少鹏和他的团队做出了Sugr Sense方案，这是一个完整的智能音箱解决方案，它包括了麦克风和麦克风阵列的处理技术，里面有去回声、去噪音、声源定位、语音唤醒等等技术特征。这其中有一套单麦克风的解决技术，是目前全球唯一一套可以通过Amazon严格测试并认证的单麦克风解决方案，不但可以降低行业门槛，还可以提升整个行业的效率。

这项单麦克风解决方案在Amazon的测试环境里拥有不错的成绩，在9 英尺的环境下（2.74米），普通办公或者是家居环境下，唤醒响应率能达到100%，在9 英尺的距离，在设备自身播放音乐，AEC（自适应回声消除）场景下，正确响应率达到了98%。

提到产品经历过Amazon的认证过程，宋少鹏提到，Amazon对于产品认证的环节非常考量，有多个环节：

首先，认证从产品开箱体验开始，事无巨细。

之后，官方会测试网络的配置、唤醒的速度、灯效、光效、回答的效率、回答的准确率，甚至连APP的交互体验都在测试范围内。

经历了这样的过程，产品会接入Amazon，帮助合作伙伴把产品送到线上和北美线下的店铺进行销售，这样是从认证-合作的整个过程。

所以，Amazon Echo的成功不仅仅在于提供给用户一些方便的功能，更是从包装到使用到售后的一套完整的用户体验，而在国内，经历这样良性的过程，才能把握好产品对于产品和消费者之间的关系，这也许是智能音箱落地中国的重要因素。

下一篇：广告说好才叫好? 这几款冷门智能电视很给力上一篇：韩媒:报告称中国人工智能领域超韩与美差1.8年

责任编辑：吴一波

智能音箱智能语音助手 Siri

为您推荐

不敌Amazon Echo和Google Home 国产智能音箱差在哪？

苹果全球开发者大会6月5日召开关注OLED和智能音箱苹果全球开发者大会6月5日召开关注OLED和智能音箱

迟到的“入局者”：苹果智能音箱HomePod的机会何在

智能家居入口之争：智能音箱操控家庭成为可能？

{{i.label}}

智能音箱的“中国式玩法”究竟是什么？

为您推荐