搜索历史
热搜词
由Siri引发的语音技术市场探讨:三大种类及诸多挑战面面观
我爱方案网 | 2012-02-01 16:00

引言:苹果iPhone 4S的Siri功能推出,可谓是引起了人们对于智能语音技术的极大关注。其实,语音技术非常复杂,表象繁多,本刊通过采访国内科大讯飞、国笔等专家对目前的语音市场进行梳理和探讨。

一、不仅仅是语音,还是人工智能

尽管苹果“教主”乔布斯离开了我们,尽管iPhone 5没有入人们期望的那样出现,但是iPhone 4S的推出仍然成功吸引了苹果粉丝和业界的所有关注。根据美国电话电报公司(AT&T)透露,iPhone 4S在发布12小时之内就接到了20万份订单,而其中最引入注目的一大新功能,就是被称为Siri的语音助手功能。

10月4日上午,苹果全球产品副总裁Phil Schiller与负责iOS软件的副总裁Scott Forstall在新品发布会上,隆重介绍了Siri。

什么是Siri?

Forstall在现场进行了演示,他拿起iPhone 4S,对手机问道:“今天天气如何?”屏幕上立刻显示出今天的天气状况。他又接着问,我用带伞吗?Siri马上回答,今天会下雨。随后,他还用这款应用演示了搜索和设置闹钟提、预约等功能。

Siri跟普通的语音搜索不一样,它能明白你所说的,了解你的意思,甚至还能回答你的问题。那感觉就像真正拥有私人助理似的,而且是一位善解人意的私人助理。无论你用何种方式提问,它都能以人的思维去思考和反应,而不是以预设的程序答非所问。

Siri能为你做的不仅仅是提供答案,它还可以亲自替你完成一些基本的事情。比如,你可以吩咐Siri发短信给你父亲、提醒你预约牙医、帮你查找到达目的 地的路线,不用担心Siri不够聪明,因为它能够思考完成这些事情需要运行哪些应用程序,还能明白你要打电话的准确对象。

Siri还包括传闻中的“语音转文字”的功能,你只需按下麦克风,把你想发送的内容说出来,Siri就可以将你所说的内容转换成文字,并发送出去。除了发 送短信外,Siri还集成到一些第三方应用,这样,你只需动动嘴皮子,就能更新Facebook、发送Twitter消息或者即时聊天。

如果你认为Siri只是一个简单的声音控制软件,而你的Android手机上的语音助手或NOKIA语音提示也可做到这点,那你就错了。

我们不妨探究一下Siri的血统,这家最近刚被苹果收购的公司,直接发端于美国军方的CALO(Cognitive Assistant that Learns and Organizes)项目,这也是史上最大的人工智能项目,汇聚了全球人工智能方面的顶尖专家。

你如果看过好莱坞大导演斯皮尔伯格的电影《A I》,相信会对人工智能有一定了解,通过人工智能技术,机器人可以把“对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考、服务代表全部融合 到一起”。Siri的技术正源自人工智能,而不是简单的搜索和语音识别。它能够自主分析用户发出的口语指令,并给出确切的回应和指导,完全不需要用户预选 学习使用方法。

在国外某科技博客录制的一段视频中,评测人员对Siri提出了许多含义模糊或有歧义的问题。比如:“附近有没有什么浪漫的法国餐厅?”,比如:“天空为何 是蓝色的?”比如“钢琴上有多少个八度?”对人类而言,这些句子再平常不过了,但要让机器去理解这些变化多端的棘手词汇,尤其是“浪漫”这种形容词,那就 极端困难了,然而这些问题 Siri都可以回答。

你甚至还可以对Siri表白,对它说:“我爱你!”它的回答也很妙:“希望你不会对其它手机也这么说。”

该评测人员随后在博客中写到:“Android系统的Voice Actions也是一项伟大的技术,但说真的,它和Siri不是同一个层面的产品。Siri非常酷,与之相比Voice Actions虽说确实让我们省去了打字输入、触摸操作的工序,但操作太复杂,只有那些Geek会使用它。然而,妈妈们会选择Siri。”

二、语音技术的三大种类

除了人工智能,Siri的核心功能仍是基于语音识别的语音技术,其语音引擎来自Nuance,这家公司在全球手机输入法上处于垄断地位。

这一技术并非革 命性的变革,早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。

近二十年来,语音识别技术取得显著进步,开始逐渐从实验室走向市场。据了解,许多大公司如IBM、苹果、微软、Google、AT&T和NTT等 早在多年前都对语音识别系统的实用化研究投以巨资。目前主流的语音技术方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ,Nuance公司的Nuance Voice Platform语音平台,Microsoft的Whisper,Sun的VoiceTone,以及科大讯飞的口讯等。[page]

“语音技术是一个典型的交叉科学,涉及到很多方面,不是说有钱就能做的,是有一定门槛的。你可以去APP下载一个我们的软件体验一下”。根据科大讯飞副总江涛的介绍,目前语音技术大体上有三个分支:

第一类是语音合成技术(TTS),就是把文字变成语音,能够把文字读出来的技术,这个技术相对来说发展最早,也比较成熟。

第二类是语音识别技术(ASR),它又有几个细分,比较技术成熟的有命令识别(voice command),在有限的指定空间中实现你说的命令,早期很多手机上的语音识别很多就是这个层面。还有一个分支是语音评测,能够对你说的不同语言的标准程度进行打分、评价与指导。

第三类是声纹识别技术,因为语言中人的声带带有独特的物理特性,跟指纹、虹膜一样每个人的声音都是独特的,目前这种技术主要用在声音加密方面,可以识别不同人的声音。

据江涛透露,目前最难实现的就是语音识别技术(ASR),尽管业内普遍以识别率作为软件评测的标准,但语音受影响的环境因素太多了,说话人的语气、语速、 外围的噪音程度,麦克风的情况,尤其是云端识别,传输的信道好坏,很多很多因素都是不可控制的,“所以让官方去测一个系统识别率是多少其实意义不大,因为 每个人用的具体环境都不大一样。最终做决定的还是消费者,他们会用自己的手机去投票”。

三、语音技术面临的诸多挑战

据江涛介绍,目前语音识别技术在实现上还有几大难点需要解决:

1、自适应方面

目前,象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识 别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。事实上,ViaVoice的应用前景也因为这一点打了折扣,只有普通话说得很好的 用户才可以在其中文版连续语音识别方面取得相对满意的成绩。

2、强健性方面

语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望手机能听懂你的话,来自四 面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗噪。

(Noise Cancellation)麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如 何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。

某位业内人士在微博上表示:“与iPhone 4一样,iPhone 4S也配有副麦克风,用来过滤背景杂音。使用过Nuance Dragon语音到文本产品的用户无疑会对这种情形非常熟悉:在语音输入时必须保证良好的音质并且减少杂音,即便这样语音输入结果也并非100%准确。基 于此,我们认为iPad和iPod touch上的低音质麦克风无法让语音输入获得最佳效果,从而无法在短时间内用上Siri。”

此外,带宽问题也可能影响语音的有效传送,语音技术的流量要求主要看语音的质量,越保真的语音传输量越大,现在主流的语音技术采用的都是16bit编码和 8bit编码两种。在速率低于1000 比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信 等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。[page]

3、多语言混合识别以及无限词汇识别方面

由于目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文转为英文,或者法文、俄文,计算机就会不知如 何反应,而给出一堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如 “信噪比“等,可能也会得到奇怪的反应。根据笔者的使用体验,中文与英文夹杂,包括数字的夹杂识别会比较困难。

目前正在做语音方面的开发,还不方便公布。

云计算在安全和识别方面,凡是涉及到云端的,都要在服务器上实现,就以打电话、发短信来说,其实运营商那里都有备份,本身有没有安全问题,其实只要管理规范,并且控制在几家大公司范围内,我相信不会太乱。电子邮件做了这么多年,安全性问题也有,但是不能因为这样就不用。

4、实用性方面

国外科技博主Michael Okuda对Siri的实用性抱怀疑态度。“这只是一个DEMO,目前来看根本谈不上革 命。Siri无法进行大段文字录入和现场翻译的语音识别,而且限定了必须在App内的特定识别,总觉得又是个苹果抛砖引玉教育用户的动作。”

他认为,语音输入可能并非如此高效。“设想一下,我在搜索图片,我会说‘上、上、左、往下一个,图片编号3362,不对,左边那个。’这简直比直接点击那张图片要慢很多。”Michael说。“我认为,自然语言必然会遇到诸多限制。”

四、云平台加速中文语音识别的来临

Siri的推出吸引了业内对于语音识别技术的关注,据了解,此次Siri仅推出了英文、法文、德文版本,并且只能在iPhone 4S上面使用,这无疑对于专注中文语音技术的国内厂商带来巨大利好。不过由于Siri并非单纯语音识别,而更是语义识别,即理解自然语言并作出合理回应。 中文自然语言的语义识别是Siri面对的难点与障碍。苹果本身十分注重中国市场,从iPhone 第一代的iPhone OS在发布之时就已包含中文语言及输入法即可看出。

事实上,早在1997年,IBM公司就开发出汉语ViaVoice语音识别系统,可以识别上海话、广东话和四川话等地方口音的语音识别系统 ViaVoice‘98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达 到95%。而中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品—— PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

你可能还记得几年前电视上出现过的“金立语音王”广告,该款手机可以通过语音收发短信,同时还可以通过语音阅读文档资料,可以说是国内手机厂商在语音识别上的最早尝试。

国笔科技副总裁庄传坤对电子工 程专辑记 者表示,类似于金立语音王这种产品就属于命令识别技术,事先设定一些命令,或者命令组合,早期的金立语音王基本上就是在手机CPU上进行处理,运算速度和 存储空间有限,只能识别有限的一千多条指令,体验也不好。科大讯飞副总江涛则透露,今年金立基于科大讯飞的语音云做了一个新的版本,在云服务器上可以做到 几十万条的识别。

据了解,目前国内客户对于语音技术的了解还处于起步阶段,市面上完整成熟的中文语音解决方案还不多。科大讯飞董秘徐景明表示,苹果推广Siri将从实际应用等方面加速行业发展与普及。

根据徐景明的介绍,科大讯飞目前通过两种方式来培育语音识别业务,一是开发自身的产品讯飞口讯和讯飞语音输入法,发展语音云、丰富数据库,公司语音输入法 目前对标准普通话的识别正确率已提升到95%以上;二是向应用软件开发商们开放语音云平台接入,目前包括挖财在内的理财记账软件、凯立德在内的地图软件, 都已内置了科大讯飞的语音识别功能。此外,公司还与中国电信合作推出了应用相关技术的通讯增强软件。

自2010年10月28日科大讯飞“语音云”成功发布之日起,讯飞语音云合作伙伴已经超过500家,包括新浪、搜狐、腾讯、联想、挖财、乐么乐么等,语音 云的用户量也已经超过2000万,而除了科大讯飞,Nuance也在同样搭建开放的语音云平台,开发者可以给予其语音引擎开发各种第三方的语音应用。

至于Siri所应用的人工智能方面,国内厂商中目前腾讯联合中科院推出的小Q机器人是一大尝试,可以实现部分思考和理解能力,相信随着iPhone 4s的大力推动和智能手机的进一步发展,中国厂商自行研发的具有人工智能的语音软件将会很快问世。

阅读 参与讨论 评论(0)

强化五一假期效应 虹魔方发力大屏运营
 04月28日
强化五一假期效应 虹魔方发力大屏运营
倪健中会长:推动中国发起全球元宇宙大会联合会
 01月04日
倪健中会长:推动中国发起全球元宇宙大会联合会
第五届数智中国科技周·全球元宇宙大会(深圳站)收官战报...
 01月04日
第五届数智中国科技周·全球元宇宙大会(深圳站)收官战报来啦!
学术盛宴!人工智能国际治理学术论坛12月18日下午重磅举办!
 01月02日
学术盛宴!人工智能国际治理学术论坛12月18日下午重磅举办!