思必驰DUI:追求智能语音体验,打造高可用定制的语音交互平台

2018-08-30 13:43:47来源:机器人创新生态 热度:

思必驰成立于2007年英国剑桥高新区,创始人均来自剑桥,2008年回国落户苏州;是国内唯一拥有人机对话技术,国际上极少数拥有自主产权、中英文综合语音技术(语音识别、语音合成、自然语言理解、智能交互决策、声纹识别、性别及年龄识别、情绪识别等)的公司之一。
 


 

去年9月,思必驰在北京发布了其拥有完全自主知识产权的DUI平台。
 


 

DUI平台集成的核心智能对话技术具有高度可定制性,实现了从本地端设备到云端服务,从识别到合成,从语义到对话逻辑,从技术模块到内容资源的全方位定制支持。此外,平台还为开发者提供大数据运维和后台分析服务,根据硬件配置和具体需求提供定制的增值服务,可持续优化用户体验,以一种“三方共赢”的方式构建AI良好生态。
 



思必驰联合创始人/首席科学家 俞凯

 

DUI平台的发布会上,思必驰联合创始人/首席科学家俞凯围绕对话智能、流通、生长三个方面,从技术层面做了分享。
 

这次分享虽然是围绕思必驰的产品,但内容上值得智能语音行业乃至整个AI行业借鉴,以下我们对分享内容进行了梳理与整合。
 

从语音到对话,这些年发生了很大的变化
 

这是个不断变化的时代,从2013年到2018年,我们经历了从PC互联网、移动互联网到智能设备互联的发展,交互方式也经历着从文本搜索、语音/文本对话、自然口语对话的变迁。
 

技术变革,从未停歇。在这段时间里,技术在不断变革,深度学习的应用进入了深水区,当下大家都认为的“深度学习+大数据”就是一切吗?是的,是因为现在无论如何都缺少不了深度学习和大数据;说不是,是因为单纯的深度学习和大数据,没有专业化的支持和专业化的调整还不能发挥作用。
 

应用变革,如雨后春笋。在技术驱动下,各类应用如雨后春笋般诞生,在整个应用的层面,关注对话,并且以对话为核心,有的是数据驱动,有的是专业技术驱动,有的是产品应用驱动,此类公司越来越多,这是一个趋势,趋向于专业化分工。
 

产业链变革,AI 及 AI+ 的专业分化进程加速。在产业链上的专业化分工更加明显,促进其快速细分化。例如,在基础层,芯片、大数据、云计算等成为基础支撑;在交互层,语音、图像、触觉等成为交互方式的中流砥柱;在系统应用层,汽车、家居、娱乐、医疗、教育、金融等各个领域在不断接纳与渗透。专业化的分工、专业化的结合已经不可避免了。
 

对话智能:信息自由沟通的未来
 

俞凯从概念上进行了解析,指出对话不等于语音,对话是以人机交互为核心,包括各个模态,对语义的理解,声音、图像、感知层面直接的编码,以完整系统作为优化目标的一种系统级合成,需要全面的技术创新能力。
 

对话具备更大的价值,让产品实现自由的人机交互。思必驰是引领中国对话智能发展的领军企业之一,自2013年起,在产业界最早系统性提出,并一以贯之的专注推进对话智能的概念、技术发展及应用。2014年,思必驰发布了国内第一个口语对话系统平台"思必驰对话工场",开放底层的ASR、TTS、NLU等SDK接口。伴随着业务转型的进一步转型,思必驰AIOS对话操作系统在国内智能硬件领域得到了十分广泛的应用。为追求体验升级,打造高可用定制的对话平台,思必驰策划并推出了DUI开放平台。
 

封闭解决方案VS开放生态圈
 

毋庸置疑,语音交互已经成为当下智能产品的必备交互方式,多样化的产品带来了多样化的需求,这为技术提供方带来很大挑战。例如,在对话上有命令、问答、闲聊、任务等不同模式;在场景上,存在控制、购物、金融、教育、家庭、旅游等多种场景,并不断并入新场景;在细节上,要求多唤醒词、新领域、新说法、新动作、新逻辑等等,整个需求趋向于个性化、特色化。
 

就此问题,俞凯表示,目前国内提供语音交互技能的公司大体上有两种不同的思路。一是提供封闭的解决方案,所有的东西都包揽优化;二是像思必驰DUI这样的思路,开放,形成一个生态圈,有博弈的过程,但这是一个多赢博弈的过程,在生态圈上大家互相体谅。
 

封闭和开放的对比,就像是一家独大和万马奔腾的关系。开放生态圈才具备更大的价值,将核心技术开放出去,对AI应用企业以及技术企业的流通和生长都有积极作用,使得大家都不瘸腿。
 

必须要有大规模的定制技术的能力
 

俞凯表示真正实现流通型的对话智能,必须要有大规模的定制技术的能力,即DUI提出的:规模定制化。
 

语音识别&语音合成方面:规模定制化将技术的应用权限交给了厂商,多场景环境、多样化技术需求重要问题,需要满足诸如多唤醒词、即时唤醒定制、个性化语音自动训练、垂直领域主题自适应、新词随意添加、说话人及声学环境自适应等需求。
 

语义理解及对话方面:开放平台在语义理解及对话方面的需求是要支持意图及语义槽自定义,语义理解自定义,语音语义联动定制即时完成,在公共语义理解模块实现自适应优化,支持对话逻辑的自定义,可以进行技能组合及上下文传递等。思必驰通过支持语义理解定制和语言模型自适应,同时通过结合深度强化学习及统计实现统计对话管理,并支持跨Skill的上下文信息和指代消解。
 

软硬件系统支撑方面:这方面,要求软硬件配置即时更新生效,跨平台支撑,大规模定制化部署。思必驰DUI开放平台的四大系统(玲珑、天机、青囊、紫微)即是从软硬件配合方面去考虑,玲珑系统主要负责做跨平台的转接,紫微负责内容和服务支撑,天机为用户提供可视化大数据和运营系统,而青囊则负责DUI服务力和研发支撑。四大系统各自分工又相互协同,保证DUI的最终落地应用。

责任编辑:张樑

为您推荐

全球语音技术市场发展迅速 年平均增长超25%

全球语音技术市场在过去几年呈现出快速发展的态势,年平均复合增长率超过25%,根据市场研究机构联合商业情报(ABI)公司发表的最新的报告,全球语音技术市场到2008年已从2002年的6.27亿欧元(6.77亿美元)增长到49亿欧元(53亿美元)。我国语音技术市场在全球市场中所占的比重虽然还不大,但已表现出强劲发展态势。同时,移动互联网、云计算等相关产业的发展推动下,我国语音产业正在面临难得的发展机遇,这个市场将迅速积聚形成爆发性增长的能量,作为最具成长潜力的市场之一而备受瞩目。呼叫中心信息服务市场需求倍增语音技术在政府、电信、银行、证券、保险、交通等社会信息服务领域有着广泛的应用,例如通过语音合