谷歌DeepMind 和牛津大学的联合研究团队使用了 2010 年 1 月至 2015 年 12 月间的电视节目素材对 AI 系统进行训练,然后使用 2016 年 3 月- 9 月间播出的节目进行 AI 性能测试。
统计局的最新统计数据”(According to thelatest figures from the Office of National Statistics)。
DT 君试读了以上英文语句,发现唇形变化其实并不明显,而且电视节目中的语速是非常快的,难度可想而知。
由谷歌DeepMind AI系统通过唇读同步的字幕
AI能力再升级
测试结果的具体数据可能更能说明问题:在 2016 年 3 月-9 月的节目库中随机选取的 200 个说话场景唇读对比测试中,人类专家的完全准确率为12.4%,而AI的完全准确率为46.8%。
而且 AI 所犯错误中有很多其实无关紧要,比如在复数后面漏掉一个“s”之类。不过哪怕是这样,AI 还是完虐了人类唇读专家。
人工智能业内专家称,“这绝对是建构全自动唇读系统的第一步!现有的各类庞大数据库完全可以支持深度学习技术的发展。”
两周前,牛津大学曾开发了一个类似的深度学习系统LipNet,这套系统当时就已93.4%对52.3%大比分击败了人类唇读专家,但还不太说明问题,毕竟,LipNet和人类的竞赛是基于GRID语料库,这个数据库只包含51个特殊词汇。
而DeepMind这次选取的BBC节目数据库却包含了惊人的17500个特殊词汇,对人工智能来说,这无疑是艰巨的挑战。
除此之外,BBC节目数据库中包含了人类在正常说话时使用的各种语法,而GRID语料库的33000个句子都采用相同表达,这使得句子很容易被预测,难度也相对低得多。
把嘴唇排列起来
如果要通过 BBC 节目这一类的视频数据库来训练自动唇读系统,必须要让机器预先学习每一个视频片段。可问题是,节目中的视频流与音频流往往不是完全同步的,甚至会出现多达1秒左右的时间差。
好了,问题来了,AI 唇读本事这么大,到底会被用来干嘛?DT 君脑子里首先出现的画面就是:“天网”默默监视着全人类的谈话,只要看看嘴型就知道你在说什么……
为您推荐
互联网似乎正压得美国传统报业走投无路。然而,网上的信息其实高度依赖于传统媒体,网络报纸也无法像纸质报纸一样深层次、多角度地透视社会。因此,假如报纸真的不再重要,网络媒体也将失去价值仿佛是约好的,传统媒体突然对谷歌群起而攻之。4月6日,《华尔街日报》和美联社等著名传统媒体再次攻击谷歌和其他新闻聚合网站是网络寄生虫,并威胁采取法律手段。《华尔街日报》总编罗伯特·汤姆森称:“毫无疑问,有些网站就是互联网大肠中的寄生虫或者科技绦虫。读者已经习惯了互联网上大部分内容免费,而我认为这个认知是错误的,但是谷歌等新闻聚合网站则利用这种错误认知盈利。这些网站几乎没有认识到为他们带来盈利的内容是其他机构创造的。”
路透社18日报道说,熟悉情势的消息人士向路透社透露,谷歌公司在调查是否有公司内鬼参与对谷歌的网络攻击。此前谷歌公司宣布考虑撤出中国时理由之一就是“遭到黑客网络攻击”。路透社称,谷歌公司的一名发言人拒绝“对谣言和猜测置评”,但承认这是正在进行的一项调查。易观国际互联网高级分析师李智接受记者采访时表示,谷歌调查内部员工是否参与所谓的网络攻击,是其找台阶下的表现,是危机公关的一种方式。李智表示,谷歌做出的退出中国的决定本身是冲动的,从一开始表现出的态度强硬,到目前一步步的缓和,说明谷歌意识到了中国市场的重要性。如果谷歌最终没有退出中国,那无疑是它导演的一出闹剧。
电脑商情在线3月9日消息,据国外媒体报道,谷歌正与美国第二大卫星电视运营商DishNetwork合作测试一款电视节目搜索服务。有消息人士称,谷歌通过基于Android系统的电视机顶盒提供这一服务。用户不仅可以通过该服务搜索Dish的节目内容,也可以搜索来自YouTube的内容,并对播放的电视节目进行个性化。分析人士指出,谷歌很可能将这一新服务与电视广告业务结合起来,根据用户数据针对不同家庭投放不同广告。
韩国三星电子和LG电子通过近几年与日本索尼和夏普的激烈竞争,目前在全球电视市场占有率方面分列前两名。当专家们认为韩国电视产业会在一段时间内领先于日本,占据全球电视霸主地位时,苹果和谷歌加入了电视市场争夺战行列,从而使得全球电视市场格局出现了新变数,市场争夺形势已然进入乱花渐欲迷人眼的状态。染指电视苹果谷歌齐出手苹果公司首席执行官史蒂夫·乔布斯在4月关于“苹果公司非凡新产品”的表态,被外界普遍认为是苹果公司涉足电视市场的强烈信号。Eugene投资证券公司分析师说:“苹果最快可能在今年第四季度,谷歌最快是在今年11月左右推出新的电视。韩国电视生产商如果不能正确应对苹果和谷歌掀起的电视新发展趋势,很