以下为“GMIC广州2019暨科学复兴节全球领袖峰会”中圆桌论坛“大数据如何推动人工智能的进化”的精彩分享实录,由云现场整理。
主持人:南望山科技有限公司董事长 孙政权
嘉宾:蚂蚁金服(杭州)网络技术有限公司高级技术专家 曾晓东
嘉宾:明略科技集团IEEE Fellow 吴信东
孙政权:各位领导、各位嘉宾,各位广东的同事和来自全国技术各方面的专家大家下午好!我叫孙政权,是广州天使会的会长,我参加每一年的GMIC大会,以前都是在北京,这次在广州非常高兴和大家见面。
下面介绍一下今天的两位嘉宾,今天我们有幸邀请到两位重量级嘉宾,他们是吴信东教授,是国家千计划的特聘专家,长江学者、IEE和ISS大数据的支持工程、教育部重点实验室主任,同时也是云络科技集团首席科学家。吴教授当前研究的方向包括数据挖掘、知识工程、还有信息工程、互联网信息探索。第二位嘉宾是来自于蚂蚁金服创新科技事业部的高级技术专家曾晓东博士,曾博士主要是专注于物联网、人工智能、AI及区块链的夸领域结合的创新技术探索,同时是2017年MIT35岁以下的青年科学家,可以说在中国目前无人超市等行业应用都是曾博士亲自打造的,他也是世界自然语言处理和机器翻译专业也是阿里机器翻译第一代、第二代系统核心的缔造者,欢迎曾教授。
今天我们的话题是“大数据如何推动人工智能的进化”,想有请两位专家首先讨论一下大数据和人工智能之间的关系,我是做投资的,我们现在一般看项目,第一会问你到底是不是属于ABC行业,A是人工智能,B是大数据,C是云计算,今天A和B都在我们这里,在行业中人工智能和大数据方面的专家就在我身边,首先邀请吴教授说一下您的看法,因为这个太热了,很多人都搞不清楚这两个到底是什么关系,有的人认为大数据就是人工智能,人工智能就是大数据。
吴信东:我自己来云络科技集团之前我是在里,在英国拿的博士,在人工智能里又是做数据挖掘的,所以就涉及到很多大数据分析和大数据推理。在美国当了20年教授,去年回到北京,从学校来到了企业,所以跟大数据、人工智能一直是打交道比较多,我自己根据自己的经历和做的学校里的科研项目跟公司做的实际应用来说,我认为数据是基础,首先我们接触到的东西都是数据,有了大数据后要从数据里凝练知识,最终要做智能的分析和问题求解,所以大数据是基础前提,人工智能是我们的技术手段,要达到实际问题求解,所以一个是基础一个是在上面做分析实现问题的求解。
孙政权:说的非常好,问一下晓东站在蚂蚁金服的角度,你们应用的很多大数据和人工智能怎么处理互相之间的关系的?
曾晓东:大家好!很高兴来这边,因为我本身是广东人,所以回到广州参加这个会议特别高兴。我这么看这个问题的,因为我本身是AI领域出身,我的硕士、博士包括现在做的工作都是跟AI密切相关的,先来看一下AI目前的现状,AI已经从最开始的实验室Demo阶段迈向了商业化阶段,具体的可以体现在很多任务的效率包括精度上,像视觉、语言包括NLP、机器翻译,这些任务里它们的精度已经非常高,我们商业化的产品里或多或少都会带一些AI元素。
我更觉得AI能达到目前这个水平的因素有三个,数据肯定是很重要的一块,第一个我个人觉得是算法本身,像深度学习这块算法模型的出现,会让AI的发展有非常大的推动作用。第二个是计算力,包括我们现在GPU有很强的计算力,最大的区别以前我们只能够十几天或者半个月才能做完一次实验,目前可能几小时就能做到了,这样会让我们整体的AI水平往前有很大的推动。第三个是最重要最核心的就是数据,目前很多AI模型都是基于数据的,大数据不一定是AI往前走的全部的因素,但是它一定是很核心的要素。就像吴教授刚才说的,它们两个是相辅相成的。
孙政权:刚才两位专家对大数据和人工智能的关系做了比较全面的解释,其实大数据和人工智能对我们每个人都是息息相关的,这里我罗列了几个应用场景,第一个就是智能交通,刚才我们看到广汽汽车的自动驾驶实际上就是智能交通这个领域,另外是网络舆论的监控还有安全防护及智能语音比如TTS、ISS、人脸识别、OCR等,这些都是人工智能和大数据的综合运用,我想问两位专家,关于人工智能和大数据的应用场景,你们自己目前的工作,你们认为哪一些应用场景将来真的能改变我们的生活,给我们的生活、工作、娱乐都能带来大的改变?
吴信东:我认为两个场景将来可能会改变我们生活的方方方面面,一个是你刚才提到的智能交通,我觉得这个智能交通不光是中国,而是一个全球性的长期的战略发展目标,因为这个交通可能会涉及到我们衣食住行的方方面面。现在云络科技集团想大力打造的智慧餐饮,如果把人工智能的知识推理、知识图谱还有语音图像技术都用到一起,我们将来走到一个餐厅,里面很少有服务人员完全靠机器人,从前台到后台全部用人机协同的方式完成,那这个人工智能就真正能够做到人机协同,可能会改变我们日常生活中的方方面面。
孙政权:您说的对,我上次到深圳找个宾馆入住根本就看不到人了,通过手机预定好了后扫码就进去了,走的时候也看不到人,将来可能餐厅也是一样的,进去吃饭都是机器人给我们端盘子。曾博士你是怎么看的,有哪些应用场景会改变我们的工作、娱乐、生活?
曾晓东:我非常看好一个大的领域,大场景就是物联网IoT,为什么这么说,其实IoT并不是一个全新的概念,它有挺久的历史了,但是随着近年来的科学水平不断发展,硬件的水平、工业设计,包括我们经常讨论的AI技术,使得这个领域我个人觉得会有一个井喷式的发展,其实它有一个很大的特点,就是物联网里万物皆可互联,会涌现出来很多不同的新型的设备终端。我举个例子,比如说智能的交通,像汽车类的联网的汽车,哪怕是大家都接触到的共享单车,放在家里的智能音响等,这些都是新型的端,它们有最突出的两个特点,第一个是因为有很多的端传感器会产生大量的新型数据,这些数据都是通过我去了解真实的物理世界将它数字化的,这些数字收集后怎么演化成更好的服务输出给用户,将一些智能的硬件变成智能端,作为一个载体输出这些服务,我个人觉得这个小的闭环形成的话会对我们的生活改变很大,所以我非常看好物联网这个场景,而且我们现在已经进入到了物联网的阶段。
孙政权:刚才晓东说的挺好,人工智能、大数据如果广泛应用的话我们也会发现一些问题,比如说智能驾驶,假如车子了人怎么办,比如说智能音响,家里被窃听了,个人隐私没有了,包括人脸识别,我到一个地方吃个饭就被别人抓取了,人工智能和大数据会不会在我们日常生活、工作中也带来一些挑战,你认为挑战有哪些我应该怎么规避它?
曾晓东:这是个很好的问题,我个人是这样认为,挑战是肯定存在的,但是这些挑战不会引来很多的机遇,我举几个例子。
其中一个挑战就是怎么样去产生更加高质量的数据,因为大量的数据首先要考虑这个数据是不是很杂能不能用,再是数据可不可信,这是数据质量的问题,同时这样的挑战可能会带来很多的机遇,比如要保证数据的可信,是否有心型技术可以保证,比如像区块链、IT技术等,怎么清洗成为高质量的数据,可能我们会衍生出一个新产业比如数据处理、数据标注类的创新企业。
弦歌第二个挑战就是你提到的数据隐私问题,也会引申出很多的机遇,比如像安全计算这样的新型技术保护数据的所有权。
这是我的初步理解。
孙政权:刚才提到个人隐私问题,看看吴教授是什么样的看法,因为大数据出来后我们所有的信息都被别人掌握了,人工智能带来的好的一面我们都能看到,会不会也有一些不好的地方让我们觉得人没有隐私了觉得活的不自在?
吴信东:完全同意晓东讲的两个方面,一个是数据质量问题,只有有了好的质量的数据,才能做到好的人工智能的分析,同时还面临着隐私保护问题。前一个礼拜到十天左右,清华大学还专门组织了一个信息共享和隐私保护的对立和统一问题,如果不做数据共享肯定没有大数据,如果做了共享就涉及到隐私保护问题,这是全球性的问题,欧洲最为典型,2017年出了个GDPR的事,隐私保护涉及到方方面面,包括有一条个人可以有被遗忘的权利,比如说我把这个数据今天给你了,我在你这个上面买了东西,我作为一个个人作为数据的拥有者我有权要求把这个数据删掉,希望把自己的数据遗忘掉,但是被遗忘权很多国家现在是做不到的,比如你的银行数据是不能被遗忘的,你想要把你账号里的交易记录20年前、50年前遗忘银行是做不到的,这个就涉及到伦理问题了,所以我觉得隐私保护是和伦理结合在一起的,有一些东西可以用法律来保护,但是法律部可能是方方面面的,涉及到伦理的问题,还有一个问题是人工智能会不会失控,这个也是大家一直讨论的,比如英国去年刚刚去世的大科学家霍金就说过,他一直在警告人类说人工智能不要走的太远,走的太远之后人工智能可能就会做对人类有害的问题,所以这也涉及到伦理的问题,所以这些要结合起来统一考虑。
曾晓东:我觉得还有一个挑战很多情况下我们会忽视那就是系统的工程能力,大量的数据进行处理,没有系统化的工程,就只能停留在实验室的Demo阶段,所以这块也是蛮大的挑战。
孙政权:其实我们很多人的个人隐私数据在中国没有得到保护,我们的很多信息早就被人卖了多少次了,我经常接到一些电话不知道从哪来的,从某种角度国外做的比较好,我经常去香港,比如要注册网站,如果有一些人故意把你的信息进行处理这是犯法的,但是中国人工智能大数据数据处理还没达到这一步。前一段时间贵阳有个大数据交易中心,他们把不同部门的数据经过清洗脱敏之后可以进行商业化运作,你们对人工智能处理大数据商业化运作有没有好的建议或提醒?
吴信东:商业化运作肯定是有的,国内国外都有,只不过要在法律的允许范围内做,敏感性现在是作为一个技术问题,国外也在做,比如说我们原来说把这个名字去掉或者泛化,我常常跟大家讲的一个故事,像在美国,我就见过我的这些同学和同事,他家里被小偷很轻松地偷了,后来他就不敢去报案,因为你一旦报案就得把你的地址在派出所留存下来,如果上了法庭对方就可以获取这些信息,如果本来这些人都是破罐子破率的,如果知道了你的这些地址你就麻烦了,脱敏脱到什么程度才能真正实现隐私保护也是个难题。比如说我生了个什么病,医院里没有讲他生了什么病,他就讲这个年龄喜欢跑步的人容易生什么病,我觉得还是把隐私给泄露了,所以保护是必要的,但是怎么保护是相对的。
孙政权:晓东对个人数据商业化有什么提醒?
曾晓东:我是技术出身我觉得可以利用一些隐私保护的技术,包括多方安全计算、可信计算,去保护用户数据的隐私权,这块可以有很多的想象空间。
孙政权:因为时间关系还有最后一个话题,因为你们从事人工智能大数据很长时间了,在你们个人的角度结合你们工作的实际情况,能不能描绘一下未来三到五年,我们的工作、生活、娱乐在人工智能、大数据方面会有哪些改变,比如说智能驾驶,以后打个电话车子自动过来人看不到,类似这样的你们能不能描绘一下,人工智能能给我们带来什么美好的远景?
吴信东:我现在在名为保理实为借贷集团里做的一件比较重要的大手笔的工作我们现在正在落地一个“HAO智能”的产品,三年左右我觉得HAO智能应该可以落地到不同行业中了,我们的这个“好”实际上是跟英文名词做的一个无缝的链接,这个“H”是人类智能“Human intelligence”、“A”是指“Artificiallntelligence”、“O”是指“Organization”,我们现在把这三个组成了一个“HAO”的产品,我们的目标就是把人工智能已经落地的技术,比如说感知、视频识别、图谱、识别技术有一些能够让机器人做的就用AI做,有一些像要洞察、高屋建瓴的东西还是要用人机协同,进行人机协同工作,我们在H和A的基础上又加了一个“O”(Organization),我们是面向垂直行业的,比如我们做公关,现在公关在全国做的是比较出名其中一个大的知识图谱就已经做到16亿个节点、40亿条,140亿条事件,我们把这么大的人、市、地、窝所有的IT都能圈起来,但是光有了这么大的知识图谱解决实际问题时明显面临一个挑战,知识图谱大了收缩空间是巨大的,比如我们要破一个案子,比如有人在街上打人,我们就找哪个人最容易是嫌疑人,我们从一个嫌疑人往他周边的人找找了7次,如果140亿7次方,最快的速度也要做几天,结果我们一个公干干警拿我们这个图谱搜索,5分钟内就把实际的嫌疑人定位了,这个中间就涉及到公安干警的知识,他把不太可能的空间自动减掉了,就自动定位,我们抓这个人时这个人已经到了火车站准备逃跑了,我们现在这个知识图谱已经很大了人工智能加上公安干警的人类智能,我们是面向公安这个行业把O有机地结合在一起了,我觉得HAO应该三年内可以落地不同的行业中,比如智能餐厅,有个盘子掉到地上了,到底派人还是机器人打扫,人和机器人都能做,那就涉及到成本和效率。所以HAO智能应该是三年内人工智能能看到的场景。
曾晓东:我对我所从事的IoT领域有非常大的期许,首先在物联网领域里,这个端的演变,包括商业化产品的演变我有非常大的期待,可以这么理解,在互联网初期,我们可能只是用单一的几个端,比如像笔记本电脑、台式电脑连接互联网,在移动互联网时代可能会用平板电脑、手机等连接互联网,在IoT阶段,到底什么样的端是最主流的流量入口,是一个还是两个还是多个,我们非一期待。就像刚才所说的,像一些智能化交通,包括汽车其实也是一个端,这个端的演化我个人觉得在未来3-5年内可以有很大的期待。
第二方面AI的发展速度只会加快,不会变化,而且有可能像水电一样做一个基础设施,每一个应用,每一个智能端的设计都会以它作为最基础的条件去演变。
第三方面是基于这些端包括AI能力所承载的一些商业化产品一些服务,会更加地多样化,会以人为中心,就像刚才所提到的智慧餐厅,其实它背后也对人的服务,这是我的理解。
孙政权:人工智能和大数据跟我们每个人都息息相关,我们说话的过程已经用讯飞听见进行自动语音识别,1999年我参与了科大讯飞当时公司的组建,我当时是代表广州的新泰科技参与的,相当于天使投资,当时我们就认为在中国一定会有一些非常牛的公司出现,在人和大数据方面,不管怎么说,我们认为未来是非常美好的,在这里也非常感谢两位专家,你们每个人再说一句话表达一下你们对人工智能和大数据未来的期望和看法。
吴信东:一句话,从总体发展阶段来讲,我们还是从大数据到打制石到后来人工智能的大智慧就是我们说的HAO智能。
曾晓东:其实在过去两年多的时间里,有一句话一直在我们团队内部我们非常坚信也非常笃定,而且也是对我影响最大的一句话在这里分享给大家,每一次信息时代的进化都代表着一个端的变革,这个端就是我反复提到的硬件终端。
孙政权:因为时间的关系圆桌论坛到这里结束,非常感谢两位专家进行人工智能和大数据方面的比较好的阐述,祝福每一位在未来的时间内尽情享受人工智能和大数据给你们带来的工作、生活、娱乐、情感各方面的满足。