中国科学院院士、中科院生物物理所研究员陈润生
11月1日,首届中国智谷大会暨人工智能与产业创新高峰论坛在江苏南京召开,本次大会以“感知时代 智造中国”为主题。中国科学院院士、中科院生物物理所研究员陈润生应邀发表演讲。
陈润生院士因完成了中国第一个完全基因组的全部生物信息服务而知名,在演讲中,他围绕大数据在生物医药领域有着广泛的应用前景,以及精准医学等进行了阐述,并指出了中国目前发展过程中面临的挑战和机遇。
陈润生院士对精准医学主要有四个方面的看法,第一是精准医学的本质是组学大数据跟临床医学的结合;第二,精准医学能够促使医疗的基本概念从当前的诊断治疗转变成健康保证;第三,精准医学带来的基因测序数据可以促进分子诊断和药物设计靶点的相关产业;第四,伴随着精准医学概念而产生的新的医疗设施,以及新的如健康师一类的职业。
最后,陈润生认为,目前精准医学的挑战在于如何利用基因测序门槛降低后带来的大数据,以及挖掘数据背后的价值。
据了解,本次大会由新华网股份有限公司和南京市经信委主办,清华大学智能技术与系统国家重点实验室联合主办,中科院沈阳自动化研究所机器人学国家重点实验室、清华大学全球产业4.5研究院等机构提供支持,新华网融媒体未来研究院、新华网移动互联网产品创新研发基地和江宁经济技术开发区承办。(李根)
以下为陈润生院士发言实录:
陈润生:尊敬的各位专家、各位领导、非常荣幸能参加这个会,我想今天我就大数据和精准医学谈一个看法,因为现在的大家知道,精准医学非常热了,虽然比起人工智能还是小弟弟,但是我们知道,从2015年国际上在讨论精准医学以来,在很多发达国家包括我们国家不仅仅是大家都很关心的一个领域,我们国家领导人也多次对于精准医学的发展都有重要的指示,而且在资助上也有具体体现。
所以我今天主要谈精准医学的四个方面问题,大家知道,2005年1月20号美国总统奥巴马在他发表的美国要开展精准医学研究,从那以后,精准医学就在全世界得到了普遍的重视,精准医学时间还不就,但是热度很高,所以四个方面我谈自己的看法,一个是跟大家交流,也希望展开一些讨论。
第一个问题,精准医学的本质是什么,核心是什么?我看到国内有各种各样的评论,关于讨论精准医学的内涵,各种观点都有,我自己觉得,精准医学的核心其实就是一点,非常明确,就是组学大数据跟医学的结合,说得更具体一点,就是组学大数据跟临床医学的结合。
也就是说,把组学大数据用到临床的医学当中来,提高医疗诊断的准确度,提高治疗的效果。那么这里,包括两层含义,一个含义是组学大数据,另外一个含义是医学。那么组学大数据又包括两层含义,一个是组学,一个是大数据,我们知道,近年来,随着临床研究的发展,我们获得了越来越以基因组为代表的分子水平的人类信息,这个是以前前所未有的。那么,随着以基因组为代表的组学数据的发展,人们越来越多的积累了以遗传密码 为代表的不仅仅是基因的信息,也包括蛋白的信息,那么后来,人们发现,挖掘这些信息以后会得到很多的反映人类健康和疾病的信息。
所以有人提出,如果把这些信息应用到临床当中来,一定会提高临床的效果,这就是所谓精准医学的本质含义。但是,只获得这些遗传密码的信息是不够的,大家知道,所有遗传密码的信息都是非常非常多的一个大数据,这个大数据大家是很容易测得的,包括我们现在知道在我们国内,每个人花一万块人民币就可以得到你的遗传密码,但是你得到你的遗传密码你是一点都不懂,因为这只有四个字,所以要读懂他,你就要发展大数据分析的理论方法和技术,所以,那么要把这些组学数据用大临床当中来,必须是组学数据和大数据分析方法的结合。所以一部分是组学大数据,一部分是医学,两个结合起来,就构成了现在精准医学的本质和核心,这是第一个问题,关于精准医学的本质,他也是自上实际90年代由于组学数据用到临床当中一不能的发展转化成转化医学,个体化医学,现在从2011年有出了精准医学的名称,但不管怎么说,都是他的本质是清楚的,就是组学大数据在临床医学当中的应用。
第二个问题,精准医学能够使医学带来哪些本质的变化,如果精准医学只是把医学提高一点点百分数的话,我想,那么精准医学就不一定会引起更多领导人的注意,那么引起更多领导人的注意,就精准医学的内涵,一定会有一些本质上的变化,那么这个本质上的变化是什么?我们也用一句话来说,精准医学他的本质上所以引起各国领导人的重视,是精准医学有可能改变医疗健康的基本概念,也就是说,促使医疗的基本概念从当前的诊断治疗转变成健康保证。我们知道,现在的医疗体系面对的是病人,那么他主要是对病人进行所谓的治疗,但是,未来因为精准医学的发展,由于组学大数据的介入,那么就会使得这个时候的健康不仅仅是对病人,而是对全民,对任何人在他没有得病的时候我们测量他的组学数据,分析组学大数据,那么就可以对他未来健康发展的危险因素做出评估,根据评估进行适当干预,这样的话有些疾病不发展,有些疾病减轻他的程度,提高他的生活质量,这样就把整个医疗健康体系的关口前移,治胃病在没有病之前就提出评估与保证,这样一个根本性的概念的转变,有人认为,有可能导致一些新兴产业的出现,有人预估,跟所谓精准医学相关的这这个概念转变导致的新型,也许到2018年也许到2千亿美元的转变,我是不知道,这个数据是国际上的一些评估,当然如果是2千亿美金的话就相当于2万亿人民币,对GDP就有影响。这种有精准医学带来的本性概念的改变由此促使的产业的发展当然会引起各国领导人的注意,这是第二个方面,关于精整医学他可能带来的一些本质变化的估量。
很多国家不管精准医学研究已成为新一轮国家科技竞争与引领国际战略的制高点,美国在精准医学的发展,大家知道美国要测量100万自然人的遗传密码,欧盟也在积极推动所谓精准医学的研究,包括英国、法国等等,日本也在进行精准医学相关的投入和计划。那么精准医学我们如何仔细分析,他可能在哪些方面促使产业的变革和发展呢,我想至少在四个方面,第一个可以促使海量的生物样本库和数据库的发展,大家知道,由于精准医学的推动,那么需要测量百万人量级的这些人的组学信息,首先涉及到这百万人生物样品的获取,保管、提取和提供给这些人使用,这当然是一个很大的产业。同时,这些样本测完了数据是百万人数量级的一定要促进相应的大规模的数据库的发展,有人估计,这个产业的规模可能是百 亿数量级。
第二个有了这些样品,那么就要测以基因组为代表的这些组学数据,所以就要测基因组、蛋白组、转入组,这些测序的数据,大家知道,现在已经进入到了所有的市民的事件当中了,那么大家多知道,测试自己的遗产密码,这样一个测序也人估计,仅仅到2018年,就可以到117亿美金的规模。那么有了样本库,有了粗学数据的测量,那么下一步在这些海量数据挖掘的基础上,就可以促进产生大量的新的分子诊断的指标,我们知道,就会增加很多跟疾病相关的信息,这些信息当中,有很多就可以作为新的疾病的标记。同时,也可以发现很多新的药物设计的靶点,这就促进了第三个产业。所谓分子诊断和药物设计靶点的相关产业。
第四个当然伴随着精准医学概念而产生的新的医疗设施,比如说要成立一些健康源,要一些健康师,这些方面是可以和现在医院、医生相关系的产业大概是千亿数量,这些产业必然会带来变革,国内已经有所体现,有成百上千个小的公司在逐渐地成立了。当然他们怎么来更好的发展,有待讨论。
我们国家的精准医学发展目标我不赘述了,跟国际是一致的,这第二个方面,精准医学可以带来哪些本质的变化,如何促进产业的发展,在那几个产业发展可以带动或引导。
第三个我要说一个问题是要实现精准医学,要做哪些点?做到哪些点,才能做到精准?那么精准医学我觉得至少要具备两个条件,第一个,要具备组学大数据的基础,我们知道,精准医学就是把组大数据用到临床当中来,所以第一个你要获取组学大数据,那么也就是获取基因组,蛋白组、转入组、代谢组等等这些组学数据,这些数据本身是没有用的,第二步就是组学数据的挖掘,挖掘的话就会用到大数据分析的理论方法,包括刚才张先生讲的人工智能的方法,深度学习的方法等等,以知识为基础的方法用来挖掘这些组学,以获得在分子水平上跟疾病相关的知识,这是第一个基础。
有了这些分子知识和组学知识的用到临床疾病当中来,还要建立第二个基础,就是搭建分子水平的以基因型为代表的信息核,建立这种桥梁之后才能有效把分子水平的信息转化应用到疾病的诊断和治疗当中来,那么这就是要建立所谓生物信息学、生物网络,系统生物学等等的方面,有了这两个基础我们就可以更好地实现精准医学,当然一个非常重要的就是精准医学的发展,是应当和当前的临床的影象学、临床的生化检验、当前临床的知识很好地融合下,并不是有些公司他测的序什么都决定了,实际上不是那样,是应该更好地结合起来才能更好做到精准。精准医学只是把新的数据应用在原有的数据上使得更好地提高。
第四个说的精准医学现在在什么阶段,发展到什么阶段?大家知道,可能我们目前精准医学成为大家的热词以后,大家认为我们现在什么都可以精准,医学很容易精准了,我个人的观点,精准医学其实虽然是本质上可能带来变革,可能引导新的产业的发展,也许产业规模是巨大的,但是现在才刚刚上路,才刚刚开始!为什么?是在精准医学的概念下,我们目前依然存在着巨大的挑战,我们依然存在着巨大的困难。因此,我下面会举一两个例子来说明精整医学目前存在什么样的困难?
为什么说精准医学才刚刚上路呢?我们的创新的机遇在哪里,我们迎接挑战在哪儿?我作组学当中只举一个例子,在我们的临床密码当中,在我们的组学当中,目前,还存在着大量的暗信息,所谓我们的临床密码花一万块钱可以测得你可以拿到自己的遗传密码,但是目前我们能够分析从规律上的只有一小部分,这就是基因组当中的所谓暗信息,这是一段人的遗传密码,我们在座的各位都有,我也有,那么像这样的遗传密码,很多重要的地方是影响整个人的生产和法语了,我们一个人是3-10个九次方,如果你花一万块钱很容易测一床密码,如果转定成侧,每3千个量的到一个页,100页壮丁层一册,如果你把自己的临床密码壮丁成密码,是一万册,每页3千字符的东西就是你自己的遗传密码,我相信每个人很容易得到,你得到这个密码你读懂吗,如果一万册书每一页一厘米,我们自己的书就是一万厘米,就是一白米,大家可以想像,你自己的遗传密码从地面上排到四十层楼房那么高,每一页都是这样的,你读懂了,你就精准我相信没有谁能精准,我现在要告诉大家的是集全世界科学家的智慧,包括生物医学家的智慧,这本天书我们集体世世界目前在什么时候,我告诉大家,世界上能够从规律上了解的部分只有这遗传密码的3%,这个概念我是多次在报告对大家传递这样的信息,好象大家认为我现在测这个密码都懂了,不最了,只懂3%,另外的97%实际上集目前全世界的智慧还不懂,大部分还不懂。
那么,我给大家举一个最一般性的证明,如果大家去看,2010年,12月17号的这个,大家知道每12月份的insights都会评选当年自然科学领域的十大突破,2010年12月17号的这一期评论了十大科学突破,一个是当年的,一个是人类进入21世纪就进入本世纪以来,全十年,把这十年加在一块,也就是说离我们最近的十年把所有的加在一块,自然科学领域不仅仅是生物医学,所有的自然科学领域十个最值得人们关心的事,第一个出现的就是这个,大家很容易找到这篇,因为这个insights非常容易找到,他说明什么,说明我们基因组当中,或者我们遗传密码当中的Dark matter,什么意思,就是说明迄今为止我们的遗传密码大部分依然是暗的,就是97%是暗的,也一点我想在下面给大家做一些展开性的说明。
首先从遗传密码来讲,我们其实,我们的97%的遗传密码,从总体,从规律上来讲,我们人类还不了解,那3%我们了解的是从中学大家就知道的,尊崇中心发展的蛋白质信息,那3%就是造蛋白质的遗传密码,我们知道他的归类了,也知道他的信息,但另外的97%的遗传密码是跟制造蛋白组无关的,这些信息,迄今为止我们不知道他做什么用的,这就是遗传密码当中的所谓暗物质,也是遗传密码当中的非编码序列,那么这个概念,大家可以想一想,当我们测遗传密码,而97%的密码还不知道的情况下我们如何做到精准呢?所以离精准还差了很很大的距离。
我给大家战时比较基因组的例子,这是和人类基因组一起测量的模式生物,大家看到最上面最作短是大肠感知,是大细胞的圆细胞生物,连个细胞核都没有,大家可以看到,这整个代表他的遗传密码,85%都是红色的,就是85%都是用来编码蛋白的,都是知道归类的部分,所以对一个非常低等的生物,如果你测完他的遗传密码,你在85-90%你就知道他是如何生活,基本造哪些蛋白就知道,但是生物高等一点,我们看上面中间的酵母,这个是单细胞的真核生物,生物高等一点,你看他用来编码蛋白质,或者与之归类的部分减少到70%了,而非编码的部分增加到28%,我们看最右边这一个,是仙童(音),是非常简单的多细胞生物,虽然简单,已经也了多细胞了,好多细胞的,不是单细胞的,这时候你看编码蛋白质的部分减少到28%,非编码的部分增加到71%,下面是果蝇,也就是昆虫了,红色的部分减少到17%,非编码的部分增加到82%,而而97-98%都是非编码序列,这样一个所谓比较基因组的进化逻辑告诉我们, 我们可能过去设务从简单到复杂,从地等到高等是蛋白来得多,不对的,实际上生物从简单到复杂,从地等到高等,增加的是迄今为止我总体上还不知道规律的非编码序列,这将是对我们来讲做精准也好,做基础生物来讲你的巨大挑战,就是我们现在闹明白的,其实我们测量我们的遗传密码以后,发现我们大部分目前依然不知道生物学作用。
有人要起作用要有两个作用,一段遗产密码叫基因,还有一段重要条件产生生物,我们的信息要发放,用生物来讲这个东西,这个遗产密码要转路,第二个进入21世纪科学家提出问题,说这些占人类基因组97%的遗产密码,那是否右转路产物呢,否有信息发放,换句话说,他是否在活动,在行使功能呢,这个结果我不详细讲了,这个结果是100%肯定的,找到这些非编码序列和我们制造蛋白的那些基因一样,每时每刻都在表达,每时每刻都在起作用,所以他们也是真正地完成生物学功能,那么这些东西我可以举几个例子说明,他跟肿瘤的关系,当然,虽然我们不全部了解它,但是已经有些支离破碎的例子说明他的生物学功能。比如说有一个来自97%的这样一个产物,他叫PCGEM1,可以导致前列腺癌,不是由于蛋白引起的,更重要的是MALAT-1,他可以导致分校细胞肺癌,我们大家知道我们国家肺癌是增速中,我们现在临床医院当中,检测肿瘤用的指标都是我讲的3%,而治疗的靶点你用的药物也是对那3%,我现在告诉你,那97%,有很多例子证明,他也与肿瘤有关,但从来没有纳入到我们临床之诊断和治疗当中来,你想这个肿瘤能治得好吗,脑子没有概念,你没有考虑他,当然没有想到检测和治疗他,所以这个问题当然,比如说代谢疾病也是一样,就是说,我们还有一个97%更严重情况有关的东西迄今没有那么融入到我们诊断治疗的视野当中,这就是精准医学面临着组学的所谓的暗信息的巨大挑战。
当然也有好的,大家知道,H19这是来自非编码序列的一个重要的东西,他可以保护我们如果我们有些细胞癌变了,可以通过类似细胞凋亡的途径消灭他,这和我们熟知的P53是一样的,所以我们知道那个97%是和我们疾病,和我们的健康息息相关。我们有多少这样的编码没有发现呢,大家知道,那3%大家很容易知道,我们大概有25000个基因,这是基本防治,那些97%的我们现在能不能评估一下,他有多少原件呢,大家知道,对人我们还不知道,因为伦理上的原因,老鼠,他的遗传研究所做过研究,把所有的原件都拿来,管你是编码还是非编码,一共发现的18万1千个,这是在老鼠里面真正执行功能的原件的下限,实际上一定会比他大,在这里发现,产生意义上3%决定了两万个,换句话说我们还有16万1千个来自那97%,这16万1千个据我所知,目前我们全世界科学家解析了多少,大约1千个,换句话说,还有16万个机会,你发现一个新的功能原件,你做出他的功能,无疑他就是发表在insight的很好的,现在告诉大家,这还有16万个机会,有太多的机会有些非常重要的元件功能的发现。这些领域2016由这两位就是在那97%研究当中,我曾经开过一个玩笑,说那3%大家算算从1900年研究那3%大约缔造了50名诺尔将近获得者,现在知道了还有97%,97比三,那个大约是1300左右,所以我们有一千多个机会在这个领域做出原创性的特殊的贡献,而只有一个位置被占据,所以我们还有巨大的机会。那么这是他们赖以获得诺贝尔奖的那个论文。
因此,我们从精准医学来讲,我们现在其实不能做的精准是因为有一个巨大的大数据,他的只是二指他的内涵并没有被挖掘,但是另一方面,他可以给我们提供一个全新的机会,不管对技术研究还是产业发展都有巨大研究,所以对非编码的研究无疑会对疾病的诊断治疗提供全新的诊断方向,或者对药物的设计研发提供新的平台,对新的物种,新的性状的培育提供一个新的基础,对于组学的方向有很多,精准医学其实才刚刚开始,时间的关系我还有两三分钟,我想大数据,大家都是大数据的专家,我想我只能非常快的说说题目,其实对大数据的分析,依然存在着有些核心的挑战,第一个数据量大,大家知道,现在的测序仪一个普通的一次运行就可以到1T的数据,全世界有成千上万个这样的仪器,包括我的组里就有所谓的得到一个T的数据,所以这些数据量是非常大的。那么每个人有3×10个九次方,当时测序的话,测他的基因组,用了100万美金,现在大家知道用一万美金就可以同样得到自己的遗传密码。
这个数据告诉大家,从数据质量来讲,他的噪音很高,同时又大量缺失值的这样一个数据源。第二个样本很小,我们要解决肿瘤的问题,但是我们知道肿瘤的变量,自变量可能成前上万,但是我们取样本只有百数量级,因此我们为什么要测,比方要研究肿瘤或者是心脑血管病,他的自身变量千数量级,我们的百万级,就像政府,测一百万人总够了,第二个,我们建立合适的数学模型,使得我们能够相匹配,另外不仅仅是具体的基因,还牵涉到网络,这些网络大家知道,这些网络本身是动态的,有些是不同原件的。大家知道不仅仅是组学数据,还也生物学数据,更需要我们不仅仅是科技界,企业界,我们知道我们国内数据共享存在基本一个重要的问题,如果一个数据共享问题不解决,我们就是在大数据时代做小数据的工作,发表小数据的企业,显然不能适应国际竞争的态势。所以后面我讲的很粗糙,对不起,占用大家的时间,谢谢!
责任编辑:王刚