谷歌人工智能重大突破:有望改变生命科学 和普通人有啥关系?

智 平方论坛第一期讨论现场:从左到右划分为:龚新颖、李海涛、鲁白、王雄伟、代季峰。图源:智 平方论坛

导 语

11月30日,谷歌旗下DeepMind宣布AlphaFold系统在第14届国际卵白质结构展望竞赛(CASP)夺魁,平均项目拿下92.4中位数的高分甚至可与实验方式一较高下。而用实验方式剖析卵白是结构生物学家的事情范围。AlphaFold是结构生物学的革命照样会革了结构生物学的命?为什么AlphaFord在一众人工智能中遥遥领先?它的乐成和普通人有什么关系?

2020年12月6日,智识学研社与智源社区谋划的 “智 平方” 论坛,约请到清华大学生命科学院教授、2019科学探索奖得主王雄伟,清华大学医学院教授李海涛,中国人民大学数学科学研究院教授龚新颖和商汤研究院研究执行总监、智源青年科学家代季峰,再次探讨人工智能与人类的未来。本讨论由知识分子创始人、清华大学药学院教授鲁白主持,腾讯新闻独家直播。

整理 | 戴威

主持人鲁白:人人好,迎接人人来到这场异常特殊的、也是异常实时的一个钻研会。钻研会的问题是 “AlphaFold:人工智能对生命科学的颠覆性挑战和打击”。

今年12月初,谷歌的DeepMind团队公布了AlphaFold2,它能够展望卵白质空间结构,而且准确率异常高。我们希望通过这场钻研会给做民众一些简朴的先容与科普,也对发现的社会意义和科学意义做一些开端的探索。

结构生物学,主要事情是什么?

鲁白:我们先约请几位嘉宾划分谈谈自己的专业靠山,为什么来到了这里,和我们今天的话题有什么关系。

王雄伟:人人好,我叫王雄伟,是清华大学生命科学学院教授。我的靠山是生物物理学,我现在研究用新的方式,主要是冷冻电子显微学对卵白质和其他的生物大分子结构举行剖析。

什么是结构生物学?打个譬喻:我们开一辆汽车,若是想知道为什么偏向盘向左打车会向左转、为什么挂档的时刻车有差异的偏向和马力,我们就要把车打开看内里的零件是什么样,这些零件是怎么毗邻和运转的。结构生物学,从某个意义上来说就是我们对生命体、对组成身体的卵白质和其他的分子内里的原子空间组成方式,和这些分子相互之间的位置关系的剖析。这些效果会辅助我们明了细胞怎么事情的,生命是怎么发生生长,形成林林总总生命的征象。

卵白质是组成人体的主要成分,在我们的身体中有十几万种。卵白质的基本组成单元是叫做氨基酸的有机分子。自然界有20种自然氨基酸,这些氨基酸之间可以通过肽键的方式毗邻成线性的多肽链。若是把每个氨基酸对比成一个小珠子的话,多肽链就像项链一样由差异的珠珠连成一条线。差异的多肽链中的氨基酸的种类和排列差异,形成一维的序列。由差异排列组合的珠珠连起来的多肽链在三维空间中折叠扭曲,最终形成具有三维空间结构的卵白质,具有特定的形状,这就是卵白质的结构。

上个世纪50年代一个科学家叫 Christian Anfinsen(1916年3月26日�1995年5月14日),通过实验发现珠珠在多肽链中的排列方式会让这根 “项链” 自觉折叠形成牢固的三维形状。他因此提出卵白质中氨基酸排列的一级序列决议卵白质的三级结构。他厥后由于发现这个原理而获得了诺贝尔化学奖。

美国科学家Christian Anfinsen因发现特氨基酸序列与生物活性构象之间的关联获1972年的诺贝尔化学奖。图为Anfinsen在实验室。图源:https://ihm.nlm.nih.gov/images/B01171

李海涛:人人好,我是清华大学医学院的李海涛。我的靠山是三大结构剖析手段之一的晶体学,我关注的科学问题是表观遗传。结构生物学的重心在生物学,我们最终的目的是用结构剖析手段解决生物学问题。人人所熟知的中心法则中,遗传信息解读首先是从DNA到RNA到卵白质的序列信息通报,最后特定的序列还要形成一个特定的结构,才气施展特定的功效。这内里一些纪律正是我们希望探索的科学问题。

说到结构生物学,王雄伟先生举了一个很好的例子,好比我们想知道汽车是怎么开的、怎么动的。人人知道DNA是遗传信息的存储者,从某种意义上讲就像一个图纸,不代表是一个执行者。结构生物学主要体贴的是怎么样把图纸酿成汽车、酿成大楼,光看图纸不会感受到汽车的便捷,也不会享受到建筑物的温暖。结构生物学关注的是很切合我们生涯现实的科学问题,是想领会遗传信息怎么变乐成能执行者的科学。

AlphaFold为什么比竞争对手更强?

鲁白:我简朴总结一下结构生物学的两个基本点:第一,王雄伟先生说的所谓的线性的氨基酸的排列组合,决议一个卵白质的空间结构;李海涛先生说的是,卵白质的结构决议了它的功效,也就是它能做什么。

我们问一下AI的专家,先问一下龚先生,这个CASP大赛为什么主要?这次DeepMind的团队,又做出了什么样的突破?

龚新颖:人人好,我是龚新颖,中国人民大学数学科学研究院教授,主要做卵白质结构展望和卵白质相互作用的展望。这次CASP的竞赛是国际卵白质结构展望竞赛,有19个国家的215个小组加入,用自己的方式从卵白质的氨基酸序列展望卵白质的三维结构,并跟实验学家剖析出来的谁人卵白质结构做对照。第三方中立的评估机构去评估你展望的这个结构和实验的结构之间的差异,并打分排序。这次的突破在于,这个竞赛从1994年最先到现在举行了14轮,这么多年全世界这么多科学家,包罗有诺贝尔奖得主、各个国家的院士加入,准确率提不上去,人人最先打鼓,这个问题能解决吗?人类是不是找不到唯一解?

效果,这次谷歌公司AlphaFold2突然一下子就比后面的人好了异常多,大部分结构剖析水平到达90分以上,可以替换实验剖析卵白质结构的水平。人人突然看到这个问题原来可以解决,数学方式、盘算方式能把这个问题破解掉。

AlphaFold2展望的结构(深蓝色)与实验验证的效果呈高度一致

鲁白:我再请青年科学家代季峰博士。代博士,你以为AlphaFold2算法内里有什么稀奇的地方?为什么它是第一名第二名跟它差的太远了。它在算法上面有什么特殊的地方?

代季峰:异常谢谢。我叫代季峰,来自于商汤科技研究院,是研究执行总监。我从做深度学习或者做机械学习的角度来跟人人注释一下。

首先需要说,AlphaFold现在并没有正式讲述或者正式揭晓的论文,我们现在的资料是DeepMind放在网上的博客以及加入竞赛的人录的一段视频、做的一个讲述。我们是基于有限的资料对它做一个剖析和判断。

谢谢生物学家们帮我们界说了一个很好的应用问题。从深度学习的角度来看,输入就是一段卵白质氨基酸的序列,输出是要知道这个序列经由种种生物学的历程,最后天生的卵白质、它的三维结构长什么样子。这在机械学习领域就成为一个数据集,我们结构生物学家已经剖析出来上万条氨基酸序列以及对应的三维结构,组成我们盘算机科学家的一个训练集。测试的时刻会在几十条、或者上百条还没有宣布三维结构的卵白质氨基酸序列上去看,从前人发现的上万条序列上学得的一个模子,面临新的序列的时刻,性能怎么样。

谷歌的这套系统行使了最近深度学习领域很好的模子希望,它基于 “变形金刚”(transformer)模子,这个模子基于“自然语言处置”(NLP)(把人说的一段话从英语翻译成中文、对自然语言整个文本的明了,等等)提出来的。而NLP生来就是处置序列模子的。这次AlphaFold2借助了最新的壮大模子,用了这个模子,而且异常好地将其修改加入处置氨基酸序列的领域知识,到达了很好的效果。这是深度学习手艺在主要领域一个异常乐成的应用,带来了一个详细的主要学科领域的大的提高。

-------------------------

UG环球ALLbet6.com

欢迎进入环球UG官网(UG环球):www.ugbet.us,环球UG官方网站:www.ugbet.net开放环球UG网址访问、环球UG会员注册、环球UG代理申请、环球UG电脑客户端、环球UG手机版下载等业务。

-------------------------

为什么比竞争对手做得好?这跟科研的普遍纪律一样,首先会有一些科研能力或者愿景异常好的人,他们很好地设计一个模子和算法,把最新的AI希望以及这个领域很主要的知识连系起来。另有很主要的一点,他们有很壮大的工程师的能力,他们作为一家公司能够调动比大学等更多的人力。

龚新颖:这次竞赛许多大牛公司都加入了,微软、腾讯、百度和华为等。谷歌这是第二次参赛了。他们做得这么好,内里另有它独到的手艺。他们的摘要中30个作者内里,许多都是各个领域的顶尖人物,不是只一个顶尖人物,有卷积神经网络的发明人,另有一些对卵白质结构明了很厉害的一些人。30个作者中19个是并列第一作者,而且这19小我私家都有自己的专长。另有很主要的一点,他们把我们能用到的生物信息,好比说氨基酸序列信息、结构信息、宏基因组的信息,整合在一起,这个能力一般人做不到。

鲁白:听上去他们方式学上或者从看法上、理论上,并没有什么稀奇创新的,只是说他们用的资源对照多,或者用的人对照牛,或者他们的工程能力对照强,落实的能力对照强,是这样吗?

代季峰:能够把这些做得很强就是异常难题的事。从创新的角度来看,许多时刻一个大突破所需要的理论和基础手艺。以AlphaGo为例,它所需要的强化学习手艺,是上个世纪八九十年代就已经在教科书了、到现在没有太多转变。还用到了深度学习,它是异常好地把二者连系起来,取得应用上的突破。并不是说非要突然一个很创新的理论才气做到这件事情,而是要把之前最好的突破,和以前没有人看到的方式连系起来。探索连系有异常多的可能性,需要异常有眼光的人以及工程执行能力,还要有足够多的资源,才气够找到两个特定的连系,做出突破。

AlphaFold是革命?革了结构生物学的命?

鲁白:有人说AlphaFold的泛起至少是结构生物学革命性的转变,不知道说的过不过分。

王雄伟:我不赞同这是革命的说法。我以为这可以说是一次跃迁,包罗手艺的跃迁和我们科学研究范式的一种跃迁。我自己是做冷冻电子显微学研究的,这也是结构生物的方式。卵白质结构展望包罗AlphaFold,这次是在结构生物学工具层面上的很主要的突破,但我不以为算一次真正的革命。许多看法、许多理念在前期有许多积累,这次AlphaFold2的乐成有它独到的地方,但还没有到革命的水平。

鲁白:AlphaFold2后面还会有AlphaFold3,AlphaFold4。这是第一次做的出乎人们意料的好。算不算结构生物学的一次革命,海涛你怎么看?

李海涛:我感受从手艺层面讲,可以算是一个突破。原来许多结构很难明、很难展望准确。现在通过人工智能手段实现,显然是一个突破,我认可这一点,也很喜悦看到这一突破,省了我们许多事。我们做结构生物学的,解完结构之后还要花很大功夫剖析结构,注释它的功效。若是盘算手段能让我们更快拿到想要的结构,那我们想做的事情能快许多,对卵白质功效的机理熟悉能深刻许多,从这个意义上AlphaFold泛起的革命性照样可以确立的。

从理论层面,AlphaFold只是提出问题,为什么能够乐成展望出来结构?这内里有着更深层的理论问题需要进一步探讨。这方面还没有真正突破,有许多纪律我们是不知道的,这像一个黑匣子:我们能运用黑匣子,黑匣子内部究竟是怎么样的?问题更多。

鲁白:我听好几位人工智能的专家说,你们结构生物学家,以后不需要再剖析结构了,就没啥事了。但你们确另有许多事情要做,另有许多问题没搞明了,不会失业的。我想听听做盘算的人士怎么看,这是不是带来一个革命性的突破?

龚新颖:我以为是革命性的器械,我刚最先学结构生物学,就被教育说氨基酸序列决议卵白质的结构,这是第二遗传密码,若是把这个密码找到,就是跟中心法则一样主要的器械。现在终于找到了,终于能解决了,这是第一。第二,一个很现实的问题,自然界有这么多卵白质序列。我们拿到的剖析出的结构,不到所有卵白质序列的千分之一。测卵白质序列很容易,剖析卵白质结构很难题。你测个一个卵白的序列,我就能算出它的结构。结构多了以后,对生命科学,对药物研发,都很有意义,能做的事情更多。第三,我们做数理的人发现,这个器械真能解决了,以前总是心里在打鼓,到底能不能行。现在解决了,我们以为这里是一个突破。

代季峰:在我看来,AlphaFold2应该算是应用层面的一个伟大的突破和创新,而不是理论层面。

王雄伟:第一,行使卵白质序列现在可以精准地把一些三维结构展望出来这件事情自己绝对是一个好事情。就像刚刚海涛讲到的,现在有了这样一个工具之后会让结构生物学的研究和发现变得加倍便利。研究者不需要花大量时间在剖析结构自己的实验历程中,而能把更多的精神和时间放在回覆生物学问题上,好比对功效、机理的展现和新的药物与治疗手段的研发方面。这样的新手艺对生物医药产业的生长尤其可能有异常大的辅助。

李海涛:鲁先生适才好几次说到失业或转业,我以为实在该换成一个词:“解放”。失业是痛苦的,转业是无奈的,解放是幸福的。AlphaFold让先生和同学们都解放了,我们不再受制于结构剖析的手段,能够很快的拿到这个结构之后真正探讨结构生物学的核心问题,这个太主要了。若是说我和学生的眼里因此含着泪水,含着的应该是喜悦的泪水、解放的泪水,我很欢心于这个新突破。

和普通人有什么关系?

鲁白:我还想问一个问题。这个事情跟我们今天晚上这么多的观众,跟他们有什么关系?这个事宜的发生,可以解决我们结构生物学中卵白质结构问题,在盘算机科学领域,也没有理论上或者方式学上的突破。这跟老百姓有什么关系?对未来的人工智能的生长,又有什么意义?

李海涛:“小” 的事物可能很主要。好比我们盖一幢大楼,这个大楼的基石虽然小,然则很主要,能撑起整个大厦。我十分信服科技的生长,现在人类对生命的熟悉已经深入到原子层面,从十亿到百亿分子一米尺度看生命,依然是大千世界。从这个角度讲,AlphaFold 加速了人们对生命的深刻明了和熟悉,可谓是基石性突破。人人想想基石有多主要――大厦的平安。考虑到生物大分子与人类康健与疾病的密切联系,人工智能在结构展望方面的突破一定对人类生涯的各个方面有着很大的影响。

龚新颖:这是我们人对智力追求的一种浏览,一种不停更高更快更强的追求。这是一个精神上的,主要是民众精神上的愉悦。它也有现实的意义,可能往后的药更廉价,到医院检查更快一点。

王雄伟:我以为这是异常有意思的话题。AlphaFold这次的显示确实很惊艳。实在上次的AlphaGo出来之后打败了围棋妙手,而厥后的AlphaZero更是下出了许多围棋大师们没有见过的战法,就体现泛起有的人工智能的能力施展到某种极致状态是可以突破我们人类认知极限的。我期待AlphaFold不管是2照样3,有一天它会展望或设计出来一个卵白质的结构,是我们人类尚未发现的,然后我们实验手段剖析出来跟它展望出来是一样的。这样的新结构若是另有特定的功效,它就是突破了我们科学家认知的极限。由于我们人类的认知是容易受到我们自己的履历的约束的,我希望人工智能辅助我们突破固有履历,辅助我们更好地熟悉自然界,探索宇宙。

鲁白:这个看法很有意思。那推而广之,我能不能更勇敢地畅想一下:AI能够设计出世界上不存在的全新的卵白,而卵白质是生命的基础,那是不是有一天,AI能够设计出新的物种,新的生命?

李海涛:我在想,适才代博士说的很好,用语言学习做比喻。我们有文字,文字组合是无限多的,现实上我们看到的文章是有限的,而且人人都读的懂。文字的排列有语法和纪律而且可以被人类所明了,这体现了语言对文字组合的约束,这种约束性是蛮主要的事情。人工智能之所以能够实现自然语言处置和学习,实在在有意无意的遵照和运用了这种约束。文字的排列组合空间很大,掌握了一门语言后,你想做诗照样想写散文,有许多事情值得去创意。在人工智能惊艳的时代,我们关注什么工具,研究什么序列,写什么样的文章,另有许多的精彩值得期待。

龚新颖:现在实在人工智能可以做一些新的设计,设计一些新的分子,只是由于盘算设计难以被实验证实,不像展望那么受关注。对我们学科,未来是去搞清楚人工智能的数学模子,基本的数学原理一直我们在关注的事。现在看到了这么做是可以到达好效果的,我们就可以死心塌地去挖掘内里的原理,原来我们不太敢。

代季峰:我对人工智能的展望是,现在这一代人工智能算法主要的特点是实现 “大数据、小义务” 领域里极大的乐成。好比说剖析一段基因,AlphaFold整个空间只有20多个氨基酸的可能性,照样界说异常完善的详细的义务,加上大量数据,这一代人工智能可以做的异常好,但没有理论上的原创性突破。AlphaFold2是异常好的例子。不知道有没有其他有意思的学科,你把主要的最基石性的问题界说成“大数据、小义务”这种类型。AI算法照样希望走向少量数据的情况下,以及义务不是那么详细的时刻,看看 “小数据、大义务” 的时刻事情的怎么样?现在这代算法剖析的是一种关联性,不善于剖析因果性以及做推理,这也是下一代算法需要解决的问题。

鲁白:再次谢谢今天几位专家。今天我们从小的结构生物学的问题,说到对生命科学,对药物研发,以及最后对我们AI自己和我们老百姓对人的智力有什么打击。这次AlphaFold事宜后,我们还会继续关注人工智能以及生命科学问题。北京智源和智识学研社,以及我们人工智能和生命科学专家,会继续通过这样的方式或者其他的方式举行交流,推动我们这个领域的生长,也给我们的社会带来福祉,谢谢人人!

关于智 平方论坛

智 平方论坛由智识学研社与智源社区提议,是一个面向民众的交流平台,将定期约请人工智能及相关交叉学科学者睁开对话与交流,以促进民众对于人工智能领域的领会。

智识学研社是由清华大学教授钱颖一、北京大学教授饶毅和中国科技大学教授潘建伟团结提议的非营利性社会组织,致力于流传科学知识,弘扬科学精神,从科技出发探索人类运气共同体,打造面向未来的开放平台,先容国内外前沿科技希望,在公共政策中提供科学家的专业判断,提出驱动未来的科技创新方案,辅助推进科学、手艺与创新,促进科学文化在中国逐步确立。智识学研社旗下的媒体包罗 “知识分子” 和 “赛先生”,是公认具有权威性、公信力和影响力的两大科学新媒体品牌。