说到AlphaGo,一般人都或多或少听说过,它因击败了人类围棋大师被誉为“世界壮举”,标志着人类向通用型的人工智能迈出了具有里程碑意义的重要一步。
而如今在前沿科学研究中的AlphaFold2模型则是人工智能(AI)应用的另外一个标志,它因展现出AI for Science的巨大潜力,而受到了各界人士的青睐。
AlphaFold2助蛋白质结构预测,树AI for Science新高度
蛋白质是组成人体细胞组织的重要成分,对蛋白质三维结构开展有效解析与预测,可为生物学、医学、药学乃至农业、畜牧业等行业未来研究与发展提供重要依据,尤其对与人类健康直接相关的药物研发意义重大。
然而,用X光、冷冻电镜、核磁共振等传统方法对蛋白质结构进行解析,远赶不上氨基酸序列的增加速度,这会造成海量待测样品在实验室中等待数月乃至数年。国际权威数据库SWISS-PROT显示,目前累计的蛋白序列的信息已经超过56万,用传统方法去完成这浩瀚繁多的测序无疑成为“不可能完成的任务”,须另辟蹊径。
科技创新的车轮滚滚向前。如前文所述,人工智能的发展为蛋白质测序效率带来了契机。其中AlphaFold2模型让人工智能在生物医药领域发挥着重要的作用。
一般来说,人工智能方法的预测精度超过90分,便可认为预测结果与实验方法得到的蛋白质结构基本一致。而AlphaFold2的92.4分,其不仅可以分析X-射线晶体学很难解决的楔入细胞膜中的蛋白质结构,还成功解开了蛋白质折叠问题,甚至可以帮助研究者们制造自然界中不存在的蛋白质。
AlphaFold2带来的这些重大突破,标志着AI辅助药物基础理论研究进入新的阶段,树立了AI for Science新高度。
比如,目前全球设计的几乎所有的药物都作用于蛋白质,通俗讲,需要像钥匙开锁般精确匹配,而此过程的第一步是确定哪把钥匙开哪把锁,用更专业的话说,就是寻找药物靶标,即弄清楚药物分子作用与何种蛋白结合。而通过可解码蛋白质结构的人工智能算法,就可快速筛选成千上万的新药物靶标,从而大大缩短新药研制周期;而制造自然界中并不存在的蛋白质,无疑可以更好帮助人类以前所未有的方式应对重大挑战。
端到端优化AlphaFold2,让人工智能更普适济民
AlphaFold2为蛋白质结构解析与预测提供了通途,为人工智能在生物医药等领域的应用打开了新的窗口,然而随其在产、学、研各细分领域中的落地,也遇到严峻挑战。例如,随各种应用对于推理高通量和高性能的需求与日剧增,使用者需要更加充分地挖掘平台计算潜力,来提升执行效率。
所谓高通量测序技术,也被称为革命性的蛋白质测序方法,也是“十四五”时期生物经济领域重点推进创新应用的一项关键技术,简单讲就是一次并行对大量核酸分子进行平行序列测定的技术,但实施一次测序就能产出不低于100Mb的数据,这巨大的数据量给AlphaFold2的应用带来很大困扰。
原来,AlphaFold2刚问世时由于算法和硬件架构本身等问题,如GPU的并行计算,但是这类硬件存在严重的内存限制,使得即便是使用单卡最大内存,能够输入去预测的蛋白质序列长度也不足1000氨基酸。
这一软件级调优,经先在预处理阶段对模型进行高通量优化,然后将模型迁移到PyTorch框架,接着再在PyTorch版本上进行细节上的推理优化,最后给予TB级内存支持,即可实现更优的加速效果。
经由上述对AlphaFold2实施的端到端优化,对于一个含有765氨基酸的蛋白质测试样例,采用CPU 64个物理核并发模式,支持了最高3.2TB的内存消耗,测试通量从未经任何优化的4.56序列/天提升105.35序列/天,效率提升达23.11倍;且如果在单节点上配备最高8TB内存,就可以支持完成高于10000氨基酸序列长度下蛋白结构的预测,为人工智能在药物研发等领域的广泛应用展现了无限可能。
在国际学术期刊《Science》联合英特尔推出的《架构师成长计划》课程中,晶泰科技的首席研发专家杨明俊博士这样谈到:“以AlphaFold2为代表的研究成果,被认为是开拓了科学研究的第四范式,就是基于大量的数据,然后采用以深度神经网络为代表的模型,给出对问题的一个解答。蛋白质结构预测曾经被认为是不可能完成的一件事情,如今被AI算法实现,这标志着AI在生物医药领域的进展迈入了一个全新的领域和阶段。”
《“十四五”生物经济发展规划》明确把加快发展高通量基因测序技术,作为开展前沿生物技术创新的重要手段;支持采用人工智能等信息技术,实现药物产业的精准化研制,进而通过生物技术与信息技术融合更好惠民。
相信在这一进程中,英特尔的架构优势也能物尽其用,其软硬兼施对AlphaFold2生物信息测序效率实现端到端优化,并使其具备更高适用性的生动实践,展现了人工智能与科学研究的相互融合,并为人类在前沿科学领域的未来发展带来了广阔的想象空间。通过不断地范式创新成果树立新的“AI for Science”里程碑,以创造更美好的未来!
AI for Science:科学智能,用AI去学习科学原理,得到模型,进而去解决实际问题。
AlphaGo:阿尔法围棋,是DeepMind公司的一个人工智能程序。
AlphaFold2:DeepMind公司的另一人工智能程序,用于蛋白质结构预测。
AI:人工智能。
GPU:图形处理器,是一种专门做图像和图形相关运算工作的微处理器。
CPU:中央处理器,计算机系统的运算和控制核心。
AVX-512:英特尔高级矢量扩展512,是一组能够针对各种工作负载和用途(如科学模拟、深度学习、3D建模与分析等)提高性能的指令。
oneAPI:一套完整的高级编译器、库以及移植、分析和调试器工具,其利用先进的硬件功能加速计算,可与现有的编程模型和代码库互操作。
PyTorch:是一个开源的Python(计算机编程语言)机器学习库。
图文及数据来源:英特尔(中国)有限公司