“英特尔创新大师杯”冷冻电镜蛋白质结构建模大赛
【大赛专题页】“英特尔创新大师杯”冷冻电镜蛋白质结构建模大赛
【大赛赛题解读与攻略】大赛赛题解读和攻略
背景介绍
蛋白质的空间结构是结构生物学的关键研究对象,其对于理解蛋白质功能以及相关生物学过程的工作机理有非常重要的意义。准确的蛋白质结构原子模型不仅能够帮助研究者在理论上理解生命活动的内在原理,同时也能为药物研发等诸多工程实践提供指导。
目前解析蛋白质结构的主流方法有x射线晶体学(x-ray crystallography)、核磁共振波谱法(nuclear magnetic resonance spectroscopy)和冷冻电镜方法(cryo-electron microscopy),其中前两者具有长时间的实践积累和成熟的工作流程以及较为严苛的使用条件。今年来随着软硬件方面的突破,冷冻电镜方法,尤其是冷冻电镜单颗粒分析(single-particle cryo-EM)以其易用性和对生物样品相对宽松的要求逐渐成为获取蛋白质结构,尤其是生物大分子复合体结构的首选方案。在冷冻电镜单颗粒结构解析中,蛋白质被速冻在玻璃态的冰层里,电镜产生的电子束与其发生相互作用后被直接电子探测器捕捉,生成大量二维投影图像,之后利用专业软件重构出蛋白质的电势能分布,再基于电势能分布搭建出蛋白质的原子模型。获取蛋白质电势能分布目前已经有较为成熟的软件来完成,而从电势能分布获取原子模型则主要还是由研究人员手动操作,虽然有各种辅助软件可以利用,但是出于对准确度的要求,此项工作仍旧是整个工作流程中比较繁琐且主观性较强的环节。
枚举每一种蛋白质可能存在的结构,需要花费大量的时间。最近,在强大的算法与算力的支持下,DeepMind将运算时间从数月缩短至了数小时。AI生物学带来了极致的效率革命,这对于人类攻克癌症等疑难杂症有着划时代的意义。
要在数据洪流的时代实现重大的科学突破、分析基因组数据,应用于药物研发、疾病检测、个性化治疗,依赖于高效便捷的大数据分析技术和强大的计算平台支持。蛋白质破解的事件是一个标志,在生命科学领域取得突破性进展还需要高效的HPC系统和强大的算力,分析计算复杂、散点化、非结构化的生物医学大数据。
本次大赛将基于阿里云弹性高性能计算(Elastic High Performance Computing,E-HPC)进行。阿里云E-HPC平台,基于阿里云基础设施,可灵活生产基于任何ECS实例构成的HPC集群,满足不同应用特征的性价比要求。阿里云E-HPC主要面向教育科研、企事业单位和个人,提供快捷、弹性、安全的一站式公共云HPC服务。计算实例基于第三代英特尔®至强®可扩展处理器(CooperLake),通过高效、面向未来的服务器基础设施提供卓越的性能和灵活性,推动新的业务突破和科学发现。英特尔®深度学习加速和增强型英特尔®AVX-512等内置优势提供了人工智能和HPC的融合以及工作负载性能。同时运用基于第三代英特尔®至强®可扩展处理器(IceLake)的Software Guard Expressions技术,通过内存中独立于操作系统或硬件配置的应用程序隔断,提供细粒度的数据保护。
本次大赛意在探索基于大数据训练的人工智能方法在由电势能分布获取蛋白质原子模型方面的潜力。
赛程安排
本次大赛分为初赛、复赛和决赛三个阶段,具体安排和要求如下:
报名与实名认证(即日起—2021年9月28日,UTC+8)
1、报名方式:用淘宝或阿里云账号登录比赛官网,完成个人信息注册,即可报名参赛;
2、参赛队伍1-5人组队参赛;
3、确保报名信息准确有效,否则会被取消参赛资格及激励;
4、选手报名、组队变更等操作截止时间为9月28日中午10点;
5、各队伍(包括队长及全体队伍成员)需要在9月28日中午10点前完成实名认证(认证入口:天池官网-右上角个人中心-认证-支付宝实名认证),未完成认证的参赛团队将无法进行后续的比赛;
6、大赛官方交流请至技术圈,选手交流钉钉群(32026251)扫描以下二维码:
enter image description here
初赛(2021年8月16日-2021年9月29日,UTC+8)
初赛测试数据不可下载,采用docker镜像的提交方式,容器镜像提交说明后续公布。由选手提交打包好的代码镜像来运行得出搭建结果,并对时间复杂度有限制。第一次接触docker可直达教程(链接)。
初赛系统每天提供2次评测机会,评测时间为当天10:00、18:00。系统将按照评测指标从高到低进行排序,每小时更新排行榜, 排行榜将根据参赛队伍在本阶段的历史最优成绩进行排名展示。
初赛截至提交时间为9月29日18:00,初赛阶段未产出成绩队伍和未按要求完成实名认证队伍,将被取消参赛资格。(实名认证入口:天池网站-个人中心-认证-支付宝实名认证)。
初赛结束,成绩TOP50团队提交代码审核,规范详见“代码规范”文档,代码提交截止时间10月10日10:00。通过代码审核且通过实名认证的排名前50名的参赛队伍将进入复赛。
复赛(2021年10月11日—2021年11月11日,UTC+8)
复赛阶段可以使用初赛的数据和预训练模型。
复赛阶段的训练和测试数据均不可下载,采用docker镜像的提交方式,容器镜像提交说明请参考:(链接)。
复赛阶段系统每天提供2次评测,排行榜最后一次更新时间为11月11日24时。
本次大赛为所有的参赛队伍提供基于Intel Xeon Platinum处理器的高性能计算集群。
复赛结束,组委会将对排行榜TOP12参赛队伍进行最优提交成绩的模型和完整代码审核(包含数据处理和模型训练),要求能复现榜单最优成绩,不接受随机成绩。
审核通过的前8名参赛队伍晋级决赛,受邀参加线下答辩。
决赛答辩(11月下旬)
入围决赛答辩材料为ppt形式(中英文都可),包括但不限于参赛总结、算法核心和创新等内容,PPT页数不少于6页;选手需在规定时间之前提交答辩PPT及其他材料(如有)。
竞赛最终得分将由复赛成绩、决赛答辩成绩加权得出,评分权重:复赛成绩占60%,决赛答辩成绩占40%。
决赛日还将举办新药研发相关领域论坛,将邀请相关领域的专家、教授、参赛团队一起研讨新药研发计算创新课题。
参赛对象
大赛面向全社会开放,个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛,组队上限5人。
大赛组织机构单位中涉及题目编写、数据接触的人员禁止参赛。
大赛鼓励企业参赛,代表企业参赛并进入复赛的团队,将会获得后续研讨会参会邀请,享有大赛独家报道机会,并有机会发展为阿里云相关业务合作伙伴。
奖项设置
冠军:1支队伍,奖金 90000元人民币;
亚军:2支队伍,奖金 60000元人民币;
季军:2支队伍,奖金 20000元人民币;
冷冻电镜优胜奖,3支队伍,奖金10000元人民币
(上述奖项以决赛的最终得分排名决定;冷冻电镜优胜奖用于奖励使用冷冻电镜图片产生算法结果并取得突破创新的队伍,在复赛代码审核TOP 8队伍经由代码审核、论文评审之后生产,可与冠亚季名额兼得);
鼓励奖:以9月28日18点排名结果为准,初赛排名前30的队伍,每队可获得精美钢笔套装一套。
参与奖:9月24日前提交排行榜,并成功出分(非0分)的队伍,将获得大赛限量版纪念T恤一件,每队获得一件。
分享奖:9月24日前,报名比赛并在论坛发布提分攻略(含Baseline分享),关联到本比赛的队伍,每队获得比赛纪念雨伞一把。
大赛组织
主办单位:阿里云计算有限公司、英特尔(中国)有限公司
指导单位:国家蛋白质科学中心(上海)
承办单位:阿里云高性能计算、阿里巴巴达摩院、阿里云天池平台