近日,亚马逊云科技宣布与加拿大不列颠哥伦比亚大学云创新中心(UBC CIC)达成合作,基于亚马逊云科技构建的超级计算平台,助力国际科学家团队在短短11天内搜索了近600万份公开可用的生物样本,成功识别出超过13万种新的RNA病毒,其中包括9种新型冠状病毒。
这一工作如果使用一台传统计算机则需要2000年才能完成。该项目实现了RNA病毒研究的又一创举,通过识别并溯源新型病毒,科学家们希望在病毒感染人、牲畜、农作物和濒危物种时,能够更早地识别出它们,帮助防范全球传染病大爆发。
在亚马逊云科技助力下,UBC CIC团队和全球计算病毒学家启动了The Open Virome(开放病毒组)项目,创建了开放的病毒发现云计算平台Serratus。目前,该研究成果已经发表在科学杂志《自然》上,同时还创建了公开的病毒数据库,向全球科学界分享研究成果,帮助加速对RNA病毒的研究。
RNA病毒引起的疾病包括普通感冒、流感、SARS、新冠肺炎、丙型肝炎、埃博拉、狂犬病、脊髓灰质炎和麻疹等。由于RNA病毒繁殖和进化速度快,其更容易感染新的宿主物种。如果基因组学研究人员能够提前预见和识别新冠肺炎病毒,将彻底改变当前全球疫情的状况。
基于亚马逊云科技的云服务所取得的研究成果,从根本上改变了生物信息学的研究方式。在此之前,科学家们经过几十年的数据分析,只发现了1.5万种病毒。在使用亚马逊云科技的基础架构和服务后,The Open Virome项目团队在发现新病毒方面已经为科学界节省了数百万美元和长达数年的时间。
病毒的识别和研究需要分析海量的基因测序数据,这其中就包括数十万种未知病毒的DNA和RNA。基因组学的数据量每天都在成倍地增长,造成病毒测序数据库的总量非常庞大,依靠传统计算方式根本无法对其进行全面分析或处理。The Open Virome项目负责人、计算病毒学家Artem Babaian认为,“预防未来大流行病的关键是知识。我们的数据量正在迅速超过处理能力,我们拥有所需的所有信息,但却不具备使用这些信息的工具。”
The Open Virome项目的研究人员仅用8周时间,顺利地在亚马逊云科技上构建了功能强大的超级计算平台。借助亚马逊云科技卓越的弹性计算能力,他们能够快速处理数百万GB的数据,并且获得了显著的成本效益。
该团队在亚马逊云科技Amazon Simple Storage Service(Amazon S3)中镜像了病毒基因测序数据库SRA,之后使用亚马逊云科技弹性计算云实例Amazon Elastic Compute Cloud (Amazon EC2)来分析数据集。项目组的目标是为处理每个测序数据集支付不到1美分,在项目完成时全面超越了这个目标,实际每个测序数据集支付不到半美分。
在短短11天内,该团队就处理了高达570万个测序数据集,并且仅仅花费了2.4万美元,发现了13万个新的RNA病毒。通过基于亚马逊云科技搭建的Serratus平台,研究人员相信他们既能识别潜在的有害新病毒,又能提醒科学家注意导致新冠肺炎病毒SARS-CoV-2 virus的潜在突变,帮助改善诊断测试和疫苗开发,为医疗政策决策者提供更有效的指导。
医疗和生命科学行业是亚马逊云科技的优势领域之一,通过在基因组学研究中应用云计算,赋能客户将更多的时间和资源用于科研,帮助加速获得洞见,更快地进行突破性研究和产品上市。
亚马逊云科技强大的计算和机器学习服务确保科学家可以快速地执行工作负载优势,近乎无限的计算能力且灵活的定价能够带来非常高的性价比,同时遍布全球的基础设施和统一的架构,以及托管的40 多个开放的生命科学和基因组数据集,能够确保实现全球范围内开展安全的研究协作。
推荐阅读: