研究人员开发了新的人工智能模型,可以大大提高蛋白质科学的准确性和发现能力。潜在地,这些模型将帮助医学科学克服当前的挑战,例如个性化医疗、药物发现和诊断。
随着人工智能工具的广泛应用,大多数技术和自然科学领域都在迅速发展。在生物技术领域尤其如此,人工智能模型推动了药物发现、精准医学、基因编辑、食品安全以及许多其他研究领域的突破。
其中一个子领域是蛋白质组学——对蛋白质的大规模研究——在数据库中收集大量的蛋白质数据,并与样本进行比较。这些数据库使科学家能够辨别出样品中存在哪些蛋白质,从而识别出微生物。它们使医生能够诊断疾病,监测治疗的有效性,或识别患者样本中存在的病原体。
尽管这些工具非常有用和有效,但它们的作用有限,DTU生物工程副教授、通讯作者Timothy Patrick Jenkins说:
“首先,没有数据库包含所有内容,所以您需要知道哪些数据库与您的特定需求相关。然后,深度搜索非常耗时,需要大量的计算机能力。最后,识别尚未注册的蛋白质几乎是不可能的。”
出于这个原因,一些团队研究了所谓的“从头排序算法”,随着数据库规模的增加,这种算法可以提高准确性,降低计算成本。不过,詹金斯和他来自荷兰理工大学、荷兰代尔夫特大学以及英国人工智能公司InstaDeep的同事们表示,他们的表现仍然“不尽如人意”。
超过最先进的
在《自然机器智能》杂志的一篇新论文中,他们提出了两种新的人工智能模型,以帮助研究人员、医疗从业者和商业实体在大量数据中准确地找到必要的信息。这些工具被称为InstaNovo和InstaNovo+,研究人员可以通过InstaDeep网站获得(见事实框)。
“综合来看,我们的模型超越了最先进的技术,比目前可用的工具精确得多。此外,正如我们在论文中所示,我们的模型并不针对特定的研究领域。相反,这些工具可以推动所有涉及蛋白质组学的领域取得重大进展,”InstaDeep的研究工程师、该论文的共同第一作者凯文·迈克尔·埃洛夫(Kevin Michael Eloff)说。
为了评估他们的模型的有效性,研究人员在主要感兴趣的领域内对他们进行了几个特定任务的训练和测试。
对下肢静脉性溃疡患者的伤口液进行了调查。众所周知,下肢静脉性溃疡很难治疗,而且往往会变成慢性溃疡,因此了解其中存在哪些微生物(如细菌)对治疗至关重要。这些模型可以绘制出比数据库搜索多10倍的序列,其中包括大肠杆菌和铜绿假单胞菌——后者是一种多重耐药细菌。
另一个用例是在细胞表面显示的小块蛋白质(称为肽)上进行的。这些有助于免疫系统识别感染和癌症等疾病。InstaNovo模型识别了数千种传统方法没有发现的新肽。在增强免疫系统的个体化癌症治疗(简称免疫疗法)中,这些肽都是潜在的攻击点。
“综合起来,我们对复杂情况下的模型进行了测试,例如,存在未知蛋白质,或者我们对所涉及的生物体没有事先的了解,表明它们适合显著提高我们的理解。”DTU生物工程助理教授Konstantinos Kalogeropoulos说:“这对生物医学来说是一个好兆头,因为它可以直接改善我们微生物组的识别,以及改善我们在个性化医学和癌症免疫学方面的努力。”
本文提供了另外六个案例,展示了这些模型如何改善治疗测序,发现新的肽,检测未报告的生物体,并显着增强蛋白质组学搜索。蒂莫西·帕特里克·詹金斯(Timothy Patrick Jenkins)说,他们的研究结果的含义远远超出了医学领域:
“从纯技术和科学的角度来看,有了这些工具,我们可以提高对整个生物世界的理解,不仅在医疗保健方面,而且在工业和学术界也是如此。在使用蛋白质组学的每个领域——无论是植物科学、兽医科学、工业生物技术、环境监测还是考古学——我们都可以深入了解迄今为止无法进入的蛋白质景观。”
什么是InstaNovo和InstaNovo+?
InstaNovo是一种基于转换器的模型,专为从头肽测序而设计。InstaDeep与丹麦技术大学(DTU)生物技术和生物医学系合作开发,它以前所未有的精度将质谱数据中的片段离子峰转化为肽序列。
与依赖于已有数据库的传统方法不同,InstaNovo可以识别以前从未记录过的肽,从而扩展了蛋白质组学发现的领域。
InstaNovo模型的一个关键创新是InstaNovo+,这是一种基于扩散的迭代优化模型,通过模仿研究人员如何手动优化肽预测来提高序列准确性。InstaNovo+从一个初始序列开始——要么是从InstaNovo衍生出来的,要么是随机生成的——然后一步一步地改进它。
当与InstaNovo配对时,InstaNovo+不仅通过改进预测,而且通过探索更广泛的潜在肽序列,显著降低了错误发现率(FDR)并提高了序列准确性。
与自回归模型(如InstaNovo和其他模型)每次预测一个氨基酸的肽序列不同,InstaNovo+整体处理整个序列,具有更高的准确性和更高的检出率。
InstaNovo和InstaNovo+共同增强了从头开始的肽测序,在准确性和探索性之间取得了平衡,以加速生物学发现。
转载请注明:可思数据 » 新的人工智能模型可能改变蛋白质科学和医疗保健领域的游戏规则
免责声明:本站来源的信息均由网友自主投稿和发布、编辑整理上传,或转载于第三方平台,对此类作品本站仅提供交流平台,不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本站联系,我们将及时更正、删除,谢谢。联系邮箱:elon368@sina.com