Spark在基因组数据分析应用中大有可为

科学研究人员需要强大的大数据架构来应对挖掘和分析基因组数据的挑战，有人说Apache Spark引擎非常适合这项工作。

当提及面临大数据分析挑战的组织时，我们通常会想到 Facebook，Netflix和Google等网络公司。当然很多在线零售商也可以访问巨大的点击流和客户数据。进行基因组数据分析的科学研究实验室可能并非被人熟知，但它在大数据中发挥着越来越重要的作用。

基因组数据包含关于人或动物基因组及其含有的DNA的信息，这促使研究人员挖掘并分析所有的数据，以思考新的数据架构。有些人发现Apache Spark处理引擎和其他大型数据技术非常适合他们的工作。

第一个人类基因组大约花了10年时间测序，花费将近30亿美元。但是，随着可用方法的改进，DNA测序的时间和成本都急剧下降。如今，基因组数据分析已经成为科学研究的重点，其中大部分工作旨在寻找治疗疾病的新方法。在这种努力的帮助下，根据患者的特定遗传特征量身定制的一些治疗方法已经可用于一些疾病的临床治疗，如癌症，心脏病和糖尿病。

但所有的基因组研究活动都创造巨大的数据紧缩。在《PLOS Biology》杂志上发表的2015年研究论文提到，未来十年生产的基因组数据量将超过天文学相关组织以及YouTube和Twitter两者所产生的数据量。

对数据分析速度的明确需求

“如此之多的数据涌入，需要创新计算才能保持目前生物医药研究的步伐”，麻省理工学院和哈佛大学在2004年成立的Broad Institute的一名高级软件工程师Cotton Seed说道。

对于Seed来说，Spark已经有很多创新。他曾在波士顿的2017Spark峰会上谈及他和他的团队在Spark上建立了一个基因组研究平台，利用该技术的SQL查询功能和机器学习算法库，可以加快数据挖掘和分析过程。

广泛研究目前正在开展项目，以绘制与某些类型的癌症相关的遗传特征和生活在人体内的微生物的遗传构成等。Seed表示，Spark在这些努力中可以发挥一定的作用，因为它可以连接到不同的数据存储，并让研究人员用不同的查询语言(SQL，Python或Scala)进行交互。“当他们撰写研究文章时，研究人员能够尽可能接近生物学语言，如何表达很重要，”他说。

位于加州伯克利的劳伦斯伯克利国家实验室的计算生物学家和基因组学研究员王先生表示，Spark处理大数据量的速度及其可扩展性也使得该平台对基因组数据分析和数据挖掘使用具有吸引力。

王先生所在的研究小组负责研究动物肠内微生物之间的遗传水平相互作用。这些研究产生了太多的数据，所以团队使用Spark和机器学习算法来解析数据并识别有意义的相关性。

Spark增加了更多的处理能力

在采用Spark之前，王先生和他的同事在2009年部署了一个六台服务器的Hadoop集群，使用Apache Pig脚本和分析平台进行分析。但是处理时间很慢。此外，研究人员正在尝试构建基于图的算法，这与基于MapReduce的编程环境(如Pig)并不十分兼容。

几年之后，该团队针对存储在亚马逊EMR中的数据进行了转换，该数据库是Amazon Web Services中以前称为Elastic MapReduce的基于云的Hadoop发行版。王先生表示，即使通过平台移动的数据量不断增加，Spark系统的处理时间有所改善。

像Seed一样，王先生表示，在各种容易学习的语言中为Spark编写应用程序的能力是一个加分项。这意味着像他这样的研究人员可以做基因组数据分析项目所需的大部分开发工作，而不必依靠数据工程师或数据科学家。“我没有接受过计算机科学家的培训，但是我可以编写Scala和Python Spark应用程序，”王先生说，“这样可以避免再聘请一位昂贵的工程师。”