Hive和Spark究竟是凭借什么优势而大获成功？

Hive和Spark凭借其在处理大规模数据方面的优势大获成功，换句话说，它们是做分析的。本文重点阐述这两种产品的发展史和各种特性，通过对其能力的比较，来说明这两个产品能够解决的各类复杂数据处理问题。

什么是Hive?

Hive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库，用于查询和分析大数据。数据以表格的形式存储(就像关系数据库管理系统一样)。数据操作可以使用名为HiveQL的SQL接口来执行。Hive在Hadoop之上引入了SQL功能，使其成为一个水平可扩展的数据库，是DWH环境的绝佳选择。

Hive发展史掠影

Hive(即后来的Apache)最初是由Facebook开发的，开发人员发现他们的数据在几天内出现了从GBs到TBs的指数级增长。当时，Facebook使用Python将数据加载到RDBMS数据库中。因为RDBMS数据库只能垂直伸缩，很快就面临着性能和伸缩性问题。他们需要一个可以水平伸缩并处理大量数据的数据库。Hadoop在当时已经很流行了;不久之后，构建在Hadoop之上的Hive出现了。Hive与RDBMS数据库类似，但不是完整的RDBMS。

为什么选择Hive?

选择Hive的核心原因是它是运行在Hadoop上的SQL接口。此外，它还降低了MapReduce框架的复杂性。Hive帮助企业在HDFS上执行大规模数据分析，使其成为一个水平可伸缩的数据库。它的SQL接口HiveQL使具有RDBMS背景的开发人员能够构建和开发性能、使拓展的数据仓库类型框架。

Hive特性和功能

Hive具有企业级的特性和功能，可以帮助企业构建高效的高端数据仓库解决方案。

其中一些特性包括：

Hive使用Hadoop作为存储引擎，仅在HDF上运行。专门为数据仓库操作而构建的，不适用于OLTP或OLAP。 HiveQL作为SQL引擎，能够帮助为数据仓库类型操作构建复杂的SQL查询。Hive可以与其他分布式数据库(如HBase)和NoSQL数据库(如Cassandra)集成。

Hive结构

Hive架构非常简单。它有一个Hive接口，并使用HDFS跨多个服务器存储数据，用于分布式数据处理。

用于数据仓库系统的Hive

Hive是专为数据仓库操作构建的数据库，尤其是那些处理万亿字节或千兆字节数据的数据库。与RDBMS的数据库类似，但不完全相同。如前所述，它是一个水平扩展的数据库，并利用了Hadoop的功能，使其成为一个快速执行的高规模数据库。它可以在数千个节点上运行，并且可以利用商用硬件。这使得Hive成为一款具有高性能和可扩展性的高性价比产品。

Hive集成功能

由于支持ANSI SQL标准，Hive可以与HBase和Cassandra.等数据库集成。这些工具对SQL的支持有限，可以帮助应用程序对更大的数据集执行分析和报告。Hive还可以与Spark、Kafka和Flume等数据流工具集成。

Hive的局限性

Hive是一个纯数据仓库数据库，以表的形式存储数据。因此，它只能处理使用SQL查询读写的结构化数据，不能用于非结构化数据。此外，Hive也不适合OLTP或OLAP操作。

什么是Spark?

Spark是一个分布式大数据框架，帮助提取和处理大量RDD格式的数据，以便进行分析。简而言之，它不是一个数据库，而是一个框架，可以使用RDD(弹性分布式数据)方法从数据存储区(如Hive、Hadoop和HBase)访问外部分布式数据集。由于Spark在内存中执行复杂的分析，所以运行十分迅速。

什么是Spark Streaming?

Spark Streaming是Spark的一个扩展，它可以从Web源实时流式传输实时数据，以创建各种分析。尽管有其他工具，如Kafka和Flume可以做到这一点，但Spark成为一个很好的选择，执行真正复杂的数据分析是必要的。Spark有自己的SQL引擎，与Kafka和Flume集成时运行良好。

Spark发展史掠影

Spark是作为MapReduce的替代方案而提出的，MapReduce是一种缓慢且资源密集型的编程模型。因为Spark对内存中的数据进行分析，所以不必依赖磁盘空间或使用网络带宽。

为什么选择Spark?

Spark的核心优势在于它能够执行复杂的内存分析和高达千兆字节的数据流大小，使其比MapReduce更高效、更快。Spark可以从Hadoop上运行的任何数据存储中提取数据，并在内存中并行执行复杂的分析。此功能减少了磁盘输入/输出和网络争用，将其速度提高了十倍甚至一百倍。另外，Spark中的数据分析框架还可以使用Java、Scala、Python、R甚至是SQL来构建。

Spark架构

Spark体系结构可以根据需求而变化。通常，Spark体系结构包括Spark流、Spark SQL、机器学习库、图形处理、Spark核心引擎和数据存储(如HDFS、MongoDB和Cassandra)。