大数据两大核心技术是什么

大数据的两大核心技术是：1、Hadoop，是一个由Apache基金会所开发的分布式系统基础架构；2、Spark，是专为大规模数据处理而设计的快速通用的计算引擎。

本教程操作环境：windows10系统、Dell G3电脑。

大数据的两大核心技术分别是：Hadoop和Spark。

Hadoop是什么?

Hadoop在2006年开始成为雅虎项目，随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构，具有多个组件：Hadoop分布式文件系统(HDFS)，它将文件以Hadoop本机格式存储并在集群中并行化; YARN，协调应用程序运行时的调度程序; MapReduce，这是实际并行处理数据的算法。Hadoop使用Java编程语言构建，其上的应用程序也可以使用其他语言编写。通过一个Thrift客户端，用户可以编写MapReduce或者Python代码。

除了这些基本组件外，Hadoop还包括Sqoop，它将关系数据移入HDFS; Hive，一种类似SQL的接口，允许用户在HDFS上运行查询; Mahout，机器学习。除了将HDFS用于文件存储之外，Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。

它可以通过Apache发行版开源，也可以通过Cloudera(规模和范围最大的Hadoop供应商)，MapR或HortonWorks等厂商提供。

Spark是什么?

Spark是一个较新的项目，在2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目，专注于在集群中并行处理数据，一大区别在于它在内存中运行。

类似于Hadoop读取和写入文件到HDFS的概念，Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行，Hadoop集群可用作数据源，也可与Mesos一起运行。在后一种情况下，Mesos主站将取代Spark主站或YARN以进行调度。

Spark是围绕Spark Core构建的，Spark Core是驱动调度，优化和RDD抽象的引擎，并将Spark连接到正确的文件系统(HDFS，S3，RDBM或Elasticsearch)。Spark Core上还运行了几个库，包括Spark SQL，允许用户在分布式数据集上运行类似SQL的命令，用于机器学习的MLLib，用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。

Spark有几个API。原始界面是用Scala编写的，并且由于大量数据科学家的使用，还添加了Python和R接口。Java是编写Spark作业的另一种选择。

Databricks是由Spark创始人Matei Zaharia创立的公司，现在负责 Spark开发并为客户提供Spark分销。

以上就是大数据两大核心技术是什么的详细内容，更多请关注易知道|edz.cc其它相关文章！