Apache Hadoop 3.0.0 GA版本发布,Java版本最低要求增加到Java8

前言：

文章主要介绍的是这次更新的日志，可能会觉得枯燥，快速看看黑色加粗的标题了解下就行，如果想获得官方的说明，在文章评论里可以直接查看到链接，不用在去搜索(文章中不让发链接，你们懂的)

最低要求Java版本从Java 7增加到Java 8

所有Hadoop罐子现在编译目标运行时版本的Java 8。用户仍然使用Java 7或低于必须升级到Java 8。

支持在HDFS中擦除编码

擦除编码是一个持久地存储数据的方法,节省空间与复制相比。标准编码Reed-Solomon(10,4)有一个1.4倍空间开销,3 x的开销相比标准HDFS复制。
自擦除编码征收额外的开销在重建和执行主要远程读取,它一直被用来储存,经常被访问的数据。用户应该考虑网络和CPU开销的擦除编码时部署这个特性。

时间轴服务

提高时间轴服务的可伸缩性和可靠性和可用性通过引入流和聚合。
便用户和开发人员提供测试和提供反馈建议使其成为替代时间轴服务做好了准备。它应该只用于测试能力。

Shell脚本重写

Hadoop shell脚本重写许多长期存在的bug修复和包括一些新特性。而眼睛一直保持兼容性,一些变化可能破坏现有设施。

阴影客户机

jar的hadoop-clientMaven工件可在2. x版本将Hadoop的传递依赖到Hadoop应用程序的类路径中。这可能是有问题的,如果这些传递的版本依赖与应用程序所使用的版本冲突。
hadoop - 11804添加新hadoop-client-api和hadoop-client-runtime工件阴影Hadoop的依赖变成一个单独的jar。这避免了漏Hadoop的依赖关系到应用程序的类路径中。

对投机取巧的容器和分布式调度的支持。

投机取巧的概念ExecutionType介绍了,应用程序现在可以申请和执行类型的容器吗机会主义的。这种类型的容器可以派遣执行在一个海里即使没有可用资源目前的调度。在这种情况下,这些容器将在海里,排队等待资源开始。投机取巧的优先级低于默认的容器保证容器,因此抢占,如果需要,为保证容器腾出空间。这应该提高集群利用率。
投机取巧的容器在默认情况下分配由中央RM,但支持也被添加到允许机会分配容器的分布式调度程序是作为AMRMProtocol拦截器实现的。

MapReduce任务级别的本地优化

MapReduce增加了支持的本地实现地图输出收集器。 shuffle-intensive的工作,这可能会导致性能提高30更多。

支持超过2 namenode。

HDFS NameNode的初始实现高可用性提供了一个活跃的NameNode和一个备用NameNode。通过复制编辑三JournalNodes法定人数,这个架构能够容忍系统中的任何一个节点的失败。
然而,一些部署要求更高的容错度。这是通过这个新功能,允许用户运行多个备用namenode。例如,通过配置三namenode和五JournalNodes,集群能够容忍失败的两个节点,而不是只有一个的HDFS高可用性的文档已经更新,说明如何配置两个以上的namenode。
默认端口的多个服务已经改变了。
以前,多个Hadoop服务的默认端口是在Linux临时端口范围(32768 - 61000)。这意味着在启动、服务有时会无法绑定到端口由于与另一个应用程序冲突。
这些冲突的港口已经搬出去的短暂的范围,影响NameNode,二级NameNode,DataNode,公里。

支持微软Azure湖和王坚对象存储系统的数据文件系统连接器

Hadoop现在支持数据集成与微软Azure湖和王坚对象存储系统作为替代Hadoop-compatible文件系统。

Intra-datanode均衡器

一个DataNode管理多个磁盘。在正常的写操作,磁盘会填满均匀。然而,添加或替换磁盘可能导致重大DataNode内斜。这种情况并不是由现有的HDFS均衡器,关注国际米兰-,不是内部,DN倾斜。这种情况是由新intra-DataNode平衡功能,这是通过调用hdfs diskbalancerCLI。看中的磁盘均衡器部分HDFS命令指导为更多的信息。