Apache Hadoop 3.0.0 GA版本发布,Java版本最低要求增加到Java8-3ga文件怎么打开

Apache Hadoop 3.0.0 GA版本发布,Java版本最低要求增加到Java8-3ga文件怎么打开

Apache Hadoop 3.0.0 GA版本发布,Java版本最低要求增加到Java8

前言:

文章主要介绍的是这次更新的日志,可能会觉得枯燥,快速看看黑色加粗的标题了解下就行,如果想获得官方的说明,在文章评论里可以直接查看到链接,不用在去搜索(文章中不让发链接,你们懂的)

最低要求Java版本从Java 7增加到Java 8

所有Hadoop罐子现在编译目标运行时版本的Java 8。 用户仍然使用Java 7或低于必须升级到Java 8。

支持在HDFS中擦除编码

  • 擦除编码是一个持久地存储数据的方法,节省空间与复制相比。 标准编码Reed-Solomon(10,4)有一个1.4倍空间开销,3 x的开销相比标准HDFS复制。

  • 自擦除编码征收额外的开销在重建和执行主要远程读取,它一直被用来储存,经常被访问的数据。 用户应该考虑网络和CPU开销的擦除编码时部署这个特性。

时间轴服务

  • 提高时间轴服务的可伸缩性和可靠性和可用性通过引入流和聚合。

  • 便用户和开发人员提供测试和提供反馈建议使其成为替代时间轴服务做好了准备。 它应该只用于测试能力。

Shell脚本重写

Hadoop shell脚本重写许多长期存在的bug修复和包括一些新特性。 而眼睛一直保持兼容性,一些变化可能破坏现有设施。

阴影客户机

  • jar的hadoop-clientMaven工件可在2. x版本将Hadoop的传递依赖到Hadoop应用程序的类路径中。 这可能是有问题的,如果这些传递的版本依赖与应用程序所使用的版本冲突。

  • hadoop - 11804添加新hadoop-client-api和hadoop-client-runtime工件阴影Hadoop的依赖变成一个单独的jar。 这避免了漏Hadoop的依赖关系到应用程序的类路径中。

对投机取巧的容器和分布式调度的支持。

  • 投机取巧的概念ExecutionType介绍了,应用程序现在可以申请和执行类型的容器吗机会主义的。 这种类型的容器可以派遣执行在一个海里即使没有可用资源目前的调度。 在这种情况下,这些容器将在海里,排队等待资源开始。 投机取巧的优先级低于默认的容器保证容器,因此抢占,如果需要,为保证容器腾出空间。 这应该提高集群利用率。

  • 投机取巧的容器在默认情况下分配由中央RM,但支持也被添加到允许机会分配容器的分布式调度程序是作为AMRMProtocol拦截器实现的。

MapReduce任务级别的本地优化

MapReduce增加了支持的本地实现地图输出收集器。 shuffle-intensive的工作,这可能会导致性能提高30更多。

支持超过2 namenode。

  • HDFS NameNode的初始实现高可用性提供了一个活跃的NameNode和一个备用NameNode。 通过复制编辑三JournalNodes法定人数,这个架构能够容忍系统中的任何一个节点的失败。

    然而,一些部署要求更高的容错度。 这是通过这个新功能,允许用户运行多个备用namenode。 例如,通过配置三namenode和五JournalNodes,集群能够容忍失败的两个节点,而不是只有一个的HDFS高可用性的文档已经更新,说明如何配置两个以上的namenode。

  • 默认端口的多个服务已经改变了。

    以前,多个Hadoop服务的默认端口是在Linux临时端口范围(32768 - 61000)。 这意味着在启动、服务有时会无法绑定到端口由于与另一个应用程序冲突。

    这些冲突的港口已经搬出去的短暂的范围,影响NameNode,二级NameNode,DataNode,公里。

支持微软Azure湖和王坚对象存储系统的数据文件系统连接器

Hadoop现在支持数据集成与微软Azure湖和王坚对象存储系统作为替代Hadoop-compatible文件系统。

Intra-datanode均衡器

一个DataNode管理多个磁盘。 在正常的写操作,磁盘会填满均匀。 然而,添加或替换磁盘可能导致重大DataNode内斜。 这种情况并不是由现有的HDFS均衡器,关注国际米兰-,不是内部,DN倾斜。这种情况是由新intra-DataNode平衡功能,这是通过调用hdfs diskbalancerCLI。 看中的磁盘均衡器部分HDFS命令指导为更多的信息。

堆的守护进程和任务管理

一系列的变化使得Hadoop守护进程堆管理以及MapReduce任务。

hadoop - 10950介绍了配置守护进程堆大小的新方法。 值得注意的是,自动现在可能的基于主机的内存大小,和HADOOP_HEAPSIZE变量被弃用。

mapreduce - 5785简化的配置map和reduce任务堆大小,所以所需的堆大小不再需要指定任务配置和作为Java选项。 现有的配置,已经指定都不受此更改影响。

S3Guard:为S3A文件系统客户端缓存一致性和元数据

hadoop - 13345添加一个可选特性的S3A端Amazon S3存储:能够使用DynamoDB表作为一个快速、一致的存储文件和目录的元数据。

HDFS Router-Based联合会

HDFS Router-Based联合添加一个RPC路由层,它提供了一种联合多个HDFS的名称空间。 这是类似于现有的ViewFs),HDFS联合会功能,除了山表管理在服务器端通过路由层,而不是在客户端。 这简化了访问联邦现有HDFS集群客户。

基于api的配置容量调度队列配置

调度器OrgQueue扩展能力提供了一种编程方式来改变配置提供了一个REST API,用户可以调用修改队列配置。 这使得自动化配置管理管理员在队列的队列administer_queueACL。

资源类型

资源模型广义支持用户定义的可数之外的资源类型的CPU和内存。 例如,像gpu集群管理员可以定义资源,软件许可证,或本地连接的存储。 纱任务可以将基于这些资源的可用性。

如果觉得文章还行,可以关注我,你的支持会鼓励我不断分享更多更好的优质文章。

推荐阅读