MPP 数据库不会轻易go die?四大因素告诉你why!-mpp文件

做为当红的炸子鸡,大数据已经带来了业务和技术的巨大变革。在分析领域,HPE Vertica为代表的MPP列式数据库以成熟的SQL关系计算、极快的性能和强大的扩展能力为结构化和半结构化大数据分析提供了强劲的驱动力,同时Hadoop/MapReduce、Hive、Impala、Tez/Stinger、Spark、Kudu等开源框架不断涌现,并各领风骚一两年。然而,不少程序猿们都有这样的疑惑,因为Hadoop/Spark等开源框架的风头正劲,MPP数据库会不会被它们代替?怎么可能!MPP不会轻易的狗带(go die)!

MPP 数据库不会轻易go die?四大因素告诉你why!

  • 源于关系数据库的MPP数据库,正是当红小鲜肉

关系数据库经历了40多年来的发展。从第一代关系数据库开始,通用关系数据库始终遵循SQL规范和由SQL解析器、优化器和执行引擎组成的灵活架构模式。

云计算和大数据时代的到来催生了关系数据库的一个新的分支:MPP数据库。以HPE Vertica为代表的新一代数据库,优化器和执行引擎扩展后原生就支持网络操作符,通过无共享大规模集群协作来完成海量数据的高性能处理和分析,结合数十年积累下来的丰富的优化规则、精细的资源和混合负载管理、以及列式计算和内存计算的新技术,为结构化和半结构化大数据分析提供了无与伦比的支撑能力。

多年的实践表明,关系数据库的SQL规范、灵活的架构模式非常适合描述和高效解决企业数据处理和分析问题。关系数据库在大数据分析领域并未缺席,只是以MPP数据库的形式继续引领潮流。

  • Hadoop/Spark的架构正在逐步向MPP数据库靠拢

Hadoop/MapReduce和NonSQL在互联网领域的成功激起了人们无限的创造激情。Hive/SparkSQL的诞生弥补了Hadoop/Spark的SQL规范解析器缺失,Impala/SparkRDD替代MR实现了执行引擎,当然也有人已经在着手构建更强大的优化器以替代目前过于原始的解释型的SQL规划器…

熟悉关系数据库架构和发展史的你们可以很容易看出,Hadoop/Spark生态圈正在重造关系数据库的“轮子”!而且不少初创企业正在Hadoop/Spark基础上打造完整功能的关系数据库(甚至添加PL/SQL这样的存储过程功能)。

一个又一个的SQL on Hadoop的方案正在前仆后继地诞生,都声称性能提升多少倍而要替代上一代。可是,你可知道,它们的架构风格看起来越来越向MPP数据库了。

Hadoop/Spark等社区一直都在快速演进中。今天大家说的Hadoop已经与5~10年前说的Hadoop从架构到内容上都已经有了很大的差别。MapReduce已经淡出人们的视野,各种SQL on Hadoop方案正在快速演进。

  • 大数据分析领域的各种数据分析平台将相互融合

而以HPE Vertica为代表的MPP数据库也在向Hadoop/Spark领域延伸。无缝集成Hadoop/Spark,Vertica甚至还可以作为一个SQL on Hadoop方案直接部署在Hadoop上,直接在HDFS上存取数据,并提供全功能关系数据库及所有企业特性。

不少人在尝试用SSD和吞吐能力更强的网络设备来改良Hadoop,更有象Tachyon这样利用内存存储来大幅提升HDFS的性能。

可以预计,5~10年后一旦这些技术成熟,作为SQL on Hadoop运行的MPP数据库,与传统独立部署模式的MPP数据库,无论是性能还是功能都将无任何差别。

同样,各种SQL on Hadoop方案在性能上也会大幅提升,除了在复杂SQL优化能力、成熟度、可靠性等企业级特性上还需要一定时间去追赶外,在架构上已经日渐完善而与MPP数据库差别微乎其微。它们可能自豪地宣称自己是数据库,但为了凸显自己的不同,可能不会接受“MPP数据库”这个名称。

  • “No size fits all”—Michael Stonebraker, 2014年度图灵奖获得者

纵观几十年来的信息技术发展历程,还从来没有诞生一个 “大杀器”能很好地满足所有应用场景的要求。

因此,MPP数据库仍将继续在大数据时代的企业级结构化和半结构化数据分析领域发挥主导作用,尤其是低延时、高吞吐量、高可靠性要求的交互式分析场景。Facebook、Tweeter、AT&T等互联网、通信等行业企业,不约而同地选择MPP数据库来支撑关键分析应用,就有力地说明了这一点。

未来5~10年后,“MPP数据库”这个固定搭配名词可能逐渐被“数据库”代替。但在大数据领域,当提及“数据库”的时候,绝大数人想到的是它一定具有MPP架构。就好像现在,当普通人提及“汽车”的时候,很少会有人会怀疑自己的爱车是有四个轮子的(德国人发明的世界上第一辆有三个轮子的汽车,奠定了现代汽车设计的基础和主体框架,但它的三轮子模式早已不再是主流)。

对于企业大数据分析型应用来说,选择Vertica为代表的成熟MPP数据库,可以从现在就开始迈进面向未来的成熟、稳定的大数据架构,何乐而不为呢?

来源:HPE大数据

【灯塔大数据】介绍:中国电信北京研究院通过大数据技术创新,自主研发了业内领先的“灯塔”大数据行业应用创新平台,灯塔面向市场研究、广告营销、商业地理、金融征信、人力资源等诸多行业领域,提供零售研究、消费者研究、店铺选址、精准营销、泛义征信,背景调查等服务,助力企业在大数据时代扬帆远航。

我们周周都有原创内容,常来坐坐哦!

灯塔大数据原创报告文章阅读,请点击灯塔大数据底部菜单:文章精选

灯塔大数据干货文件打包下载,请点击灯塔大数据底部菜单:资料下载

灯塔大数据关键字回复信息:

回复【必读书单】 下载数据科学资料课程

回复【学神之路】 下载学神之路资料课程

回复【薪资】测试如今身价几何

回复【PM故事】 分享“PM故事”资料链接

回复【新年计划】 既涨知识又有资料分享

MPP 数据库不会轻易go die?四大因素告诉你why!

推荐阅读