hadoop是什么?是做什么的?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。
HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
Hadoop可以解决的问题:
海量数据的存储(HDFS:Hadoop Distributed File System)
(HDFS就是Hadoop分布式存储系统)
海量的数据分析(MapReduce)
(MapReduce就是分布式计算模型)
Hadoop作者受Google三篇论文的启发(GFS、MapReduce、BigTable)
Hadoop擅长日志分析,Facebook就是用Hive来进行日志分析,2009年时Facebook就有非编程人员的30��人来使用HiveQLib进行数据Fenix;淘宝搜索中的自定义筛选也使用的Hive;
利用Pig还可以做高级的数据处理,包括Twitter、Linkedln上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果,淘宝的商品推荐也是!
在Yahoo的40��Hadoop作业还是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。
2012年8月25日更新的天猫推荐系统使用的是hive,少量使用mahout。但是现在淘宝的推荐系统都是storm来实现实时推荐。
Hadoop的部署方式分为3种:
第一种:本地模式,本地模式可以在使用eclipse调试的时候使用,只起一个Map一个Reduce。
第二种:伪分布式,通过一台机器模拟生产环境进行测试,看能否完成基本逻辑和功能。
第三种:集群模式,是真正的生产环境,有成百上千台的机器。
更多web开发知识,请查阅 HTML中文网 !!
以上就是hadoop是做什么的?的详细内容,更多请关注易知道|edz.cc其它相关文章!