六个超大规模Hadoop部署分析
|
这家公司的首席软件工程师Jnathan Seidman和另一名工程师Ramesh Venkataramiah一向乐于讨论这家旅游网站的基础设施如何加以管理。他们俩在最近面向多位听众的一次交流中讨论了Hive的作用,尤其是对一些关键搜索功能所起的作用。
Hadoop和Hive帮助这家在线旅游中心处理各项事务:改进让游客可以迅速筛选和分类酒店的功能,到查看更宏观内部趋势的功能,不一而足。据这两位工程师声称,rbitz的大数据问题让它成为运用Hadoop的“典型”.他们俩表示,面对很分散的服务网络--这些服务每天生成数百GB大小的当天日志,处理每天数百万的这些搜索和交易,这绝非易事。
他们俩演示了如何利用Hadoop和Hive来处理数据;可能更重要的是,演示了什么使得这家公司的特定问题最适合用Hadoop来处理(因为需要提醒的是一点,并非所有业务都有Hadoop的用武之地)
[page] 案例之四:Facebook更新Hadoop的状态
虽然一些公司和机构对其庞大的Hadoop系统秘而不宣,但是就已知存在的系统而言,Facebook的数据仓库Hadoop集群已成为世界上已知规模最大的Hadoop存储集群。
下面是关于这个单一HDFS集群的一些详细信息:
单一HDFS集群中存储容量达21PB
2000个机器
每个机器12TB(有几个机器是每个24TB)
1200个机器每个有8个处理器核心,800个机器每个有16个核心
每个机器有32GB内存
每个机器有15个映射/化简(map-reduce)任务
已配置存储容量总共超过21PB,大于之前大名鼎鼎的雅虎集群(14PB)。在Hadoop的早期,Facebook就与另外几个互联网巨擘,充分利用这种框架来管理其不断发展的业务。
由于每月活跃用户超过4亿个,页面浏览量超过5000亿人次,每个月共享的内容多达250亿则,对于自称能够处理大数据问题的任何技术而言,Facebook是再合适不过的应用环境。
Facebook的工程师与雅虎的Hadoop工程小组密切合作,把Hadoop推向更高的可扩展性和性能。Facebook有许多Hadoop集群,其中最大的一个集群用于数据仓库。下面一些统计数字描述了Facebook的数据仓库Hadoop集群的几个特点:
每天增加12TB的压缩数据
每天扫描800TB的压缩数据
每天处理25000个映射/化简作业
HDFS里面有6500万个文件
30000个客户机同时访问HDFS NameNde
Facebook的软件工程师、开源倡导者Jnathan Gray演示了Facebook如何一直使用更庞大Hadoop平台架构的一部分:HBase,支持生产环境下的在线应用程序和离线应用程序。
(编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

