六个超大规模Hadoop部署分析

发布时间：2021-08-11 20:52:02 所属栏目：大数据来源：互联网

导读：副标题#e# 虽然Hadoop是眼下热闹非凡的大数据领域最热话题，但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点，我们暂且不想猜测这个平台未来会如何，也不想猜测各种数据密集型解决方案的开源技术未来会如何，而是关注让Hadoop

这家公司的首席软件工程师Jnathan Seidman和另一名工程师Ramesh Venkataramiah一向乐于讨论这家旅游网站的基础设施如何加以管理。他们俩在最近面向多位听众的一次交流中讨论了Hive的作用，尤其是对一些关键搜索功能所起的作用。

Hadoop和Hive帮助这家在线旅游中心处理各项事务：改进让游客可以迅速筛选和分类酒店的功能，到查看更宏观内部趋势的功能，不一而足。据这两位工程师声称，rbitz的大数据问题让它成为运用Hadoop的“典型”.他们俩表示，面对很分散的服务网络--这些服务每天生成数百GB大小的当天日志，处理每天数百万的这些搜索和交易，这绝非易事。

他们俩演示了如何利用Hadoop和Hive来处理数据；可能更重要的是，演示了什么使得这家公司的特定问题最适合用Hadoop来处理（因为需要提醒的是一点，并非所有业务都有Hadoop的用武之地）

[page] 案例之四：Facebook更新Hadoop的状态

虽然一些公司和机构对其庞大的Hadoop系统秘而不宣，但是就已知存在的系统而言，Facebook的数据仓库Hadoop集群已成为世界上已知规模最大的Hadoop存储集群。

下面是关于这个单一HDFS集群的一些详细信息：

单一HDFS集群中存储容量达21PB

2000个机器

每个机器12TB（有几个机器是每个24TB）

1200个机器每个有8个处理器核心，800个机器每个有16个核心

每个机器有32GB内存

每个机器有15个映射/化简（map-reduce）任务

已配置存储容量总共超过21PB,大于之前大名鼎鼎的雅虎集群（14PB）。在Hadoop的早期，Facebook就与另外几个互联网巨擘，充分利用这种框架来管理其不断发展的业务。

由于每月活跃用户超过4亿个，页面浏览量超过5000亿人次，每个月共享的内容多达250亿则，对于自称能够处理大数据问题的任何技术而言，Facebook是再合适不过的应用环境。

Facebook的工程师与雅虎的Hadoop工程小组密切合作，把Hadoop推向更高的可扩展性和性能。Facebook有许多Hadoop集群，其中最大的一个集群用于数据仓库。下面一些统计数字描述了Facebook的数据仓库Hadoop集群的几个特点：

每天增加12TB的压缩数据

每天扫描800TB的压缩数据

每天处理25000个映射/化简作业

HDFS里面有6500万个文件

30000个客户机同时访问HDFS NameNde

Facebook的软件工程师、开源倡导者Jnathan Gray演示了Facebook如何一直使用更庞大Hadoop平台架构的一部分：HBase,支持生产环境下的在线应用程序和离线应用程序。

（编辑：PHP编程网 - 湛江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页

Flink CDC + Hudi 海量	不良数据会造成更严重
大规模分布式计算学习	几款日常的开源无代码