六个超大规模Hadoop部署分析
|
虽然幻灯片有点深奥,又针对特定环境,但是大致描述了HBase适合的那种复杂数据环境;而更重要的是,描述了这个环境需要怎样的一些重大调整和专门知识才加以管理。HBase仅仅是Facebk管理海量数据、为用户提供异常智能化服务的方法之一。
案例之五:Infchimps处理一百万倍的混合(mashup)
问一下Phillip “Flip” Krmer哪里能找到几乎任何的列表、电子表格或数据集,他会很高兴地向你介绍他的公司InfChimps,这家公司自称是“全世界的数据仓库”.
每个月都有成千上万的人访问该网站进行搜索,查询特定的数据。最近,该网站的用户在查询推特和社交网络数据。其较为传统的数据集包括其他热门数据,比如金融、体育比赛和股票数据。
Krmer表示,当然,用户们在别的地方也能查询这些数据集,但是他们常常访问InfChimps,未必是由于缺少数据或者很难获得数据,而是由于别处获取数据的成本极其高昂,或者数据采用了不适合使用的格式--至少对Infchimps面向的开发人员这个客户群来说是这样。
这家公司正在装配一个数据存储库,里面含有成千上万的公共和商业数据集,许多数据集达到了TB级。现代机器学习算法通过借助数据的一般结构,深入分析数据;即便数据有机地嵌入到链接数据集里面,也是如此。当然,所有这些工作会带来一个复杂的数据环境,势必需要一种能够跨多个对象运行的平台,无论对内部(数据收集和管理方面)来说,还是对平台用户来说,都是如此。
Infchimps让用户们可以借助使用Hadoop以及亚马逊云和Rackspace云的基础设施,充分利用数据。你可以看到,这家公司充分利用了弹性Hadoop,还利用了亚马逊网络服务(AWS)和Rackspace,同时在后端上使用Hadoop满足自己的要求。
这家公司让用户可以随时获取自己所需的Hadoop资源,无论这些是预定资源、临时资源还是专用资源。这种灵活的功能能够支持夜间批处理作业、合规或测试集群、科学系统和生产型系统。加上为基于Hadoop的功能新增了Irnfan(Infchimps的自动化系统配置工具)这一基础,弹性Hadoop让用户可以专门为手头的作业调整资源。Infchimps声称,这简化了根据需要时,映射或化简专门机器、高计算机器、高内存机器等机器的过程。 (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

