81个开源大数据处理工具汇总(下),包括日志收集系统/集群管理/
|
Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎,Nutch作为开放源代码 搜索引擎将会更加透明,从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法,而不会解释为什么一个网页会排在一个特定的位置. 除此之外,有的搜索引擎依照网站所付的 费用,而不是根据它们本身的价值进行排序. 与它们不同,Nucth没有什么需要隐瞒,也没有 动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果. Nutch目前最新的版本为version v2.2.1。 官网:https://nutch.apache.org/ 二、Lucene开发者:Doug Cutting(Hadoop之父,你懂的) 简介:Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
官网:http://lucene.apache.org/ 三、SolrCloud简介:SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。 原理图:
SolrCloud有几个特色功能: 集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上传 (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



