准备为公司内网配置一个搜索引擎,千挑万选之下总算定位到nutch上了,不用luenuc是因为nutch已经实现了他的功能,而来他没有crawl 爬虫,得自己配置爬虫,有点太麻烦,nutch再适合不过了,之前看过许多nutch的文章,从大概内容上来看配置错误居多,感觉很难配置正确,且容易出错,后来,好不容易配置成功了,ok,虽然说cynwiin不好用,unix格式,但是却也容易,这个玩意开始安装时安装文件竟然500多k,窃喜,看介绍,大概是win下虚拟unix环境,所以,有点不接,隐隐约约感到不同,怀着忐忑不安的心情开始安装,果然,到了第三步,原来真正的安装文件要从网上下载,我们这1m+4台机子的网速,晕了,算了,上网搜,有下载文件一看,我的乖乖500多兆啊,下吧,迅雷打开,就开始下载了,大概下了1-2个小时,这玩意下载完毕,安装,到挺快的,打开,根据网上的配置,一切ok,nutch安装也成功了,呵呵。
满以为万事大吉了,谁想到一个配置错误让我木銮了2-3个小时,当我配置好各种参数进行索引的时候,发现索引速度非常快,不到1分钟就索引完毕了,不对啦,速度也不能这样快啊,我们整个网络再说也有好几百兆的东西,下来一看索引大小总共才3k多,我哭,怎么回事,反正今天上午没搞定,还延长了半个小时时间,后来回去,一下喽,突然想起,对了,网站原来给弄了个保密的登陆【这是变态的保密员想起来的,说什么公司内网访问要输入密码才可以】,后来想了一下,如果抓去url设置成http://www.qxxxxxa.com/ 会被定向到一个登陆页面,明白了,所以索引就结束的快,再者,nutch默认好像不会抓去url带参数这种比如如果含有 "?" 这种字符会被过滤掉,怎么办,反正官方网站是看来找不到答案了,就算找到,也会大费周折,算了,还是google吧,google了无数结果,也实验了无数次,也许是功到自然成吧,终于找到一个可用的实验,把抓去url设置成 http://www.apache.org/发现apache下各种子站点和文件都开始索引了,看着每个线程慢慢增长,我心里有一种如释重负的满足感,于是把规则改到内网,抓去,ok,我信息的看到,各种站点,子站点都开始被抓去了,10个线程在一个4核的cpu上慢慢跑吧,呵呵
总结起来,使用nutch配置一共需要注意以下几点
a. 配置抓去url 在conf/crawl-urlfilter.txt 文件里头
b. 配置几个http选项 主要在 nutch-default.xml 和 nutch-site.xml里面
c. 配置cynwin环境在windows下使用nutch 必须
d. 在nutch下新建目录 作为存放被抓去主要url的文件,文件不必有扩展名
e. 在tomcat下部署nutch会乱码,修复乱码问题
f. nutch api 的使用 ... ...
分享到:
相关推荐
eclipse配置nutch,eclipse配置nutch
nutch配置nutch-default.xml
图解搜索引擎nutch配置,自己制作的教程。因为在网上搜索到的教程很多都是粗略,对于初学nutch搜索引擎很难配置好,所以自己亲自打造了一篇图解教程!希望你能够配置成功!
这里是在网上搜到的Nutch配置的博客,比较详细,担心自己以后配置的时候忘了,所以传到csdn,顺便分享给大家。
Nutch1.6的编译配置过程,详细介绍了Nutch1.6的下载到安装运行过程。
windows下的nutch配置总结,doc格式的,chm格式是为了方便查看
nutch 在windows下环境搭配 已经如何在eclipse下配置,有配图,很详细
Nutch配置[汇编].pdf
nutch配置文件的备注 解决代理问题
Linux 下 Nutch 单机配置
该文档主要介绍了nutch的安装与配置的过程,以及如何实现网内与往外的抓取。
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。
Nutch的配置文件主要有三类: 1.Hadoop的配置文件,Hadoop-default.xml和Hadoop-site.xml。 2.Nutch的配置文件,Nutch-default.xml和Nutch-site.xml。 3.Nutch的插件的配置文件,这些插件的配置文件在加载插件的时候...
Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。
nutch 1.4 在windows下安装配置
nutch1.4 在windows下的安装配置环境搭建
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...
北京邮电大学研究生课程实验指导书。 在windows上配置测试Nutch 用于学习nutch配置的各种问题 分为本地抓取,局域网抓取和互联网抓取三部分
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...