`
kjj
  • 浏览: 169447 次
  • 性别: Icon_minigender_1
  • 来自: 陕西
社区版块
存档分类
最新评论

Nutch 配置 可耻的失败

阅读更多
    准备为公司内网配置一个搜索引擎,千挑万选之下总算定位到nutch上了,不用luenuc是因为nutch已经实现了他的功能,而来他没有crawl 爬虫,得自己配置爬虫,有点太麻烦,nutch再适合不过了,之前看过许多nutch的文章,从大概内容上来看配置错误居多,感觉很难配置正确,且容易出错,后来,好不容易配置成功了,ok,虽然说cynwiin不好用,unix格式,但是却也容易,这个玩意开始安装时安装文件竟然500多k,窃喜,看介绍,大概是win下虚拟unix环境,所以,有点不接,隐隐约约感到不同,怀着忐忑不安的心情开始安装,果然,到了第三步,原来真正的安装文件要从网上下载,我们这1m+4台机子的网速,晕了,算了,上网搜,有下载文件一看,我的乖乖500多兆啊,下吧,迅雷打开,就开始下载了,大概下了1-2个小时,这玩意下载完毕,安装,到挺快的,打开,根据网上的配置,一切ok,nutch安装也成功了,呵呵。
    满以为万事大吉了,谁想到一个配置错误让我木銮了2-3个小时,当我配置好各种参数进行索引的时候,发现索引速度非常快,不到1分钟就索引完毕了,不对啦,速度也不能这样快啊,我们整个网络再说也有好几百兆的东西,下来一看索引大小总共才3k多,我哭,怎么回事,反正今天上午没搞定,还延长了半个小时时间,后来回去,一下喽,突然想起,对了,网站原来给弄了个保密的登陆【这是变态的保密员想起来的,说什么公司内网访问要输入密码才可以】,后来想了一下,如果抓去url设置成http://www.qxxxxxa.com/ 会被定向到一个登陆页面,明白了,所以索引就结束的快,再者,nutch默认好像不会抓去url带参数这种比如如果含有 "?" 这种字符会被过滤掉,怎么办,反正官方网站是看来找不到答案了,就算找到,也会大费周折,算了,还是google吧,google了无数结果,也实验了无数次,也许是功到自然成吧,终于找到一个可用的实验,把抓去url设置成 http://www.apache.org/发现apache下各种子站点和文件都开始索引了,看着每个线程慢慢增长,我心里有一种如释重负的满足感,于是把规则改到内网,抓去,ok,我信息的看到,各种站点,子站点都开始被抓去了,10个线程在一个4核的cpu上慢慢跑吧,呵呵
     总结起来,使用nutch配置一共需要注意以下几点
     a. 配置抓去url 在conf/crawl-urlfilter.txt 文件里头
     b. 配置几个http选项 主要在 nutch-default.xml 和 nutch-site.xml里面
     c. 配置cynwin环境在windows下使用nutch 必须
     d. 在nutch下新建目录 作为存放被抓去主要url的文件,文件不必有扩展名
     e. 在tomcat下部署nutch会乱码,修复乱码问题
     f. nutch api 的使用 ... ...
0
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics