文档章节

Nutch抓取需要登录的网站

杨尚川
 杨尚川
发布于 2014/03/16 20:54
字数 404
阅读 3145
收藏 15

Tomcat自身带的后台管理程序是需要用户登录的,这样的网站如何用Nutch来爬呢?Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证,对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况,Nutch就无能为力了,就更不用说复杂验证码的认证方式了。

 

下面用一个简单的例子说明如何配置Nutch,使其能爬需要Http authentication(BASIC, DIGEST)的站点。

 

1、修改Tomcat配置文件conf/tomcat-users.xml,增加如下配置然后重启,一个用户即可访问所有资源:

 

<role rolename="admin-script"/>
<role rolename="admin-gui"/>
<role rolename="manager-script"/>
<role rolename="manager-gui"/>
<role rolename="manager-jmx"/>
<role rolename="manager-status"/>
<user password="admin" roles="admin-script,admin-gui,manager-script,manager-gui,manager-jmx,manager-status" username="admin"/>

 

2、修改Nutch配置文件conf/httpclient-auth.xml,增加如下配置,指定访问特定网站的时候需要出示的用户名和密码:

 

<credentials username="admin" password="admin">
  <authscope host="localhost" port="8080"/>
</credentials>

 

3、启用httpclient插件,在nutch-site.xml中重新指定配置项plugin.includes的值,把protocol-http改为protocol-httpclient:

 

<property>
  <name>plugin.includes</name>
  <value>protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>

 

4、准备注入的URL文件:

 

mkdir urls  
echo 'http://localhost:8080/' > urls/url

 

5、修改URL过滤文件conf/regex-urlfilter.txt限制抓取范围:

 

#-[?*!@=]
+^http://localhost:8080/
-.

 

6、运行爬虫,参数为:

 

bin/nutch crawl urls -dir data -solr http://localhost:8983/solr/collection1 -depth 30 &

 

7、查看抓取下来的URL及其状态发现,成功!

 



© 著作权归作者所有

杨尚川

杨尚川

粉丝 1103
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
开源爬虫Labin,Nutch,Neritrix介绍和对比

Larbin 开发语言:C++ http://larbin.sourceforge.net/index-eng.html larbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下larbin每天可以爬5百万个页...

zplswf
2012/12/11
2.3K
1
nutch搜索引擎的搭建以及配置

最近公司需要搭建一个搜索引擎,于是就发现了apache旗下的这个nutch,也看了不少的文章,就在本地搭建了一个进行测试,发现局域网抓取还是比较好的,但是在互联网抓取还是有点问题,像百度、谷歌这...

wiliiwin
2010/08/12
0
0
nutch搜索引擎的搭建以及配置

最近公司需要搭建一个搜索引擎,于是就发现了apache旗下的这个nutch,也看了不少的文章,就在本地搭建了一个进行测试,发现局域网抓取还是比较好的,但是在互联网抓取还是有点问题,像百度、谷歌这...

dh_
2014/04/06
312
0
Nutch 教程

介绍 Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的...

2ndhimmel
2013/01/31
35.5K
7
网络爬虫面临的挑战 之 链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样,相互矛盾,相互克制,同时也相互促进。 网站的构建技术从简单的静态网站发展到动态网站,信息的传递从用户单向接收发展到双向交互,内容的...

杨尚川
2014/03/16
903
2

没有更多内容

加载失败,请刷新页面

加载更多

打印城市名字

题目要求 写一个脚本让用户输入多个城市的名字(可以是中文),要求不少于5个,然后把这些城市存到一个数组里,>最后用for循环把它们打印出来。 参考答案 #!/bin/bash#这个脚本用来打印城市...

wzb88
32分钟前
3
0
Prometheus基于DNS注册

1 搭建dns主从 1)环境 环境10.0.2.49 主10.0.2.50 从 2)安装dns yum install bind-chroot 3)配置主服务器 10.0.2.49 vim /etc/named.confoptions { listen-on port 53 { ...

拜了个拜
35分钟前
5
0
从0搭建自己的webpack开发环境(三)

往期回顾: 从0搭建自己的webpack开发环境(一) 从0搭建自己的webpack开发环境(二) 1.处理JS模块 1.1 将es6代码编译成es5代码 代码的转化工作要交给babel来处理 npm install @babel/core ...

前端优选
35分钟前
5
0
menu和actionbar

3.0之后推荐用actionbar,Menu已经过时但是我们还是了解一下吧, Menu学习 在java语句中添加menu组件 重写onCreateOptionsMenu(Menu menu)方法 @Override public boolean onCreateOptio...

逆天游云
43分钟前
5
0
目前流行前端几大UI框架

在前端项目开发过程中,总是会引入一些UI框架,已为方便自己的使用,很多大公司都有自己的一套UI框架,下面就是最近经常使用并且很流行的UI框架。 一.Mint UI 屏幕快照 2019-01-18 下午3.03....

说雾
43分钟前
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部