文档章节

Nutch集群代理服务器配置文档

hiqj
 hiqj
发布于 2014/10/18 15:45
字数 744
阅读 138
收藏 1

1、应用情景

    当我们利用Nutch集群抓取网页,抓取一个网站太频繁时可能会被该网站封IP。所以,在这种情境下,我们需要配置代理服务器,使我们的服务器在抓取网页时,先通过非集群的IP代理后,再访问需要抓取的网站。这样,即使网站封IP,也是封代理服务器的IP,不会对真实服务器产生太大影响。

2、前期环境准备

Nutch集群搭建成功,可正常抓取网页

3、配置代理服务器

1)、下载代理服务器软件

CCProxy

下载地址:http://pan.baidu.com/s/1i3rDZpF

2)、对CCProxy进行配置

a)、配置代理服务器

在打算作为代理服务器的机器上做以下配置:

此处,代理服务器IP为192.168.1.83

b)、在账号中添加nutch集群机器的IP

因为我们要使nutch集群中抓取网页的机器都通过192.168.1.83代理。所以,在这儿需要将被代理机器的IP添加到代理服务器中。

首先在nutch集群的主节点master机器上重新配置和编译nutch,操作步骤如下:

4、重新配置nutch集群

首先在nutch集群的主节点master机器上重新配置和编译nutch,操作步骤如下:

1)、修改nutch-site.xml文件配置

[hadoop@master ~]$ vi /nutch/release-1.6/conf/nutch-site.xml
[hadoop@master ~]$


2)、重新编译nutch

在nutch的build.xml文件所在目录中,做以下操作:

a)、删除runtime目录

b)、执行ant,重新编译nutch

3)、利用scp拷贝重新编译的nutch文件夹到nutch集群的各子节点机器上。

[hadoop@master opt]$ scp -r nutch/ hadoop@node1:/opt/nutch

5、抓取网页,验证代理服务器配置是否成功

1)、在主节点机器上,进入deploy目录,配置抓取入口链接

[hadoop@master release-1.6]$ cd runtime/deploy/

a)、新建urls.txt

[hadoop@master opt]$ vi /opt/nutch/release-1.6/runtime/deploy/urls.txt

b)、填入抓取入口网址

http://gz.ganji.com/

2)、上传本地urls.txt到hadoop集群分布式文件系统中

[hadoop@master deploy]$ hadoop fs -put urls.txt /urls.txt

3)、执行抓取命令

bin/nutch crawl /urls.txt -dir /227-abouteyun-nutch -depth 2 -topN 10

4)、验证抓取链接是否经过代理服务器

抓取完毕后查看CCProxy的监控信息。查看抓取的每一个链接是否经过了代理服务器。如果经过代理服务器,则配置代理服务器成功。



    

© 著作权归作者所有

hiqj
粉丝 24
博文 208
码字总数 92586
作品 0
渝北
程序员
私信 提问
安装nutch2+Hbase+Slor4

介绍 Nutch 网络爬虫 Hbase 分布式存储系统 Solr搜索服务器 版本说明 由于NutchHbaseSolr他们都各自做在自己的版本修改,所以配置他们三者有不同的方法.这里也是参考网络文档做了他们最新版本...

tngou
2013/08/15
6.5K
2
垂直搜索引擎--DDH

DDH垂直搜索引擎,开源授权协议LGPL, 是目前互联网中唯一可以商业运作的垂直搜索引擎系统,由JAVA语言开发,可以运行在大规模集群中的网络信息整合系统。DDH整合Nutch(开源搜索引擎系统),...

DDHSearch
2013/08/01
4.1K
2
Nutch Hadoop 教程

怎样安装Nutch和 Hadoop 搜寻网页和邮件列表,似乎很少有关于如何使用Hadoop (曾经的DNFS)分布式文件系统( HDFS )和MapReduce来安装Nutch的文章 。 本教程的目的是通过逐步讲解的方法,来...

龙鸟
2012/09/27
1.1K
1
ntuch solrindex 能索引出anchor数据的方法

网页的标题在检索排名中占有很重的权重,可是,一些网站管理系统常常用网站名或栏目名做标题,所以,为了保证文章的检索的命中率,nutch在生成lucene的数据时,把anchor也作为排名因素,给予...

夜游神
2013/03/14
183
0
Nutch中文教程--nutcher

nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 gi...

CrawlScript
2015/03/05
3.9K
4

没有更多内容

加载失败,请刷新页面

加载更多

Vue造轮子-Tabs测试(下)

1. 如果g-tabs里面不是g-tabs-head,g-tabs-body期望会报错。 // 目前没有报错,所以先改 // tabs.vue if(this.$children.length===0){ // 这个$children是看子组件,不是子元...

ories
14分钟前
20
0
解决与二进制文件的Git冲突

我一直在Windows上使用Git(msysgit)来跟踪我一直在做的一些设计工作的变化。 今天我一直在使用不同的PC(使用远程repo brian ),我现在正尝试将今天完成的编辑合并到我的笔记本电脑上的常...

javail
14分钟前
33
0
忽略本地更改时会拉动Git?

有没有办法做一个git pull来忽略任何本地文件的更改,而又不浪费目录,也不必执行git clone ? #1楼 如果您使用的是Linux: git fetchfor file in `git diff origin/master..HEAD --name-o...

技术盛宴
30分钟前
38
0
Linux云主机安全加固

背景 最近在登录自己的云主机的时候,遇到了自己的机器被恶意的登录了几百次,如 Last failed login: Tue Feb 10 23:32:08 EST 2019 from xxx There were 166 failed login attempts since ...

项昂之
54分钟前
73
0
Java – Try with Resources

1. Overview Support for try-with-resources – introduced in Java 7 – allows us to declare resources to be used in a try block with the assurance that the resources will be clo......

Ciet
今天
53
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部