文档章节

nutch2.3编译安装和hbase集成

cjun1990
 cjun1990
发布于 2015/04/16 11:57
字数 343
阅读 139
收藏 1

1.由于nutch2.x没有提供安装版本,需要先编译再安装,所以从官网下载源码。

2.编译需要用到ant,所以首先得安装ant工具。

3.修改conf/nutch-site.xml文件,vi conf/nutch-site.xml,添加如下内容:

<property>  
     <name>storage.data.store.class</name>  
     <value>org.apache.gora.hbase.store.HBaseStore</value>  
     <description>Default class for storing data</description>  
</property>
<property>
     <name>http.agent.name</name>  
     <value>My Nutch Spider</value>  
</property>

4.修改ivy/ivy.xml文件,添加有关gora的依赖

<dependency org="org.apache.gora" name="gora-hbase" rev="0.5"  conf="*->default" />

5.修改ivy/ivy.xml文件中的有关hadoop版本,改成集群的hadoop版本

<dependency org="org.apache.hadoop" name="hadoop-core"  rev="1.2.1" conf="*->default”>
<dependency org="org.apache.hadoop" name="hadoop-test" rev="1.2.1" conf="test->default”>

5.修改conf/gola.properies文件,打开gora对hbase的支持,新增如下内容:

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

6.在nutch的主目录使用编译命令,ant,编译。

7.测试安装是否成功

7.1)新建urls/seed.txt文件,将http://163.com写入文件,每一行为一个目标地址。 

http://163.com

7.2)执行nutch inject将刚刚新建的url注入到hbase中

bin/nutch inject urls #将刚刚新建的url注入到hbase中
bin/nutch fetch -all #抽取
bin/nutch parse -all #转换
bin/nutch updatedb #更新数据库

7.3)进入hbase shell,查看hbase中的webpage表

bin/hbase shell #进入hbase shell
list #列出hbase中的表
scan 'webpage' #查看webpage表

参考文章:nutch 集成 hbase

 

 

 

© 著作权归作者所有

cjun1990
粉丝 34
博文 370
码字总数 183608
作品 0
深圳
程序员
私信 提问
Nutch2.3 + hbase0.98.8 +hadoop2.5.2

@杨尚川 你好,想跟你请教个问题:杨老师 实在不好意思,想麻烦你一个问题,困扰了我很久。 我并不是一个智慧伸手要资源的傻瓜,在学习了你相关的nutch视频之后,试着自己去尝试做一些东西。...

腰间两把刀
2015/05/24
4.6K
9
nutch2.3爬虫抓取电影网站

上一篇文章介绍了nutch的安装 该文会简单的抓取网站 http://www.6vhao.com 1,打开目录nutch-2.3/runtime/local 2,mkdir urls nano urls/url:添加链接 http://www.6vhao.com保存退出 3,在l...

Kadima
2015/10/29
0
0
R语言与Hadoop和Hbase的联合使用

HBase和rhbase的安装与使用,分为3个章节。 1. 环境准备及HBase安装2. rhbase安装3. rhbase程序用例 每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明与代码的连贯性。 注:...

openthings
2015/07/02
0
0
nutch2.3抓取的网页使用solr建立索引

1,安装solr 2,将NUTCHHOME/runtime/local/conf/schema-solr4.xml复制到SOLRHOME/excample/solr/collection1/conf/下,并改名为schema.xml,在文件中添加<field name="version" type="long"......

Kadima
2015/10/31
0
0
HBase 源码-下载, 编译

有些事情, 看起来很简单, 但是自己从头摸索时却是各种迷茫, 不知从何下手, 比如 HBase 源码的下载, 编译... 1. 软件安装 (1). 安装 git sudo apt-get install git (2). 安装 jdk7 sudo add-...

sailtseng
2013/12/04
0
0

没有更多内容

加载失败,请刷新页面

加载更多

https://zhuanlan.zhihu.com/p/61408911

在Logistimo,我们的所有应用程序都是Docker化的,并在Kubernetes内以docker容器运行。我们注意到在使用Java的容器上发生了大量重启,并且非常随机。Docker检查发现该pod被OOMKiller代码杀死...

xiaomin0322
24分钟前
0
0
北斗三号IGSO-2卫星发射成功!

6月25日,中国航天科技集团官方公众号宣布,北斗三号IGSO-2卫星发射成功! 航天科技集团表示,6月25日2点09分,我国在西昌卫星发射中心用长征三号乙运载火箭成功将北斗三号第2颗倾斜地球同步...

linux-tao
28分钟前
1
0
oracle通过dblink查询sqlserver报错

报错如下: SQL> select * from t@mstest; select * from t@test * ERROR at line 1: ORA-28545: error diagnosed by Net8 when connecting to an agent Unable to retrieve text of NETWORK......

突突突酱
30分钟前
1
0
docker-elasticsearch学习

如果不适用docker,面临的问题有: 部署非常慢 成本非常高 资源浪费 难于迁移和扩展 可能会被限定硬件厂商 虚拟化技术的优点: 虚拟化技术出现以后,一个物理机可以部署多个App,每个App独立...

Vincent-Duan
40分钟前
1
0
MySQL权限管理坑

权限系统的工作原理 MySQL权限系统通过下面两个阶段进行认证: (1)对连接的用户进行身份认证,合法的用户通过认证、不合法的用户拒绝连接。 (2)对通过认证的合法用户赋予相应的权限,用户...

bengozhong
42分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部