文档章节

SOLR4.2+NUTCH1.6

杨尚川
 杨尚川
发布于 2015/04/08 06:10
字数 150
阅读 1362
收藏 1

1、SOLR4.2集成NUTCH1.6

wget    http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz

tar  -xzvf  solr-4.2.0.tgz 

cd  solr-4.2.0/example 

复制nutchconf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件 

修改solr/collection1/conf/schema.xml,在<fields>下增加:<field name="_version_" type="long" indexed="true" stored="true"/> 

 

2、给SOLR4.2配置中文分词器word分词

参考https://github.com/ysc/wordSolr插件部分

 

3、运行SOLR4.2

启动SOLR4.2服务器: java  -jar  start.jar &

SOLR4.2 Web界面:  http://host2:8983

 

4、运行NUTCH提交索引

运行solrindex命令
bin/nutch  solrindex  http://host2:8983/solr  data/crawldb -linkdb  data/linkdb  -dir  data/segments


 

 

© 著作权归作者所有

上一篇: Nutch的发展历程
下一篇: The Design of HDFS
杨尚川

杨尚川

粉丝 1103
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
加载中

评论(5)

z
zacher

引用来自“zhangneww”的评论

你好,我的配置是 nutch 2.3,hadoop 2.7 (完全分布式),,solr 5.3,hbase 0.98.14 (完全分布式),在local下运行的时候,到solr index的时候报错,这是没有与solr结合好吗,nutch 2.3 没有 schema-solr4.xml ,只有schema.xml,拷贝过去也不行的。

IndexingJob: starting
SolrIndexerJob: java.lang.RuntimeException: job failed: name=[TestCrawl_znew]Indexer, jobid=job_local2034176248_0001
  at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55)
  at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:154)
  at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:176)
  at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202)
  at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
  at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211)


然后在 deploy 下运行的时候总是这个错误,
[root@master deploy]# bin/crawl ../local/urls/seed.txt TestCrawl_znew http://localhost:8983/solr/ 1
Injecting seed URLs
/home/hadoop/apache-nutch-2.3/runtime/deploy/bin/nutch inject ../local/urls/seed.txt -crawlId TestCrawl_znew
15/09/15 22:23:22 INFO crawl.
SolrIndexerJob: java.lang.RuntimeException: job failed: name=[TestCrawl_znew]Index 兄弟这个问题解决了么/
zhangnew
zhangnew
local 模式已经解决,是 solr 的 url 错了
zhangnew
zhangnew
此时 hbase 和hadoop 都是正常运行的,不知道问题处在了哪里呢
zhangnew
zhangnew
接上
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration
  at org.apache.gora.hbase.store.HBaseStore.initialize(HBaseStore.java:114)
  at org.apache.gora.store.DataStoreFactory.initializeDataStore(DataStoreFactory.java:101)
  at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:160)
  at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:134)
  at org.apache.nutch.storage.StorageUtils.createWebStore(StorageUtils.java:78)
  at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:218)
  at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
  at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:275)
  at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
  at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:284)
  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
  at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
  at s
zhangnew
zhangnew
你好,我的配置是 nutch 2.3,hadoop 2.7 (完全分布式),,solr 5.3,hbase 0.98.14 (完全分布式),在local下运行的时候,到solr index的时候报错,这是没有与solr结合好吗,nutch 2.3 没有 schema-solr4.xml ,只有schema.xml,拷贝过去也不行的。

IndexingJob: starting
SolrIndexerJob: java.lang.RuntimeException: job failed: name=[TestCrawl_znew]Indexer, jobid=job_local2034176248_0001
  at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55)
  at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:154)
  at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:176)
  at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202)
  at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
  at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211)


然后在 deploy 下运行的时候总是这个错误,
[root@master deploy]# bin/crawl ../local/urls/seed.txt TestCrawl_znew http://localhost:8983/solr/ 1
Injecting seed URLs
/home/hadoop/apache-nutch-2.3/runtime/deploy/bin/nutch inject ../local/urls/seed.txt -crawlId TestCrawl_znew
15/09/15 22:23:22 INFO crawl.

暂无文章

定期批量改密,实现高效运维,保障口令安全

随着企业IT资产规模的不断增大,各类主机、应用系统的管理也变得愈加困难。 对于系统管理员来说,保证操作系统的密码安全是其重要工作,在需要维护众多的主机时,其面临的困境将是: 1、难以...

堡垒啊
45分钟前
5
0
怎样在磁盘上查找MySQL表的大小?这里有答案

导读 我想知道 MySQL 表在磁盘上占用多少空间,但看起来很琐碎。不应该在 INFORMATION_SCHEMA.TABLES 中提供这些信息吗?没那么简单! 我想知道 MySQL 表在磁盘上占用多少空间,但看起来很琐碎...

问题终结者
今天
6
0
jQuery load() 方法实现加载远程数据

jQuery load() 方法是简单但强大的 AJAX 方法。load() 方法从服务器加载数据,并把返回的数据放入被选元素中。 语法: $(selector).load(URL,data,callback);必需的 URL 参数规定您希望加载的...

前端老手
今天
5
0
Spring Boot缓存实战 Redis 设置有效时间和自动刷新缓存-2

问题 上一篇Spring Boot Cache + redis 设置有效时间和自动刷新缓存,时间支持在配置文件中配置,说了一种时间方式,直接扩展注解的Value值,如: @Override@Cacheable(value = "people#${s...

xiaolyuh
今天
14
0
怎样在磁盘上查找MySQL表的大小?这里有答案

我想知道 MySQL 表在磁盘上占用多少空间,但看起来很琐碎。不应该在 INFORMATION_SCHEMA.TABLES 中提供这些信息吗?没那么简单! 我想知道 MySQL 表在磁盘上占用多少空间,但看起来很琐碎。不应...

Linux就该这么学
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部