文档章节

SOLR4.2+NUTCH1.6

杨尚川
 杨尚川
发布于 2015/04/08 06:10
字数 150
阅读 1362
收藏 1

1、SOLR4.2集成NUTCH1.6

wget    http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz

tar  -xzvf  solr-4.2.0.tgz 

cd  solr-4.2.0/example 

复制nutchconf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件 

修改solr/collection1/conf/schema.xml,在<fields>下增加:<field name="_version_" type="long" indexed="true" stored="true"/> 

 

2、给SOLR4.2配置中文分词器word分词

参考https://github.com/ysc/wordSolr插件部分

 

3、运行SOLR4.2

启动SOLR4.2服务器: java  -jar  start.jar &

SOLR4.2 Web界面:  http://host2:8983

 

4、运行NUTCH提交索引

运行solrindex命令
bin/nutch  solrindex  http://host2:8983/solr  data/crawldb -linkdb  data/linkdb  -dir  data/segments


 

 

© 著作权归作者所有

上一篇: Nutch的发展历程
下一篇: The Design of HDFS
杨尚川

杨尚川

粉丝 1103
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
加载中

评论(5)

z
zacher

引用来自“zhangneww”的评论

你好,我的配置是 nutch 2.3,hadoop 2.7 (完全分布式),,solr 5.3,hbase 0.98.14 (完全分布式),在local下运行的时候,到solr index的时候报错,这是没有与solr结合好吗,nutch 2.3 没有 schema-solr4.xml ,只有schema.xml,拷贝过去也不行的。

IndexingJob: starting
SolrIndexerJob: java.lang.RuntimeException: job failed: name=[TestCrawl_znew]Indexer, jobid=job_local2034176248_0001
  at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55)
  at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:154)
  at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:176)
  at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202)
  at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
  at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211)


然后在 deploy 下运行的时候总是这个错误,
[root@master deploy]# bin/crawl ../local/urls/seed.txt TestCrawl_znew http://localhost:8983/solr/ 1
Injecting seed URLs
/home/hadoop/apache-nutch-2.3/runtime/deploy/bin/nutch inject ../local/urls/seed.txt -crawlId TestCrawl_znew
15/09/15 22:23:22 INFO crawl.
SolrIndexerJob: java.lang.RuntimeException: job failed: name=[TestCrawl_znew]Index 兄弟这个问题解决了么/
zhangnew
zhangnew
local 模式已经解决,是 solr 的 url 错了
zhangnew
zhangnew
此时 hbase 和hadoop 都是正常运行的,不知道问题处在了哪里呢
zhangnew
zhangnew
接上
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration
  at org.apache.gora.hbase.store.HBaseStore.initialize(HBaseStore.java:114)
  at org.apache.gora.store.DataStoreFactory.initializeDataStore(DataStoreFactory.java:101)
  at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:160)
  at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:134)
  at org.apache.nutch.storage.StorageUtils.createWebStore(StorageUtils.java:78)
  at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:218)
  at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)
  at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:275)
  at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
  at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:284)
  at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
  at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
  at s
zhangnew
zhangnew
你好,我的配置是 nutch 2.3,hadoop 2.7 (完全分布式),,solr 5.3,hbase 0.98.14 (完全分布式),在local下运行的时候,到solr index的时候报错,这是没有与solr结合好吗,nutch 2.3 没有 schema-solr4.xml ,只有schema.xml,拷贝过去也不行的。

IndexingJob: starting
SolrIndexerJob: java.lang.RuntimeException: job failed: name=[TestCrawl_znew]Indexer, jobid=job_local2034176248_0001
  at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55)
  at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:154)
  at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:176)
  at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202)
  at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
  at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211)


然后在 deploy 下运行的时候总是这个错误,
[root@master deploy]# bin/crawl ../local/urls/seed.txt TestCrawl_znew http://localhost:8983/solr/ 1
Injecting seed URLs
/home/hadoop/apache-nutch-2.3/runtime/deploy/bin/nutch inject ../local/urls/seed.txt -crawlId TestCrawl_znew
15/09/15 22:23:22 INFO crawl.

暂无文章

在Ignite中自定义身份认证安全插件

Ignite集群搭建完成之后,应用就可以接入集群进行各种操作了,但是默认的集群,没有安全保护机制,任何应用、支持JDBC的客户端,只要知道集群节点的IP地址,都可以接入集群,这造成了一定的安...

李玉珏
22分钟前
16
0
浅谈proxy代理模式

一、前言 代理是代替服务器去接受请求者的请求的中间人。我们也听说过代理服务器,它的作用的帮助客户端去请求客户端想要的资源,为什么要通过代理呢,那是因为客户端直接访问服务器会被拒绝...

青衣霓裳
23分钟前
2
0
Java多线程之原子操作类

在并发编程中很容易出现并发安全问题,最简单的例子就是多线程更新变量i=1,多个线程执行i++操作,就有可能获取不到正确的值,而这个问题,最常用的方法是通过Synchronized进行控制来达到线程...

全菜工程师小辉
33分钟前
5
0
arcgis arcpy 克里金插值 掩膜 配置符号系统 自动生成图片

整体思路,最后要加载到mxd文件中,然后导出图片 首先加载mxd文件 mxd = mapping.MapDocument(r"./11.mxd") 然后读取数据 并加载到图层中 sr = arcpy.SpatialReference(4326) # 读取csv...

可达鸭Go
今天
4
0
漂亮有创意的思维导图模板分享

相信很多人使用在绘制思维导图时很喜欢使用模板进行编辑,它能够让你在短时间内快速创造出一个风格明显好看的思维导图,对绘制时间以及使用够感受影响都是较为深刻的,下面为大家分享几款漂亮...

干货趣分享
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部