文档章节

Nutch 关于读取资源数据的命令

hiqj
 hiqj
发布于 2014/04/18 17:31
字数 239
阅读 17
收藏 1

资料来源:http://adt.haotui.com/thread-278-1-1.html

关于读取资源数据的命令

最近在研究nutch,整理了一下关于读取资源数据的命令。


1.查看crawldb数据库:bin/nutch readdb url/crawldb/ -stats     这个命令可以查看url地址总数和它的状态及评分。
查看每个url地址的详细内容,导出数据:bin/nutch readdb url/crawldb/  -dump crawldb(导出的地址)

查看具体的url,以163为例:
bin/nutch  readdb url/crawldb/ -url http://www.163.com/

2.
查看linkdb数据库的链接情况:bin/nutch readlinkdb url/linkdb/ -url http://www.163.com/

导出linkdb数据库文件:bin/nutch readlinkdb url/linkdb/ -dump linkdb(导出的地址)

3.
查看segmentsbin/nutch readseg -list -dir url/segments/   可以看到每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。


导出segmentsbin/nutch readseg -dump url/segments/20090309103156 segdb

 


本文转载自:http://adt.haotui.com/thread-278-1-1.html

hiqj
粉丝 24
博文 208
码字总数 92586
作品 0
渝北
程序员
私信 提问
Nutch 教程

介绍 Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的...

2ndhimmel
2013/01/31
35.7K
7
《Nutch笔记》Nutch-1.7+solr-4.7集成

一、下载安装nutch 下载地址 http://apache.fayea.com/apache-mirror/nutch/1.7/apache-nutch-1.7-bin.tar.gz 安装 [root@centos data]# cd /data/[root@centos data]# mkdir nutch[root@ce......

燃點
2014/03/21
1K
0
Nutch Hadoop 教程

怎样安装Nutch和 Hadoop 搜寻网页和邮件列表,似乎很少有关于如何使用Hadoop (曾经的DNFS)分布式文件系统( HDFS )和MapReduce来安装Nutch的文章 。 本教程的目的是通过逐步讲解的方法,来...

龙鸟
2012/09/27
1K
1
nutch的数据应用问题

@杨尚川 你好,想跟你请教个问题: 你好,有一个关于Nutch的问题想要请教你,我需要对Nutch的网页结构进行进一步处理,比如信息抽取。怎么把nutch抓取的内容(主要是contents里面的内容)进行...

mengyiqiu
2013/07/10
218
0
nutch 插件开发[资料整理]

plugin(插件)为nutch提供了一些功能强大的部件,nutch中很多功能都是使用插件实现的,而使用者也可以自行开发更多适合自已的插件。 nutch使用这样的plugin系统有什么好处: 1:可扩展性 通过...

cloud-coder
2015/07/01
359
0

没有更多内容

加载失败,请刷新页面

加载更多

Netty整合Protobuffer

现在我们都知道,rpc的三要素:IO模型,线程模型,然后就是数据交互模型,即我们说的序列化和反序列化,现在我们来看一下压缩比率最大的二进制序列化方式——Protobuffer,而且该方式是可以跨...

算法之名
16分钟前
10
0
如何用C++实现栈

栈的定义 栈(stack)又名堆栈,它是一种运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表。这一端被称为栈顶,相对地,把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压...

BWH_Steven
34分钟前
3
0
编程作业20190210900169

1编写一个程序,提示用户输入名和姓,然后以“名,姓”的格式打印出来。 #include <stdio.h>#include <stdlib.h> int main(){ char firstName[20]; char lastName[20]; print......

1李嘉焘1
46分钟前
6
0
补码的优点及原理分析

只讨论整数 1.计算机内部为什么没有减法器? 减法运算本身其实就是加法,如x - y即x +(-y),所以只需要将负数成功表示出来并可以参加加法运算,那加法器就可同时实现“+”和“-”的运算。这...

清自以敬
今天
76
0
Docker 可视化管理 portainer

官网安装指南: https://portainer.readthedocs.io/en/latest/deployment.html docker-compose.yml 位置,下载地址:https://downloads.portainer.io/docker-compose.yml...

Moks角木
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部