文档章节

Nutch数据集的目录具体内容

hiqj
 hiqj
发布于 2014/04/18 17:03
字数 301
阅读 4
收藏 0

Nutch数据集的目录具体内容

#导出crawldb

bin/nutch readdb data/crawldb/ -dump data/crawldb_dump

#查看crawldb

Crawldb内容主要包括,抓取状态、抓取此网页的时间、对此网页的重要度评分等url地址的详细信息。

#查看linkdb

#查看segments

一次爬行会产生很多个段(segment),段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引。爬虫爬行时会根据crawldb中的链接关系按照一定的爬行策略生成每次抓取循环所需的预取列表(fetch list),然后Fetcher类通过预取列表中的URL抓取这些网页并索引,然后将其存入段中。

#查看segments目录

Content:保存的是 fetcher 所抓取回来的源内容,html脚本

Crawl_fetch:包含每个抓取页面的状态

Crawl_generate:包含所抓取的网址列表

Crawl_parse: 包含网址的外部链接地址,用于更新crawldb数据库

Parse_data: 包含每个页面的外部链接和元数据

Parse_text: 包含每个抓取页面的解析文本

 

© 著作权归作者所有

hiqj
粉丝 24
博文 208
码字总数 92586
作品 0
渝北
程序员
私信 提问
nutch2 crawl 命令分解,抓取网页的详细过程

首先,何以见得crawl是inject,generate,fetch,parse,update的集成呢(命令的具体含义及功能会在后续文章中说明),我们打开NUTCH_HOME/runtime/local/bin/crawl 我将主要代码黏贴下来 # initia...

Kadima
2015/10/30
1K
0
xautlx/nutch-htmlunit

---------------------------------------------------------------------------------------------------------- 提示:当前版本项目停止更新,最新Apache Nutch 2.X版本实现请访问: http......

xautlx
2014/08/07
0
0
《Nutch笔记》Nutch-1.7+solr-4.7集成

一、下载安装nutch 下载地址 http://apache.fayea.com/apache-mirror/nutch/1.7/apache-nutch-1.7-bin.tar.gz 安装 [root@centos data]# cd /data/[root@centos data]# mkdir nutch[root@ce......

燃點
2014/03/21
1K
0
nutch-ajax 发布基于 Nutch&Solr 的文档更新

项目提供一份比较详细的“基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档”,可通过以下两种方式查看参考文档内容: * 直接获取项目内容后,在document目录下根据自己熟悉的编辑器...

EntDIY
2015/05/04
1K
3
Apache Nutch v2.3 发布,Java实现的网络爬虫

Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。 这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora ...

杨尚川
2015/01/31
19K
9

没有更多内容

加载失败,请刷新页面

加载更多

Docker 可视化管理 portainer

官网安装指南: https://portainer.readthedocs.io/en/latest/deployment.html docker-compose.yml 位置,下载地址:https://downloads.portainer.io/docker-compose.yml...

Moks角木
37分钟前
5
0
Spring Security 实战干货:必须掌握的一些内置 Filter

1. 前言 上一文我们使用 Spring Security 实现了各种登录聚合的场面。其中我们是通过在 UsernamePasswordAuthenticationFilter 之前一个自定义的过滤器实现的。我怎么知道自定义过滤器要加在...

码农小胖哥
40分钟前
7
0
常见分布式事务解决方案

1 微服务的发展 微服务倡导将复杂的单体应用拆分为若干个功能简单、松耦合的服务,这样可以降低开发难度、增强扩展性、便于敏捷开发。当前被越来越多的开发者推崇,很多互联网行业巨头、开源...

asdf08442a
40分钟前
3
0
influxdb continuous queries(cq)从入门到放弃

从前一篇influxdb的文章prometheus基于influxdb的监控数据持久化存储方案完成之后,就一直在折腾influxdb发布测试和生产环境的问题,经过接近2个月的验证,最终发现使用influxdb自带cq的方案...

狗陈
52分钟前
7
0
7.线程通信

在现实生活中,如果一个人团队正在共同完成任务,那么他们之间应该有通信,以便正确完成任务。 同样的比喻也适用于线程。 在编程中,要减少处理器的理想时间,我们创建了多个线程,并为每个线...

Eappo_Geng
57分钟前
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部