文档章节

关于larbin的编译

harvard
 harvard
发布于 2013/08/19 22:10
字数 220
阅读 490
收藏 0
点赞 0
评论 2

记得以前同事安装过一次,还是我帮着弄好的,最近对web crawler感兴趣,所以就拿来看看。

从sourceforge下载了larbin2.6.3

解压,进入larbin的主目录

./configure ;一堆warning,还发现了一个error:为函数声明和定义不一致所引起的,修改成一致的就OK了。

若是出现gmake[2]: *** [dep-in] Error 127之类错误

需要安装makedepend工具:

# yum install imake

make;这个也会报一堆错:错误是因为larbin是由C++编写的,2006年的C++类库的使用和现在差异有些不同。此处错误的修正方式:将所有的

#include<iostream.h>

变成

#include<iostream>

即可,然后在引用cerr的.cc文件中加入

using namespace std;

即可。

./larbin

在oschina上找到larbin的安装文章:《网页爬虫之 Larbin 安装方法》,这篇文章过期了。

© 著作权归作者所有

共有 人打赏支持
harvard
粉丝 4
博文 19
码字总数 14152
作品 0
北京
架构师
加载中

评论(2)

harvard
harvard

引用来自“xnhcx”的评论

iostream.h可以建个本地文件,在源代码目录即可,然后include iostream和using写进去,省得改很多处。刚搞了个ubuntu下好用的版本,github搜用户githcx可见。

这个方法不错;找到规律就好办了,要不然错误零散,还是大改。
xnhcx
xnhcx
iostream.h可以建个本地文件,在源代码目录即可,然后include iostream和using写进去,省得改很多处。刚搞了个ubuntu下好用的版本,github搜用户githcx可见。
网页爬虫之 Larbin 安装方法

Larbin的使用方法 安装步骤: 1. 找台机器安装Linux系统,本人选择的版本是Redhat 9。 2. 网上下载源码 3. 解压:tar –zxvf larbin-2.6.3.tar.gz 4. 进入到larbin-2.6.3目录 5. 修改编译选项...

红薯 ⋅ 2010/03/02 ⋅ 5

ubuntu12.04下网络爬虫 larbin 的安装

准备工作:1.安装gcc: sudo apt-get install gcc安装g++: sudo apt-get install g++安装xutils-dev:sudo apt-get install xutils-dev安装make: sudo apt-get install make2.到官网下载larbi......

lcj1992 ⋅ 2013/11/14 ⋅ 0

网络爬虫/网络蜘蛛--larbin

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫...

匿名 ⋅ 2010/03/02 ⋅ 1

爬虫Larbin解析(二)——sequencer()

分析的函数: void sequencer() //位置:larbin-2.6.3/src/fetch/sequencer.cc void sequencer(){ } 所在的文件 larbin-2.6.3/src/fetch/sequencer.h、larbin-2.6.3/src/fetch/sequencer.cc V......

技术mix呢 ⋅ 2017/11/14 ⋅ 0

开源爬虫Labin,Nutch,Neritrix介绍和对比

Larbin 开发语言:C++ http://larbin.sourceforge.net/index-eng.html larbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下larbin每天可以爬5百万个页...

zplswf ⋅ 2012/12/11 ⋅ 1

c/c++写的爬虫多么?

需要一个linux下运行的c写的爬虫,工作模式是命令行的,并且是增量式的,有大侠知道这样的爬虫么?推荐下 感觉larbin只是把网页的连接给镜像了以下,似乎不算真正意义上(我所理解的)的爬虫...

一段汇编 ⋅ 2010/03/17 ⋅ 6

【转】从Larbin看互联网爬虫设计

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内 容的组织方式越来越灵活,检索组织并呈现...

红薯 ⋅ 2010/03/02 ⋅ 0

33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫...

Airship ⋅ 2015/11/09 ⋅ 1

开源爬虫软件汇总

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的...

一只死笨死笨的猪 ⋅ 2014/10/23 ⋅ 0

centos 配置php开发环境

所需软件及版本信息 centos-6.4 apache-2.2.29 php-5.4.15 mysql-5.5.28 安装libxml-2.9.2 使用centos-6.4的yum源安装的libxml是2.7.6,如果需要使用PHPExcel生成Excel2007的文件,就必须到官...

xshanj2 ⋅ 2015/04/17 ⋅ 2

没有更多内容

加载失败,请刷新页面

加载更多

下一页

解决CentOS6、7,/etc/sysconfig/下没有iptables的问题

一、Centos 6版本解决办法: 1.任意运行一条iptables防火墙规则配置命令: iptables -P OUTPUT ACCEPT 2.对iptables服务进行保存: service iptables save 3.重启iptables服务: service ...

寰宇01 ⋅ 31分钟前 ⋅ 2

数据库备份和恢复

备份:mysqldump -u root -p 数据库>磁盘路径 恢复:mysql -u root -p 数据库<sql脚本的磁盘路径

anlve ⋅ 今天 ⋅ 0

发生了什么?Linus 又发怒了?

在一个 Linux 内核 4.18-rc1 的 Pull Request 中,开发者 Andy Shevchenko 表示其在对设备属性框架进行更新时,移除了 union 别名,这引发了 Linus 的暴怒。 这一次 Linus Torvalds 发怒的原...

问题终结者 ⋅ 今天 ⋅ 0

在树莓派上搭建一个maven仓库

在树莓派上搭建一个maven仓库 20180618 lambo init 项目说明 家里有台树莓派性能太慢。想搭建一个maven私服, 使用nexus或者 jfrog-artifactory 运行的够呛。怎么办呢,手写一个吧.所在这个...

林小宝 ⋅ 今天 ⋅ 0

Spring发展历程总结

转自与 https://www.cnblogs.com/RunForLove/p/4641672.html 目前很多公司的架构,从Struts2迁移到了SpringMVC。你有想过为什么不使用Servlet+JSP来构建Java web项目,而是采用SpringMVC呢?...

onedotdot ⋅ 今天 ⋅ 0

Python模块/包/库安装(6种方法)

Python模块/包/库安装(6种方法) 冰颖机器人 2016-11-29 21:33:26 一、方法1: 单文件模块 直接把文件拷贝到 $python_dir/Lib 二、方法2: 多文件模块,带setup.py 下载模块包(压缩文件zip...

cswangyx ⋅ 今天 ⋅ 0

零基础学习大数据人工智能,学习路线篇!系统规划大数据之路?

大数据处理技术怎么学习呢?首先我们要学习Python语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。 Python:Python 的排名从去年开始就借助人工智能持续上升,现在它已经...

董黎明 ⋅ 今天 ⋅ 0

openJdk和sun jdk的区别

使用过LINUX的人都应该知道,在大多数LINUX发行版本里,内置或者通过软件源安装JDK的话,都是安装的OpenJDK, 那么到底什么是OpenJDK,它与SUN JDK有什么关系和区别呢? 历史上的原因是,Ope...

jason_kiss ⋅ 今天 ⋅ 0

梳理

Redux 是 JavaScript 状态容器,提供可预测化的状态管理。 它是JS的状态容器,是一种解决问题的方式,所以即可以用于 react 也可以用于 vue。 需要理解其思想及实现方式。 应用中所有的 stat...

分秒 ⋅ 今天 ⋅ 0

Java 后台判断是否为ajax请求

/** * 是否是Ajax请求 * @param request * @return */public static boolean isAjax(ServletRequest request){return "XMLHttpRequest".equalsIgnoreCase(((HttpServletReques......

JavaSon712 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部