加载中
SeimiAgent使用--通过js控制以浏览器级效果登陆爬取京东信息

声明 本篇文章纯粹为了向还不是很了解SeimiAgent的同学演示下SeimiAgent的部分能力,目标网站随意选的,并没有其他目的。 SeimiAgent简介 SeimiAgent是基于QtWebkit开发的可在服务器端后台运...

Seimi基础系列2-SeimiCrawler整合Mybatis存储数据

最近关注SeimiCrawler整合Mybatis的朋友比较多,故仅以此文抛砖引玉。如果是不了解SeimiCrawler的朋友也可以通过此文简单了解下SeimiCrawler。 SeimiCrawler简介 SeimiCrawler是一个敏捷的,...

2016/07/28 00:29
57
SeimiCrawler 2.0版本变动介绍

完美支持SpringBoot,可以尽情的集成SpringBoot现有生态,demo参考 回调函数支持方法引用,设置起来更自然 push(Request.build(s.toString(),Basic::getTitle)); 非SpringBoot模式全局配置项...

Seimi基础系列1-SeimiCrawler打包部署工具使用

简介 在开发调试情况下,可以直接采用main函数来启动SeimiCrawler,但是为了便于工程化部署与分发,SeimiCrawler提供了专门的打包插件maven-seimicrawler-plugin用来对SeimiCrawler工程进行打...

Java爬虫框架:SeimiCrawler——结构化解析与数据存储

本文将介绍如何使用SeimiCrawler将页面中信息提取为结构化数据并存储到数据库中,这也是大家非常常见的使用场景。数据抓取将以抓取博客园的博客为例。 建立基本数据结构 为了演示,简单起见只...

SeimiCrawler+SeimiAgent完美解决动态页面渲染Ajax抓取问题

前言 曾几何时,动态页面(ajax,内部js二次渲染等等)信息提取一直都是爬虫开发者的心痛点,一句话,实在没有合适的工具。尤其在Java里面,像htmlunit这种工具都算得上解析动态页面的神器了...

SeimiCrawler工程自动打包工具

为了便于开发者对使用SeimiCrawler框架开发的爬虫工程的打包部署,现已推出maven-seimicrawler-plugin,一个maven工程的自动化打包插件。下面简要介绍下他的使用。 开始 pom添加添加plugin ...

2016/01/09 14:20
39
SeimiCrawler v0.24发布了

简介 SeimiCrawler是一个敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世...

2015/12/15 22:35
28

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部