文档章节

爬虫webcollector

Terell
 Terell
发布于 2017/02/16 12:04
字数 646
阅读 154
收藏 1
点赞 0
评论 0

爬虫webcollector实现网页内容抓取

1、导入jar包(webcollector,mysql)

2、代码如下:

public class TutorialCrawler extends BreadthCrawler {

    public TutorialCrawler(String crawlPath, boolean autoParse) {
        super(crawlPath, autoParse);
    }
    public void visit(Page page, CrawlDatums next) {
        // 驱动程序名        
        String driver = "com.mysql.jdbc.Driver";  
        // URI指向要访问的数据库名
        //如果报错在数据库明后添加 ?useUnicode=true&characterEncoding=UTF-8
        String uri="jdbc:mysql://服务器地址/数据库名";
        // MySQL配置时的用户名      
        String user = "**";           
        // MySQL配置时的密码          
        String password = "********";
        //判断URL是否匹配
        if (page.matchUrl("http://.*")) {
            //设置关键字段
            String t1="藏品征集";
            String t2="征集公告";
            String t3="藏品征集的";
            String t4="藏品的公告";
            String t5="征集藏品";
            //获取符合规则网页的body的文字
            String cont = page.select("body").first().text();
            //判断是否含有关键字
            boolean con1 = cont.contains(t1);
            boolean con2 = cont.contains(t2);
            boolean con3 = cont.contains(t3);
            boolean con4 = cont.contains(t4);    
            boolean con5 = cont.contains(t5);
            //如果满足条件,存入数据库
            if(con1||con2||con3||con4||con5){
                //可以通过正则表达式进行筛选,这里举了个例子,可以看下。
                /*==>举例开始<==
                //测测你有多了解奥运会? 13754人测试过 0次收藏 2016-08-06 69条评论 共 10  题
              String regex = " (\\d{1,})人测试过   (\\d{1,})次收藏   (.{10})   (\\d{1,})条评论 共 (\\d{1,})  题";
                Pattern p = Pattern.compile(regex);//获得正则对象
                Matcher m = p.matcher(text);//获得比较器,从而获得比较结果,这里要把原始的字符串传递进去
                while(m.find()){//通过循环获取比较结果
                    String testnum = m.group(1);//测试人数
                    String favnum = m.group(2);
                    String createTime = m.group(3);
                    String replynum = m.group(4);
                    String questionNum = m.group(5);
                    System.out.println(testnum + "|" + favnum + "|" + createTime + "|" + replynum  );
                }
                Elements img = page.select("div.tshow>p.pbox>img");
                System.out.println("图片地址为:" + img.attr("src"));
                System.out.println("描述信息:" + page.select("p.tdesc").text());
                ==>举例结束<==*/
                //获取网页的URL    
                String url=page.getUrl();
                try {               
                    // 加载驱动程序
                    Class.forName(driver);  
                    // 连续数据库       
                    Connection conn = DriverManager.getConnection(uri, user, password);  
                    if(!conn.isClosed())          
                    System.out.println("Succeeded connecting to the Database!");  
                    System.out.println(cont);
                    // statement用来执行SQL语句             
                    Statement statement = (Statement) conn.createStatement();  
                    // 要执行的SQL语句           
                    String sql = "INSERT INTO zkxa_crawler  (url,content) VALUES  ('"+url+"','"+cont+"')";  
                    // 结果集        
                    statement.executeUpdate(sql);  
                    System.out.println("======插入成功======");
                    conn.close();  
                } catch(ClassNotFoundException e) {  
                    System.out.println("Sorry,can`t find the Driver!");
                    e.printStackTrace();  
                } catch(SQLException e) {  
                    e.printStackTrace();  
                    System.out.println("======SQLException======");
                } catch(Exception e) {  
                     e.printStackTrace();  
                     System.out.println("======插入失败======");
                }
            }else {
            }
        }
    }

    public static void main(String[] args) throws Exception {
        //构造函数中两个参数分别抓取器的id与是否解析网页true
        TutorialCrawler crawler = new TutorialCrawler("crawler", true);
        //定义抓取的入口
        crawler.addSeed("https://www.baidu.com");
        //筛选URL的过滤条件
        crawler.addRegex("http://.*");    
        /*禁止爬取图片*/  
        crawler.addRegex("-.*png.*");  
        crawler.addRegex("-.*jpg.*");  
        crawler.addRegex("-.*gif.*");  
        crawler.addRegex("-.*js.*");
        crawler.addRegex("-.*css.*");
        /*断点续爬功能开启
        dc.setResumable(true);*/
        //同时启动多少个线程进行抓取
        crawler.setThreads(10);
        //启动爬虫,向下爬10层
        crawler.start(5);
    }
}

如有BUG或者需要jar包,加我微信!

© 著作权归作者所有

共有 人打赏支持
Terell
粉丝 1
博文 17
码字总数 10150
作品 0
海淀
技术主管
[原创]手把手教你写网络爬虫(3):开源爬虫框架对比

原文出处:拓海 介绍 大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过《手把手》系列的前两篇,那么今天的内容就非常容易理解了。细心的读者也许会有疑问,为什么不学出身名门的A...

拓海 ⋅ 04/28 ⋅ 0

基于 Java 的开源网络爬虫框架-WebCollector

爬虫简介: WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架(内核),它提供精简的的 API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop 是 WebCollector 的 ...

CrawlScript ⋅ 2014/07/20 ⋅ 35

WebCollector 2.x教程列表

WebCollector爬虫官网:https://github.com/CrawlScript/WebCollector WebCollector 2.x教程列表 WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫 JAVA爬虫WebCollector 2.x入......

MiniBu ⋅ 2016/08/26 ⋅ 0

CrawlScript/WebCollector

WebCollector 爬虫简介 WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维...

CrawlScript ⋅ 2015/04/13 ⋅ 0

请问怎么设置线程休眠时间?

@CrawlScript 你好,想跟你请教个问题: 我项目需要第一次接触爬虫,请问WebCollector在哪里设置线程的休眠时间呢?

Cola_sweet ⋅ 2014/12/30 ⋅ 1

WebMagic WebCollector等那个爬虫更好用些?

WebMagic WebCollector等那个爬虫更好用些? 有经验的老司机提示提示

肖申克救赎 ⋅ 2016/06/29 ⋅ 0

适合抓取封堵的爬虫框架 - vscrawler

VSCrawler是一个适合用作抓取的爬虫框架,在更多场景倾向于功能扩展性而牺牲使用简便性。这让VSCrawler非常强大,让他可以灵活的应对目标网站的反爬虫策略。为了方便描述,文档中可能使用VS替...

virjar ⋅ 2017/12/10 ⋅ 0

如何在webcollector框架中获取当前已爬取的url数量?

@CrawlScript 你好,想跟你请教个问题: 我在使用webcollector爬虫框架的过程中发现,爬取url量较大(10000+页)时,程序会在没有完整把该网站迭代的页数全部爬取完成之前就关闭了,可否获取当...

氷菓 ⋅ 2017/06/20 ⋅ 0

如何打造类似数据虫巢官网系列教程之二:爬虫是怎么炼成的

题图 - 爬虫 文·blogchong 本文接上一篇《如何打造类似数据虫巢官网系列教程之一:介绍已经准备工作》,不清楚前面剧情的童鞋可以先看看。 这篇文章重点在于解决“数据虫巢官网”的底层数据...

数据虫巢 ⋅ 2017/03/20 ⋅ 0

开发网络爬虫应该怎样选择爬虫框架?

有些人问,开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下: 上面说的爬虫,基本可以分3类: 1.分布式爬虫:Nutch 2.JAV...

Airship ⋅ 2015/11/03 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

骰子游戏代码开源地址

因为阿里云现在服务器已经停用了,所以上面的配置已经失效。 服务端开源地址:https://gitee.com/goalya/chat4.git 客户端开源地址:https://gitee.com/goalya/client4.git 具体运行界面请参考...

算法之名 ⋅ 40分钟前 ⋅ 0

设计模式--装饰者模式

装饰者模式 定义 动态地给一个对象添加一些额外的职责。就增加功能来说,装饰模式相比生成子类更为灵活。 通用类图 意图 动态地给一个对象添加一些额外的职责。就增加功能来说,装饰模式相比...

gaob2001 ⋅ 今天 ⋅ 0

JavaScript零基础入门——(八)JavaScript的数组

JavaScript零基础入门——(八)JavaScript的数组 欢迎大家回到我们的JavaScript零基础入门,上一节课我们讲了有关JavaScript正则表达式的相关知识点,便于大家更好的对字符串进行处理。这一...

JandenMa ⋅ 今天 ⋅ 0

sbt网络问题解决方案

转自:http://dblab.xmu.edu.cn/blog/maven-network-problem/ cd ~/.sbt/launchers/0.13.9unzip -q ./sbt-launch.jar 修改 vi sbt/sbt.boot.properties 增加一个oschina库地址: [reposit......

狐狸老侠 ⋅ 今天 ⋅ 0

大数据,必须掌握的10项顶级安全技术

我们看到越来越多的数据泄漏事故、勒索软件和其他类型的网络攻击,这使得安全成为一个热门话题。 去年,企业IT面临的威胁仍然处于非常高的水平,每天都会看到媒体报道大量数据泄漏事故和攻击...

p柯西 ⋅ 今天 ⋅ 0

Linux下安装配置Hadoop2.7.6

前提 安装jdk 下载 wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz 解压 配置 vim /etc/profile # 配置java环境变量 export JAVA_HOME=/opt/jdk1......

晨猫 ⋅ 今天 ⋅ 0

crontab工具介绍

crontab crontab 是一个用于设置周期性被执行的任务工具。 周期性执行的任务列表称为Cron Table crontab(选项)(参数) -e:编辑该用户的计时器设置; -l:列出该用户的计时器设置; -r:删除该...

Linux学习笔记 ⋅ 今天 ⋅ 0

深入Java多线程——Java内存模型深入(2)

5. final域的内存语义 5.1 final域的重排序规则 1.对于final域,编译器和处理器要遵守两个重排序规则: (1)在构造函数内对一个final域的写入,与随后把这个被构造对象的引用赋值给一个引用...

江左煤郎 ⋅ 今天 ⋅ 0

面试-正向代理和反向代理

面试-正向代理和反向代理 Nginx 是一个高性能的反向代理服务器,但同时也支持正向代理方式的配置。

秋日芒草 ⋅ 今天 ⋅ 0

Spring 依赖注入(DI)

1、Setter方法注入: 通过设置方法注入依赖。这种方法既简单又常用。 类中定义set()方法: public class HelloWorldOutput{ HelloWorld helloWorld; public void setHelloWorld...

霍淇滨 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部