文档章节

爬虫webcollector

Terell
 Terell
发布于 2017/02/16 12:04
字数 646
阅读 174
收藏 1

爬虫webcollector实现网页内容抓取

1、导入jar包(webcollector,mysql)

2、代码如下:

public class TutorialCrawler extends BreadthCrawler {

    public TutorialCrawler(String crawlPath, boolean autoParse) {
        super(crawlPath, autoParse);
    }
    public void visit(Page page, CrawlDatums next) {
        // 驱动程序名        
        String driver = "com.mysql.jdbc.Driver";  
        // URI指向要访问的数据库名
        //如果报错在数据库明后添加 ?useUnicode=true&characterEncoding=UTF-8
        String uri="jdbc:mysql://服务器地址/数据库名";
        // MySQL配置时的用户名      
        String user = "**";           
        // MySQL配置时的密码          
        String password = "********";
        //判断URL是否匹配
        if (page.matchUrl("http://.*")) {
            //设置关键字段
            String t1="藏品征集";
            String t2="征集公告";
            String t3="藏品征集的";
            String t4="藏品的公告";
            String t5="征集藏品";
            //获取符合规则网页的body的文字
            String cont = page.select("body").first().text();
            //判断是否含有关键字
            boolean con1 = cont.contains(t1);
            boolean con2 = cont.contains(t2);
            boolean con3 = cont.contains(t3);
            boolean con4 = cont.contains(t4);    
            boolean con5 = cont.contains(t5);
            //如果满足条件,存入数据库
            if(con1||con2||con3||con4||con5){
                //可以通过正则表达式进行筛选,这里举了个例子,可以看下。
                /*==>举例开始<==
                //测测你有多了解奥运会? 13754人测试过 0次收藏 2016-08-06 69条评论 共 10  题
              String regex = " (\\d{1,})人测试过   (\\d{1,})次收藏   (.{10})   (\\d{1,})条评论 共 (\\d{1,})  题";
                Pattern p = Pattern.compile(regex);//获得正则对象
                Matcher m = p.matcher(text);//获得比较器,从而获得比较结果,这里要把原始的字符串传递进去
                while(m.find()){//通过循环获取比较结果
                    String testnum = m.group(1);//测试人数
                    String favnum = m.group(2);
                    String createTime = m.group(3);
                    String replynum = m.group(4);
                    String questionNum = m.group(5);
                    System.out.println(testnum + "|" + favnum + "|" + createTime + "|" + replynum  );
                }
                Elements img = page.select("div.tshow>p.pbox>img");
                System.out.println("图片地址为:" + img.attr("src"));
                System.out.println("描述信息:" + page.select("p.tdesc").text());
                ==>举例结束<==*/
                //获取网页的URL    
                String url=page.getUrl();
                try {               
                    // 加载驱动程序
                    Class.forName(driver);  
                    // 连续数据库       
                    Connection conn = DriverManager.getConnection(uri, user, password);  
                    if(!conn.isClosed())          
                    System.out.println("Succeeded connecting to the Database!");  
                    System.out.println(cont);
                    // statement用来执行SQL语句             
                    Statement statement = (Statement) conn.createStatement();  
                    // 要执行的SQL语句           
                    String sql = "INSERT INTO zkxa_crawler  (url,content) VALUES  ('"+url+"','"+cont+"')";  
                    // 结果集        
                    statement.executeUpdate(sql);  
                    System.out.println("======插入成功======");
                    conn.close();  
                } catch(ClassNotFoundException e) {  
                    System.out.println("Sorry,can`t find the Driver!");
                    e.printStackTrace();  
                } catch(SQLException e) {  
                    e.printStackTrace();  
                    System.out.println("======SQLException======");
                } catch(Exception e) {  
                     e.printStackTrace();  
                     System.out.println("======插入失败======");
                }
            }else {
            }
        }
    }

    public static void main(String[] args) throws Exception {
        //构造函数中两个参数分别抓取器的id与是否解析网页true
        TutorialCrawler crawler = new TutorialCrawler("crawler", true);
        //定义抓取的入口
        crawler.addSeed("https://www.baidu.com");
        //筛选URL的过滤条件
        crawler.addRegex("http://.*");    
        /*禁止爬取图片*/  
        crawler.addRegex("-.*png.*");  
        crawler.addRegex("-.*jpg.*");  
        crawler.addRegex("-.*gif.*");  
        crawler.addRegex("-.*js.*");
        crawler.addRegex("-.*css.*");
        /*断点续爬功能开启
        dc.setResumable(true);*/
        //同时启动多少个线程进行抓取
        crawler.setThreads(10);
        //启动爬虫,向下爬10层
        crawler.start(5);
    }
}

如有BUG或者需要jar包,加我微信!

© 著作权归作者所有

共有 人打赏支持
Terell
粉丝 1
博文 17
码字总数 10150
作品 0
海淀
技术主管
基于 Java 的开源网络爬虫框架 - WebCollector

爬虫简介: WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架(内核),它提供精简的的 API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop 是 WebCollector 的 ...

CrawlScript
2014/07/20
0
37
如何打造类似数据虫巢官网系列教程之二:爬虫是怎么炼成的

文·blogchong 本文接上一篇《如何打造类似数据虫巢官网系列教程之一:介绍已经准备工作》,不清楚前面剧情的童鞋可以先看看。 这篇文章重点在于解决“数据虫巢官网”的底层数据问题,即那些...

数据虫巢
2017/03/20
0
0
JAVA爬虫-区块链快讯爬虫实践

题图: Stan Lee playing Spider-Man on Atari 2600, 1982. 需求: 需要将目标的几个站点的快讯内容做定时爬取,并根据内容做重复过滤。 技术评审: 站点的内容抓取刚开始是想用python,但在...

Martin_Luo
07/05
0
0
开发网络爬虫应该怎样选择爬虫框架?

有些人问,开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下: 上面说的爬虫,基本可以分3类: 1.分布式爬虫:Nutch 2.JAV...

Airship
2015/11/03
0
0
手把手教你写网络爬虫(3):开源爬虫框架对比

原文出处:拓海 介绍 大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过《手把手》系列的前两篇,那么今天的内容就非常容易理解了。细心的读者也许会有疑问,为什么不学出身名门的A...

拓海
04/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

php 使用redis锁限制并发访问类

1.并发访问限制问题 对于一些需要限制同一个用户并发访问的场景,如果用户并发请求多次,而服务器处理没有加锁限制,用户则可以多次请求成功。 例如换领优惠券,如果用户同一时间并发提交换领...

豆花饭烧土豆
20分钟前
0
0
Linux环境搭建 | 手把手教你配置Linux虚拟机

在上一节 「手把你教你安装Linux虚拟机」 里,我们已经安装好了Linux虚拟机,在这一节里,我们将配置安装好的Linux虚拟机,使其达到可以开发的程度。 Ubuntu刚安装完毕之后,还无法进行开发,...

良许Linux
21分钟前
0
0
Nginix开启SSL支持HTTPS访问(自签名方法)

Nginix开启SSL支持HTTPS访问(自签名方法) 超文本传输安全协议(缩写:HTTPS,英语:Hypertext Transfer Protocol Secure)是超文本传输协议和SSL/TLS的组合,用以提供加密通讯及对网络服务器...

openthings
38分钟前
0
0
(三)Nginx配置·续

概述 前文写了关于Nginx环境配置,但是还没有完,接下来将会继续讲三个相关的配置 主要是以下三个 1.Nginx访问日志 2.Nginx日志切割 3.静态文件不记录日志和过期时间 Nginx访问日志 1.先看看...

杉下
今天
1
0
jquery创建类似于java的map

var map = {}; // Map map = new HashMap(); map[key] = value; // map.put(key, value); var value = map[key]; // Object value = map.get(key); var has = key in map; // boolean has = ......

SuperDabai
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部