文档章节

爬虫webcollector

Terell
 Terell
发布于 2017/02/16 12:04
字数 646
阅读 207
收藏 1

爬虫webcollector实现网页内容抓取

1、导入jar包(webcollector,mysql)

2、代码如下:

public class TutorialCrawler extends BreadthCrawler {

    public TutorialCrawler(String crawlPath, boolean autoParse) {
        super(crawlPath, autoParse);
    }
    public void visit(Page page, CrawlDatums next) {
        // 驱动程序名        
        String driver = "com.mysql.jdbc.Driver";  
        // URI指向要访问的数据库名
        //如果报错在数据库明后添加 ?useUnicode=true&characterEncoding=UTF-8
        String uri="jdbc:mysql://服务器地址/数据库名";
        // MySQL配置时的用户名      
        String user = "**";           
        // MySQL配置时的密码          
        String password = "********";
        //判断URL是否匹配
        if (page.matchUrl("http://.*")) {
            //设置关键字段
            String t1="藏品征集";
            String t2="征集公告";
            String t3="藏品征集的";
            String t4="藏品的公告";
            String t5="征集藏品";
            //获取符合规则网页的body的文字
            String cont = page.select("body").first().text();
            //判断是否含有关键字
            boolean con1 = cont.contains(t1);
            boolean con2 = cont.contains(t2);
            boolean con3 = cont.contains(t3);
            boolean con4 = cont.contains(t4);    
            boolean con5 = cont.contains(t5);
            //如果满足条件,存入数据库
            if(con1||con2||con3||con4||con5){
                //可以通过正则表达式进行筛选,这里举了个例子,可以看下。
                /*==>举例开始<==
                //测测你有多了解奥运会? 13754人测试过 0次收藏 2016-08-06 69条评论 共 10  题
              String regex = " (\\d{1,})人测试过   (\\d{1,})次收藏   (.{10})   (\\d{1,})条评论 共 (\\d{1,})  题";
                Pattern p = Pattern.compile(regex);//获得正则对象
                Matcher m = p.matcher(text);//获得比较器,从而获得比较结果,这里要把原始的字符串传递进去
                while(m.find()){//通过循环获取比较结果
                    String testnum = m.group(1);//测试人数
                    String favnum = m.group(2);
                    String createTime = m.group(3);
                    String replynum = m.group(4);
                    String questionNum = m.group(5);
                    System.out.println(testnum + "|" + favnum + "|" + createTime + "|" + replynum  );
                }
                Elements img = page.select("div.tshow>p.pbox>img");
                System.out.println("图片地址为:" + img.attr("src"));
                System.out.println("描述信息:" + page.select("p.tdesc").text());
                ==>举例结束<==*/
                //获取网页的URL    
                String url=page.getUrl();
                try {               
                    // 加载驱动程序
                    Class.forName(driver);  
                    // 连续数据库       
                    Connection conn = DriverManager.getConnection(uri, user, password);  
                    if(!conn.isClosed())          
                    System.out.println("Succeeded connecting to the Database!");  
                    System.out.println(cont);
                    // statement用来执行SQL语句             
                    Statement statement = (Statement) conn.createStatement();  
                    // 要执行的SQL语句           
                    String sql = "INSERT INTO zkxa_crawler  (url,content) VALUES  ('"+url+"','"+cont+"')";  
                    // 结果集        
                    statement.executeUpdate(sql);  
                    System.out.println("======插入成功======");
                    conn.close();  
                } catch(ClassNotFoundException e) {  
                    System.out.println("Sorry,can`t find the Driver!");
                    e.printStackTrace();  
                } catch(SQLException e) {  
                    e.printStackTrace();  
                    System.out.println("======SQLException======");
                } catch(Exception e) {  
                     e.printStackTrace();  
                     System.out.println("======插入失败======");
                }
            }else {
            }
        }
    }

    public static void main(String[] args) throws Exception {
        //构造函数中两个参数分别抓取器的id与是否解析网页true
        TutorialCrawler crawler = new TutorialCrawler("crawler", true);
        //定义抓取的入口
        crawler.addSeed("https://www.baidu.com");
        //筛选URL的过滤条件
        crawler.addRegex("http://.*");    
        /*禁止爬取图片*/  
        crawler.addRegex("-.*png.*");  
        crawler.addRegex("-.*jpg.*");  
        crawler.addRegex("-.*gif.*");  
        crawler.addRegex("-.*js.*");
        crawler.addRegex("-.*css.*");
        /*断点续爬功能开启
        dc.setResumable(true);*/
        //同时启动多少个线程进行抓取
        crawler.setThreads(10);
        //启动爬虫,向下爬10层
        crawler.start(5);
    }
}

如有BUG或者需要jar包,加我微信!

© 著作权归作者所有

共有 人打赏支持
Terell
粉丝 1
博文 17
码字总数 10150
作品 0
海淀
技术主管
私信 提问
基于 Java 的开源网络爬虫框架 - WebCollector

爬虫简介: WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架(内核),它提供精简的的 API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop 是 WebCollector 的 ...

CrawlScript
2014/07/20
0
37
webcollector在linux运行环境下找不到依赖

最近几天做项目用到了爬虫 就从开源中国找了个开源项目 webcollector 在pox.xml中我引入了以来 正常windows开发环境下没问题 cn.edu.hfut.dmic.webcollector WebCollector 2.52 但是打成war...

我自横刀微笑
03/10
290
1
请问怎么设置线程休眠时间?

@CrawlScript 你好,想跟你请教个问题: 我项目需要第一次接触爬虫,请问WebCollector在哪里设置线程的休眠时间呢?

Cola_sweet
2014/12/30
633
1
WebMagic WebCollector等那个爬虫更好用些?

WebMagic WebCollector等那个爬虫更好用些? 有经验的老司机提示提示

肖申克救赎
2016/06/29
793
0
谁用过WebCollector吗?

https://github.com/CrawlScript/WebCollector 那个visit()方法什么时候调用啊。

plugin
2015/04/22
82
0

没有更多内容

加载失败,请刷新页面

加载更多

深度学习中的注意力机制

最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。 本文以机器...

火力全開
7分钟前
1
0
去除文件中

最近生成的文件中出现了<feff>乱码,而且单个文件中出现不止一次,在vim中打该文件显示<feff>,而在idea中则显示一个“-”,对数据处理造成了极大的困扰,通过使用其它编辑器打开发现,Windo...

休辞醉倒
8分钟前
0
0
想搞懂大数据就看这篇文章就够了!

互联网时代的到来,各种专业词汇术语充斥着我们的大脑,大数据,人工智能更是当下时代的热点潮流,很多传统企业都徘徊穿梭于这个潮流当中,传统广告的褪去,移动互联网时代的大数据精准整合营...

董黎明
11分钟前
1
0
go module 初体验

尽管官方的go module比较好用,但由于很多库下载不了,所以需要用到以下配置 export PATH=/mnt/d/download/go/bin/:$PATH export GOPATH=/home/fish/dipamkara/ #export GOPATH=/mnt/d/work...

LoveCupid
14分钟前
1
0
【小白学游戏常用算法】二、A*启发式搜索算法

  在上一篇博客中,我们一起学习了随机迷宫算法,在本篇博客中,我们将一起了解一下寻路算法中常用的A*算法。   通常情况下,迷宫寻路算法可以使用深度优先或者广度优先算法,但是由于效...

hejunbinlan
17分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部