爬虫webcollector
博客专区 > Terell 的博客 > 博客详情
爬虫webcollector
Terell 发表于10个月前
爬虫webcollector
  • 发表于 10个月前
  • 阅读 116
  • 收藏 1
  • 点赞 0
  • 评论 0

腾讯云 技术升级10大核心产品年终让利>>>   

爬虫webcollector实现网页内容抓取

1、导入jar包(webcollector,mysql)

2、代码如下:

public class TutorialCrawler extends BreadthCrawler {

    public TutorialCrawler(String crawlPath, boolean autoParse) {
        super(crawlPath, autoParse);
    }
    public void visit(Page page, CrawlDatums next) {
        // 驱动程序名        
        String driver = "com.mysql.jdbc.Driver";  
        // URI指向要访问的数据库名
        //如果报错在数据库明后添加 ?useUnicode=true&characterEncoding=UTF-8
        String uri="jdbc:mysql://服务器地址/数据库名";
        // MySQL配置时的用户名      
        String user = "**";           
        // MySQL配置时的密码          
        String password = "********";
        //判断URL是否匹配
        if (page.matchUrl("http://.*")) {
            //设置关键字段
            String t1="藏品征集";
            String t2="征集公告";
            String t3="藏品征集的";
            String t4="藏品的公告";
            String t5="征集藏品";
            //获取符合规则网页的body的文字
            String cont = page.select("body").first().text();
            //判断是否含有关键字
            boolean con1 = cont.contains(t1);
            boolean con2 = cont.contains(t2);
            boolean con3 = cont.contains(t3);
            boolean con4 = cont.contains(t4);    
            boolean con5 = cont.contains(t5);
            //如果满足条件,存入数据库
            if(con1||con2||con3||con4||con5){
                //可以通过正则表达式进行筛选,这里举了个例子,可以看下。
                /*==>举例开始<==
                //测测你有多了解奥运会? 13754人测试过 0次收藏 2016-08-06 69条评论 共 10  题
              String regex = " (\\d{1,})人测试过   (\\d{1,})次收藏   (.{10})   (\\d{1,})条评论 共 (\\d{1,})  题";
                Pattern p = Pattern.compile(regex);//获得正则对象
                Matcher m = p.matcher(text);//获得比较器,从而获得比较结果,这里要把原始的字符串传递进去
                while(m.find()){//通过循环获取比较结果
                    String testnum = m.group(1);//测试人数
                    String favnum = m.group(2);
                    String createTime = m.group(3);
                    String replynum = m.group(4);
                    String questionNum = m.group(5);
                    System.out.println(testnum + "|" + favnum + "|" + createTime + "|" + replynum  );
                }
                Elements img = page.select("div.tshow>p.pbox>img");
                System.out.println("图片地址为:" + img.attr("src"));
                System.out.println("描述信息:" + page.select("p.tdesc").text());
                ==>举例结束<==*/
                //获取网页的URL    
                String url=page.getUrl();
                try {               
                    // 加载驱动程序
                    Class.forName(driver);  
                    // 连续数据库       
                    Connection conn = DriverManager.getConnection(uri, user, password);  
                    if(!conn.isClosed())          
                    System.out.println("Succeeded connecting to the Database!");  
                    System.out.println(cont);
                    // statement用来执行SQL语句             
                    Statement statement = (Statement) conn.createStatement();  
                    // 要执行的SQL语句           
                    String sql = "INSERT INTO zkxa_crawler  (url,content) VALUES  ('"+url+"','"+cont+"')";  
                    // 结果集        
                    statement.executeUpdate(sql);  
                    System.out.println("======插入成功======");
                    conn.close();  
                } catch(ClassNotFoundException e) {  
                    System.out.println("Sorry,can`t find the Driver!");
                    e.printStackTrace();  
                } catch(SQLException e) {  
                    e.printStackTrace();  
                    System.out.println("======SQLException======");
                } catch(Exception e) {  
                     e.printStackTrace();  
                     System.out.println("======插入失败======");
                }
            }else {
            }
        }
    }

    public static void main(String[] args) throws Exception {
        //构造函数中两个参数分别抓取器的id与是否解析网页true
        TutorialCrawler crawler = new TutorialCrawler("crawler", true);
        //定义抓取的入口
        crawler.addSeed("https://www.baidu.com");
        //筛选URL的过滤条件
        crawler.addRegex("http://.*");    
        /*禁止爬取图片*/  
        crawler.addRegex("-.*png.*");  
        crawler.addRegex("-.*jpg.*");  
        crawler.addRegex("-.*gif.*");  
        crawler.addRegex("-.*js.*");
        crawler.addRegex("-.*css.*");
        /*断点续爬功能开启
        dc.setResumable(true);*/
        //同时启动多少个线程进行抓取
        crawler.setThreads(10);
        //启动爬虫,向下爬10层
        crawler.start(5);
    }
}

如有BUG或者需要jar包,加我微信!

共有 人打赏支持
粉丝 2
博文 17
码字总数 10150
×
Terell
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: