文档章节

爬虫webcollector

Terell
 Terell
发布于 2017/02/16 12:04
字数 646
阅读 194
收藏 1

爬虫webcollector实现网页内容抓取

1、导入jar包(webcollector,mysql)

2、代码如下:

public class TutorialCrawler extends BreadthCrawler {

    public TutorialCrawler(String crawlPath, boolean autoParse) {
        super(crawlPath, autoParse);
    }
    public void visit(Page page, CrawlDatums next) {
        // 驱动程序名        
        String driver = "com.mysql.jdbc.Driver";  
        // URI指向要访问的数据库名
        //如果报错在数据库明后添加 ?useUnicode=true&characterEncoding=UTF-8
        String uri="jdbc:mysql://服务器地址/数据库名";
        // MySQL配置时的用户名      
        String user = "**";           
        // MySQL配置时的密码          
        String password = "********";
        //判断URL是否匹配
        if (page.matchUrl("http://.*")) {
            //设置关键字段
            String t1="藏品征集";
            String t2="征集公告";
            String t3="藏品征集的";
            String t4="藏品的公告";
            String t5="征集藏品";
            //获取符合规则网页的body的文字
            String cont = page.select("body").first().text();
            //判断是否含有关键字
            boolean con1 = cont.contains(t1);
            boolean con2 = cont.contains(t2);
            boolean con3 = cont.contains(t3);
            boolean con4 = cont.contains(t4);    
            boolean con5 = cont.contains(t5);
            //如果满足条件,存入数据库
            if(con1||con2||con3||con4||con5){
                //可以通过正则表达式进行筛选,这里举了个例子,可以看下。
                /*==>举例开始<==
                //测测你有多了解奥运会? 13754人测试过 0次收藏 2016-08-06 69条评论 共 10  题
              String regex = " (\\d{1,})人测试过   (\\d{1,})次收藏   (.{10})   (\\d{1,})条评论 共 (\\d{1,})  题";
                Pattern p = Pattern.compile(regex);//获得正则对象
                Matcher m = p.matcher(text);//获得比较器,从而获得比较结果,这里要把原始的字符串传递进去
                while(m.find()){//通过循环获取比较结果
                    String testnum = m.group(1);//测试人数
                    String favnum = m.group(2);
                    String createTime = m.group(3);
                    String replynum = m.group(4);
                    String questionNum = m.group(5);
                    System.out.println(testnum + "|" + favnum + "|" + createTime + "|" + replynum  );
                }
                Elements img = page.select("div.tshow>p.pbox>img");
                System.out.println("图片地址为:" + img.attr("src"));
                System.out.println("描述信息:" + page.select("p.tdesc").text());
                ==>举例结束<==*/
                //获取网页的URL    
                String url=page.getUrl();
                try {               
                    // 加载驱动程序
                    Class.forName(driver);  
                    // 连续数据库       
                    Connection conn = DriverManager.getConnection(uri, user, password);  
                    if(!conn.isClosed())          
                    System.out.println("Succeeded connecting to the Database!");  
                    System.out.println(cont);
                    // statement用来执行SQL语句             
                    Statement statement = (Statement) conn.createStatement();  
                    // 要执行的SQL语句           
                    String sql = "INSERT INTO zkxa_crawler  (url,content) VALUES  ('"+url+"','"+cont+"')";  
                    // 结果集        
                    statement.executeUpdate(sql);  
                    System.out.println("======插入成功======");
                    conn.close();  
                } catch(ClassNotFoundException e) {  
                    System.out.println("Sorry,can`t find the Driver!");
                    e.printStackTrace();  
                } catch(SQLException e) {  
                    e.printStackTrace();  
                    System.out.println("======SQLException======");
                } catch(Exception e) {  
                     e.printStackTrace();  
                     System.out.println("======插入失败======");
                }
            }else {
            }
        }
    }

    public static void main(String[] args) throws Exception {
        //构造函数中两个参数分别抓取器的id与是否解析网页true
        TutorialCrawler crawler = new TutorialCrawler("crawler", true);
        //定义抓取的入口
        crawler.addSeed("https://www.baidu.com");
        //筛选URL的过滤条件
        crawler.addRegex("http://.*");    
        /*禁止爬取图片*/  
        crawler.addRegex("-.*png.*");  
        crawler.addRegex("-.*jpg.*");  
        crawler.addRegex("-.*gif.*");  
        crawler.addRegex("-.*js.*");
        crawler.addRegex("-.*css.*");
        /*断点续爬功能开启
        dc.setResumable(true);*/
        //同时启动多少个线程进行抓取
        crawler.setThreads(10);
        //启动爬虫,向下爬10层
        crawler.start(5);
    }
}

如有BUG或者需要jar包,加我微信!

© 著作权归作者所有

共有 人打赏支持
Terell
粉丝 1
博文 17
码字总数 10150
作品 0
海淀
技术主管
基于 Java 的开源网络爬虫框架 - WebCollector

爬虫简介: WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架(内核),它提供精简的的 API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop 是 WebCollector 的 ...

CrawlScript
2014/07/20
0
37
如何打造类似数据虫巢官网系列教程之二:爬虫是怎么炼成的

文·blogchong 本文接上一篇《如何打造类似数据虫巢官网系列教程之一:介绍已经准备工作》,不清楚前面剧情的童鞋可以先看看。 这篇文章重点在于解决“数据虫巢官网”的底层数据问题,即那些...

数据虫巢
2017/03/20
0
0
JAVA爬虫-区块链快讯爬虫实践

题图: Stan Lee playing Spider-Man on Atari 2600, 1982. 需求: 需要将目标的几个站点的快讯内容做定时爬取,并根据内容做重复过滤。 技术评审: 站点的内容抓取刚开始是想用python,但在...

Martin_Luo
07/05
0
0
开发网络爬虫应该怎样选择爬虫框架?

有些人问,开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下: 上面说的爬虫,基本可以分3类: 1.分布式爬虫:Nutch 2.JAV...

Airship
2015/11/03
0
0
手把手教你写网络爬虫(3):开源爬虫框架对比

原文出处:拓海 介绍 大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过《手把手》系列的前两篇,那么今天的内容就非常容易理解了。细心的读者也许会有疑问,为什么不学出身名门的A...

拓海
04/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Cointext在阿根廷和土耳其推出比特币现金短信钱包

Cointext于10月15日开始在土耳其和阿根廷提供新的基于SMS的比特币现金钱包服务,这两个国家的加密货币使用量急剧上升,以应对严峻的经济形势。 移动钱包 通过短信处理BCH交易 “比特币是更好...

lpy411
28分钟前
1
0
大数据早课-0918

9.18日早课 1.全局搜索含有abc的文件名称或文件夹的命令 2.当前目录一般用什么表示 3.切换到上一次和上一层命令分别是什么 4.pwd是查看当前目录的什么 5.隐藏文件或文件夹的标识是什么? 怎样...

hnairdb
28分钟前
1
0
mybatis学习笔记一

一、mybaits需要的项目依赖 <!-- https://mvnrepository.com/artifact/org.mybatis/mybatis --> <dependency> <groupId>org.mybatis</groupId> <artif......

wuyiyi
29分钟前
2
0
CentOS6 安装 GraphicsMagick

1.安装相关依赖: yum install -y gcc libpng libjpeg libpng-devel libjpeg-devel ghostscript libtiff libtiff-devel freetype freetype-devel 2.下载并解压到目录/usr/local/ wget ft......

凯文加内特
31分钟前
1
0
RabbitMq集群使用Nginx做负载均衡

1.配置rabbitmq集群(可以参考前一篇RabbitMq之部署集群) 2.Nginx做负载均衡 注意:Nginx1.90版本后 新增了stream 模块用于一般的 TCP 代理和负载均衡,之前版本不支持 修改Nginx配置文件ngi...

zhaochaochao
36分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部