文档章节

HTTPClient抓取网页内容

完美世界
 完美世界
发布于 2014/06/05 16:54
字数 657
阅读 286
收藏 4

试了下Apache项目HTTPClient抓取网页内容,抓取到的内容可以提取一些想要的东西。

下载httpcomponents-client-4.0.3-bin.zip,将其解压开,新建立一个普通的javaproject,建立一个UserLibrary,将解压开的文件夹下的lib里的jar包加到新建立的UserLibrary中(当然不使用UserLibrary,直接添加到项目中也是OK的),然后新建立一个测试的类,内容如下:

package httpclient;  
import java.util.regex.Matcher;  
import java.util.regex.Pattern;  
import org.apache.http.Header;  
import org.apache.http.HttpEntity;  
import org.apache.http.HttpResponse;  
import org.apache.http.client.HttpClient;  
import org.apache.http.client.methods.HttpGet;  
import org.apache.http.impl.client.DefaultHttpClient;  
import org.apache.http.util.EntityUtils;  
public class HttpClientDemo {  
    public final static void main(String[] args) throws Exception {  
        HttpClient httpclient = new DefaultHttpClient(); //实例化一个HttpClient  
        HttpGet httpget = new HttpGet(“http://www.baidu.com/”);  
        System.out.println(“executing request ” + httpget.getURI());  
        
        // 查看默认request头部信息  
        System.out.println(“Accept-Charset:” + httpget.getFirstHeader(“Accept-Charset”));  
        httpget.setHeader(“User-Agent”, ”Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.2)”);  
        
        // 用逗号分隔显示可以同时接受多种编码  
        httpget.setHeader(“Accept-Language”, ”zh-cn,zh;q=0.5″);  
        httpget.setHeader(“Accept-Charset”, ”GB2312,utf-8;q=0.7,*;q=0.7″);  
       
        // 验证头部信息设置生效  
        System.out.println(“Accept-Charset:” + httpget.getFirstHeader(“Accept-Charset”).getValue());  
        HttpResponse response = httpclient.execute(httpget);//执行  
        HttpEntity entity = response.getEntity(); //返回服务器响应  
        System.out.println(“—————————————-”);  
        System.out.println(response.getStatusLine()); //服务器返回状态  
    
        if (entity != null) {  
            Header[] headers = response.getAllHeaders(); //返回的HTTP头信息  
            for (int i = 0; i < headers.length; i++) {  
            System.out.println(headers[i]);  
        } 
         
        System.out.println(“Response content length: ” + entity.getContentLength());  
        System.out.println(“—————————————-”);  
        System.out.println(“Response content: ”);  
        //String responseString = EntityUtils.toString(response.getEntity());//返回服务器响应的HTML代码   
        //responseString = new String(responseString.getBytes(“gb2312″),”gbk”);//转换中文  
        //System.out.println(responseString); //打印出服务器响应的HTML代码  
        // 将源码流保存在一个byte数组当中,因为可能需要两次用到该流  
        // 注,如果上面的EntityUtils.toString(response.getEntity())执行了后,就不能再用下面的语句拿数据了,直接用上面的数据  
        byte[] bytes = EntityUtils.toByteArray(entity);  
        String charSet = ”";  
        // 如果头部Content-Type中包含了编码信息,那么我们可以直接在此处获取  
        charSet = EntityUtils.getContentCharSet(entity);  
        System.out.println(“In header: ” + charSet);  
        // 如果头部中没有,那么我们需要 查看页面源码,这个方法虽然不能说完全正确,因为有些粗糙的网页编码者没有在页面中写头部编码信息  
        if (charSet == null || charSet == ”") {  
            String regEx = ”<meta.*charset=['|\"]?([[a-z]|[A-Z]|[0-9]|-]*)['|\"]?”;  
            Pattern p = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);  
            Matcher m = p.matcher(new String(bytes)); // 默认编码转成字符串,因为我们的匹配中无中文,所以串中可能的乱码对我们没有影响  
            if (m.find()) {  
                charSet = m.group(1);  
            } else {  
                charSet = ”";  
            }  
        }  
        
        if(charSet == null || charSet.equals(“”)) {  
            charSet = ”utf-8″;  
        }  
        System.out.println(“Last get: ” + charSet);  
        
        // 至此,我们可以将原byte数组按照正常编码专成字符串输出(如果找到了编码的话)  
        System.out.println(“Encoding string is: ” + new String(bytes, charSet));  
    }  
    System.out.println(“—————————————-”);  
    // Do not feel like reading the response body  
    // Call abort on the request object  
    httpget.abort();  
    // When HttpClient instance is no longer needed,   
    // shut down the connection manager to ensure  
    // immediate deallocation of all system resources  
    httpclient.getConnectionManager().shutdown();  
}  
}



© 著作权归作者所有

共有 人打赏支持
完美世界
粉丝 10
博文 151
码字总数 134011
作品 0
西城
高级程序员
私信 提问
使用HttpClient和Jsoup快捷抓取和分析页面

最近在写一个小爬虫,准备爬一部分网页数据,来做模型训练,在考虑如何抓取网页及分析网页时,参考了OSC站中一些项目,特别是@黄亿华写的《webmagic的设计机制及原理-如何开发一个Java爬虫》...

仪山湖
2013/09/03
13K
1
爬虫--[HttpClient]

爬虫技术可以获取互联网上开放的网页文档或其他文档,在java中HttpClient是比较好用的模拟请求和爬虫组件 下面看一个简单的职位爬去的实例: 1 下载HttpClient 最新HttpClient版本是4.x,我们...

Candy_Desire
2014/11/06
0
0
servlet 服务端用httpclient 做网页爬虫抓取数据

是这样的,由于安全问题,数据库直接读取权限没拿到,现在服务器端用httpclient做一个模拟登陆,获取用户数据用户数,然后返给我的客户端(安卓做的),但是会出现这样的一个问题,多个人同时...

良昭
2014/04/10
316
0
HttpClient的CircularRedirectException异常原因及解决办法

HttpClient的CircularRedirectException异常原因及解决办法 这两天在使用我自己爬虫抓取网页的时候总是出现 org.apache.http.client.ClientProtocolException at org.apache.http.impl.clien...

我是小强
2013/12/26
0
0
HttpClient4.x:Get和Post提交数据

HttpClient是一款用Java写的非常好用的基于Http协议的客户端编程工具包。具体举例来讲,用它可以模拟form表单提交数据动作,可以模拟访问网页动作及得到网页源码内容等等,这两点或许是我们在...

liangtee
2012/12/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

我的Linux系统九阴真经

我的Linux系统九阴真经 在今天,互联网的迅猛发展,科技技术也日新月异,各种编程技术也如雨后春笋一样,冒出尖来了。各种创业公司也百花齐放百家争鸣,特别是针对服务行业,新型互联网服务行...

linuxCool
36分钟前
9
0
Python程序员需要知道的30个技巧

1 直接交换两个数字位置 1x, y = 10, 202print(x, y)3x, y = y, x4print(x, y)5#1 (10, 20)6#2 (20, 10) 2 比较运算符的链接 1n = 102result = 1 < n < 203print(result)4# True5result = 1 ......

糖宝lsh
37分钟前
4
0
[LintCode] Linked List Cycle(带环链表)

描述 给定一个链表,判断它是否有环。 样例 给出 -21->10->4->5, tail connects to node index 1,返回 true。 这里解释下,题目的意思,在英文原题中,tail connects to node index 1 表示的...

honeymose
48分钟前
7
0
Android :报错Your project path contains non-ASCII characters.

报错内容如下 Your project path contains non-ASCII characters. This will most likely cause the build to fail on Windows. Please move your project to a different directory. See ht......

lanyu96
59分钟前
6
0
Nginx平滑添加模块

Nginx已经编译安装并运行了一段时间, 然后某一天, 发现需要用到某个模块但当初没有编译, 这个时候怎么办呢? 卸载重新安装肯定可以的, 如果Nginx版本没有变更的话, 则有一个相对平滑的方法来添...

老菜鸟0217
今天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部