文档章节

HtmlParser爬取网页数据

xiejunbo
 xiejunbo
发布于 2015/03/13 13:00
字数 932
阅读 95
收藏 1

 请尊重原创,转载请注明出处:http://my.oschina.net/u/1789904/blog/386576

核心:htmlparser框架

HtmlParser爬取搜狗百科名人数据:

/**
	 * 从百科搜索中获取百科地址
	 * @param url
	 * @param charset
	 * @param timeOut
	 * @return
	 * @throws IOException
	 */
	private Map<String, String> parserBaike(String url, String charset, int timeOut) throws IOException {
		WebHttpClient util=new WebHttpClient();
		String content=util.getWebContentByGet(url,charset,timeOut);
		if(content == null){
			return null;
		}
		Map<String, String> map = new HashMap<>();
		Map<String, String> subMap = new HashMap<>();
		try {
			//开始解析
			Node node = null;
			/********************* 解析名字 **********************/
			// 过滤出class为term的<span>元素  
			Parser parser = Parser.createParser(content, charset);
			AndFilter filter = new AndFilter(new TagNameFilter("h1"), new HasAttributeFilter("id","title"));
			NodeList nodeList = parser.parse(filter);
			
			for (int i = 0; i < nodeList.size(); i++) {
				node = nodeList.elementAt(i);
				map.put("name", node.toPlainTextString().trim());
			}
			
			/********************* 解析简介 **********************/
			// 过滤出class为start-time的<span>元素
			Parser parser2 = Parser.createParser(content, charset);
			AndFilter filter2 = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("class","abstract"));
			NodeList nodeList2 = parser2.parse(filter2);
			
			for (int i = 0; i < nodeList2.size(); i++) {
				node = nodeList2.elementAt(i);
				String name = node.toPlainTextString().trim();
				System.out.println("name:" + name);
				map.put("intro", name);
			}
			
			// 过滤出id为J_SingleEndTimeLabel的<span>元素
			Parser parser3 = Parser.createParser(content, charset);
			
			AndFilter filter3 = new AndFilter(new TagNameFilter("img"),new HasAttributeFilter("class",""));
			NodeList nodeList3 = parser3.parse(filter3);
			
			for (int i = 0; i < nodeList3.size(); i++) {
				node = nodeList3.elementAt(i);
				String imgUrl = findHttp(node.toHtml());
				System.out.println("imgUrl:" + imgUrl);
				map.put("logo", imgUrl);
			}
			/********************* 解析表格数据 **********************/
			// 过滤出class为box post的<div>元素
			Parser parser4 = Parser.createParser(content, charset);
			//AndFilter andFilter = new AndFilter(new TagNameFilter("table"),new HasAttributeFilter("class","abstract_tbl"));
			AndFilter andFilter = new AndFilter(new TagNameFilter("table"),new HasAttributeFilter("class","abstract_list"));
			NodeList tableList = parser4.extractAllNodesThatMatch(andFilter);
	        System.out.println("tableList.size:" + tableList.size());
	        
	        //tableList.size()  有两个tableList
	       for (int i=0; i<tableList.size(); i++) {  
	              TableTag table = (TableTag) tableList.elementAt(i);  
	              //取得表中的行集  
	              TableRow[] rows = table.getRows();  
	              //遍历每行             
	              for (int r=0; r<rows.length; r++) {  
	                  TableRow tr = rows[r]; 
	                  //行中的列和标题
	                  TableColumn[] td = tr.getColumns();  
	                  TableHeader[] header =tr.getHeaders();
	                  System.out.println("td.length:" + td.length);
	                  
	                  for (int c=0; c<td.length; c++) {  
	                	 String head = header[c].toPlainTextString();
	                     String col = td[c].toPlainTextString().trim();
	                    
	                     if (head.equals("出生地")) {
	                    	 System.out.println("======出生地:" + col);
	                    	 map.put("home", col);
	                     }
	                     subMap.put(head, col);
	                     System.out.println(head + ":" + col);
	                  }  
	              }  
	       } 
			
		} catch (ParserException e) {
			e.printStackTrace();
		}
		map.put("list",subMap.toString());
		return map;
	}
WebHttpClient.java

package org.jun.utils;

import java.io.BufferedReader;
import java.io.DataOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLEncoder;
/**
 * @author xiejunbo
 * */
public class WebHttpClient {
	
	public WebHttpClient(){
		
	}

	public String getWebContentByGet(String urlString, final String charset,
			int timeout) throws IOException {
		if (urlString == null || urlString.length() == 0) {
			return null;
		}
		urlString = (urlString.startsWith("http://") || urlString
				.startsWith("https://")) ? urlString : ("http://" + urlString)
				.intern();
		URL url = new URL(urlString);
		HttpURLConnection conn = (HttpURLConnection) url.openConnection();
		conn.setRequestMethod("GET");
		// 增加报头,模拟浏览器,防止屏蔽
		conn.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727)");
		//conn.setRequestProperty("User-Agent","Mozilla/5.0(iPad; U; CPU iPhone OS 3_2 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Version/4.0.4 Mobile/7B314 Safari/531.21.10");
		// 只接受text/html类型,当然也可以接受图片,pdf,*/*任意,就是tomcat/conf/web里面定义那些
		conn.setRequestProperty("Accept", "text/html");
		conn.setConnectTimeout(timeout);
		try {
			if (conn.getResponseCode() != HttpURLConnection.HTTP_OK) {
				return null;
			}
		} catch (IOException e) {
			e.printStackTrace();
			return null;
		}
		InputStream input = conn.getInputStream();
		BufferedReader reader = new BufferedReader(new InputStreamReader(input,charset));
		String line = null;
		StringBuffer sb = new StringBuffer();
		while ((line = reader.readLine()) != null) {
			sb.append(line).append("\r\n");
		}
		if (reader != null) {
			reader.close();
		}
		if (conn != null) {
			conn.disconnect();
		}
		return sb.toString();

	}

	public String getWebContentByGet(String urlString) throws IOException {
		return getWebContentByGet(urlString, "iso-8859-1", 5000);
	}

	public String getWebContentByPost(String urlString,String data, final String charset,
			int timeout)throws IOException{
		if (urlString == null || urlString.length() == 0) {
			return null;
		}
		urlString = (urlString.startsWith("http://") || urlString
				.startsWith("https://")) ? urlString : ("http://" + urlString).intern();
		URL url = new URL(urlString);
		HttpURLConnection connection = (HttpURLConnection) url.openConnection();
		 // 设置是否向connection输出,因为这个是post请求,参数要放在  http正文内,因此需要设为true
        connection.setDoOutput(true);   
        connection.setDoInput(true); 
        connection.setRequestMethod("POST");
        // Post 请求不能使用缓存   
        connection.setUseCaches(false);
        connection.setInstanceFollowRedirects(true);
        connection.setRequestProperty("Content-Type","application/x-www-form-urlencoded");
        // 增加报头,模拟浏览器,防止屏蔽
        connection.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 8.0; Windows vista)");
        // 只接受text/html类型,当然也可以接受图片,pdf,*/*任意
        connection.setRequestProperty("Accept", "text/xml");
        connection.setConnectTimeout(timeout);
        connection.connect();
        DataOutputStream out = new DataOutputStream(connection.getOutputStream());
        String content = URLEncoder.encode(data, "utf-8");//+URLEncoder.encode("中文 ", "utf-8");
        out.writeBytes(content);
        out.flush();   
        out.close();
        
		try {
			//必须写在发送数据的后面
			if (connection.getResponseCode() != HttpURLConnection.HTTP_OK) {
				return null;
			}
		} catch (IOException e) {
			e.printStackTrace();
			return null;
		}
        BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream(),charset));
        String line;
        StringBuffer sb=new StringBuffer();
        while ((line = reader.readLine()) != null) {
            sb.append(line).append("\r\n");
        }
        if (reader != null) {
			reader.close();
		}
		if (connection != null) {
			connection.disconnect();
		}
		return sb.toString();
	}
	public String getWebContentByPost(String urlString,String data) throws IOException {
		return getWebContentByPost(urlString, data,"iso-8859-1", 5000);
	}
	
	public static void main(String[] args) throws IOException {
		WebHttpClient client=new WebHttpClient();
//		String s = client.getWebContentByGet("http://www.baidu.com");
//		s = new String(s.getBytes("iso-8859-1"), "gb2312");
		
		String s = client.getWebContentByPost("http://localhost:8080/Lottery/login.portal","action=login&loginname=13761083826&password=111111");
		s = new String(s.getBytes("iso-8859-1"), "UTF-8");
		System.out.println(s);
	}
	

}




© 著作权归作者所有

共有 人打赏支持
xiejunbo
粉丝 41
博文 150
码字总数 132363
作品 0
广州
后端工程师
python模块之HTMLParser: 解析html,获取url

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它...

charlesdong1989
2012/03/28
0
0
python爬取标题和作者时间的小程序

#encoding:UTF-8 import urllib.parse import urllib.request import base64 import re import sys import time from random import sample import codecs from html.parser import HTMLPars......

FOG_Y
2015/05/20
0
0
九Python之HTML的解析(网页抓取一)

对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理htm...

dkz
2013/03/05
0
2
nutch修改parse-html爬博客的标题

修改parse-html的HtmlParser类的getParse方法 下面就是对博客标题抽取 修改这2部分,然后运行nutch就可以抓取到博客的标题了。 参考文章:Nutch二次开发之定制爬取网站信息...

cjun1990
2015/04/29
0
0
Python2.7 HTMLParser模块学习

HTMLParser模块主要是用来解析HTML文件。 HTMLParser模块有一个HTMLParser类,用户在解析HTML文件时需要重定义其中handle_*方法,该类有如下方法: feed(data)分析一些文本数据 close()如果碰...

China_OS
2012/12/03
0
0

没有更多内容

加载失败,请刷新页面

加载更多

shell特殊符号、cut、sort、uniq、wc、tee、tr、split命令

10月15日任务 8.10 shell特殊符号cut命令 8.11 sort_wc_uniq命令 8.12 tee_tr_split命令 8.13 shell特殊符号下 cut 命令 cut作用:截取字符串 用法如下:cat /etc/passwd |head -2 |cut -d ...

hhpuppy
14分钟前
0
0
Springboot实现filter拦截token验证和跨域

背景 web验证授权合法的一般分为下面几种 1使用session作为验证合法用户访问的验证方式 使用自己实现的token 使用OCA标准 在使用API接口授权验证时,token是自定义的方式实现起来不需要引入其...

funnymin
48分钟前
1
0
linux使用ntfs-3g操作ntfs格式硬盘

Linux内核目前只支持对微软NTFS文件系统的读取。 NTFS-3G 是微软 NTFS 文件系统的一个开源实现,同时支持读和写。NTFS-3G 开发者使用 FUSE 文件系统来辅助开发,同时对可移植性有益。 安装 ...

linuxprobe16
今天
1
0
kubeadm部署kubernetes集群

一、环境要求 这里使用RHEL7.5 master、etcd:192.168.10.101,主机名:master node1:192.168.10.103,主机名:node1 node2:192.168.10.104,主机名:node2 所有机子能基于主机名通信,编辑...

人在艹木中
今天
13
0
Shell特殊符号总结以及cut,sort,wc,uniq,tee,tr,split命令

特殊符号总结一 * 任意个任意字符 ? 任意一个字符 # 注释字符 \ 脱义字符 | 管道符 # #号后的备注被忽略[root@centos01 ~]# ls a.txt # 备注 a.txt[root@centos01 ~]# a=1[root@centos01...

野雪球
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部