文档章节

爬虫

lf20101072
 lf20101072
发布于 2017/05/08 15:01
字数 246
阅读 15
收藏 1

Bootstrap的各种类名


爬虫

目的  

非结构化的文本  HTML  信息不能直接得到  需要解析才能获得  常见解析方式   css选择器

xpath  一种页面元素的路径选择方式   利用chrome可用快速得到

正则表达式
用标准正则解析


结构化的数据
一般都是类似JSON 格式的字符串,直接解析JSON 数据就可以了 提取JSON 关键字段即可


网页内容

网页包含内容  标签获得
JavaScrip 代码加载内容     内容在js里
Ajax 异步请求  抓取异步请求

app 内容
通用方法是抓包   手机端 电脑在同一个局域网里面

了解网络请求
爬虫就是一堆的HTTP请求  ,找到爬取的链接  

发出一个请求包  ,得到一个返回包 
URL  
请求方式  get post 
请求包头 heades
请求包内容
返回包headers
 

http://www.csdn.net/article/2015-11-13/2826205

 

 

 

 

 

© 著作权归作者所有

共有 人打赏支持
下一篇: jvm
lf20101072
粉丝 0
博文 116
码字总数 18583
作品 0
孝感
私信 提问

暂无文章

想问一下C++里queue要怎么遍历

如题,想知道怎么遍历<queue>对象的元素? 貌似不能遍历。要么全部pop push一遍,要么换个容器呗。 queue是先进后出的数据类型,只能不断读top()然后再pop()掉。故意把遍历操作隐藏掉了,...

shzwork
昨天
2
0
Ubuntu 18.04.2 LTS nvidia-docker2 : 依赖: docker-ce (= 5:18.09.0~3-0~ubuntu-bionic)

平台:Ubuntu 18.04.2 LTS nvidia-docker2 版本:2.0.3 错误描述:在安装nvidia-docker2的时候报dpkg依赖错误 nvidia-docker2 : 依赖: docker-ce (= 5:18.09.0~3-0~ubuntu-bionic) 先看一下依......

Pulsar-V
昨天
3
0
学习笔记1-goland结构体(struct)

写在前面:若有侵权,请发邮件by.su@qq.com告知。 转载者告知:如果本文被转载,但凡涉及到侵权相关事宜,转载者需负责。请知悉! 本文永久更新地址:https://my.oschina.net/bysu/blog/3036...

不最醉不龟归
昨天
4
0
【转】go get命令使用socket代理

由于某些不可描述的原因,国内使用go get命令安装某些包的时候会超时导致失败,比如net包、sys包、tools包等。第一种解决办法就是自己从git上下载后添加链接到GOPATH中,比如: 1234...

yiduwangkai
昨天
6
0
从上往下打印出二叉树的每个节点,同层节点从左至右打印。

//第一种做法 public class Solution { public ArrayList<Integer> PrintFromTopToBottom(TreeNode root) { ArrayList <Integer> li=new ArrayList<Integer>(); ArrayList <TreeN......

南桥北木
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部