文档章节

python3简单爬虫实现代码

mysoftsky
 mysoftsky
发布于 2014/05/30 16:41
字数 321
阅读 293
收藏 0

分享一个python实现的网络爬虫代码。转自:http://www.cnblogs.com/yes123/p/3761388.html 

写了个python3的。代码非常简单就不解释了,直接贴代码。

#test rdp  import urllib.request import re #登录用的帐户信息 data={}
data['fromUrl']='' data['fromUrlTemp']='' data['loginId']='12345' data['password']='12345' user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #登录地址 #url='http://192.168.1.111:8080/loginCheck' postdata = urllib.parse.urlencode(data) 
postdata = postdata.encode('utf-8')
headers = { 'User-Agent' : user_agent } #登录  res = urllib.request.urlopen(url,postdata) #取得页面html
strResult=(res.read().decode('utf-8')) #用正则表达式取出所有A标签 p = re.compile(r'<a href="(.*?)".*?>(.*?)') for m in p.finditer(strResult): print (m.group(1))#group(1)是href里面的内容,group(2)是a标签里的文字

关于cookie、异常等处理看了下,没有花时间去处理,毕竟只是想通过写爬虫来学习python。

您可能感兴趣的文章:


本文转载自:

共有 人打赏支持
mysoftsky
粉丝 7
博文 176
码字总数 4429
作品 0
廊坊
私信 提问
5个python爬虫教材,让小白也有爬虫可写,含视频教程!

认识爬虫   网络爬虫,如果互联网是一张蜘蛛网,网络爬虫既是一个在此网上爬行的蜘蛛,爬了多少路程即获取到多少数据。 python写爬虫的优势   其实以上功能很多语言和工具都能做,但是用...

柯西带你学编程
06/12
0
0
月薪5千加班到凌晨,月薪5万5点下班,差别究竟在哪里?

说起程序员人们的第一印象就是工资高、加班凶、话少钱多头发少。再加上现在科技互联网公司太吃香,BAT、华为和小米等公司程序员加班情况被广泛传播,程序员用生命在敲代码的印象刻在了很多人...

技术小能手
09/18
0
0
Python获取全网电影,深夜有小电影看难道不是你学习的初衷吗?

你以为这是黑客?NO,这只是简单的Python爬虫。如今各种各样的影视Vip收费出现在我们的视野中,对于我们来说也许是一部期待已久的电影电视,可是对于网站,App开发人员来说只是一组数据,为了...

柯西带你学编程
06/05
0
0
5行python代码实现简单的网络爬虫

1、python代码如下图,我们从 http://gitbook.cn/这网站中爬取数据。 2、运行上图代码之前要下载安装好chardet和requests安装包,可以在我的博客里免费下载这两个安装包。解压好后放到安装p...

YU儿
06/26
0
0
156个Python网络爬虫资源,妈妈再也不用担心你找不到资源了

本列表包含Python网页抓取和数据处理相关的库。 前几天有私信小编要Python的学习资料,小编整理了一些有深度的Python教程和参考资料,从入门到高级的都有,文件已经打包好了,正在学习Pytho...

雁横
05/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

如何在Angular中使用better-scroll插件

由于需要在一个固定的的高度做无限滚动,本来css的overflow-y也可以完成的,奈何安卓不是很流畅,还很生硬,就是用了第三方库better-scroll,配合angular的ng-content。angular的ng-content和...

前端攻城老湿
11分钟前
2
0
Js中apply和Math.max()函数的问题及区别

这篇文章主要介绍了js中apply和Math.max()函数的问题,本文给大家带来两种答案,每一种答案给大家介绍的非常详细,在文章底部给大家提到了js中Math.max.apply和Math.max的区别,写的十分的全...

前端攻城小牛
12分钟前
2
0
解决 SpringBoot 不继承父starter-parent打包不包含依赖的问题

由于项目需要继承自己平台的父 parent , 有的模块是纯 api ,不能有任何依赖, 所以父 parent 不能直接引入 springboot, 单独给非 boot 项目排除依赖的话又特别的麻烦, 且不好把控。 记得刚接触...

stys35
14分钟前
1
0
vuex进阶知识点巩固

我们先回忆一下上一篇的代码 computed:{ getName(){ return this.$store.state.name }} 这里假设现在逻辑有变,我们最终期望得到的数据(getName),是基于 this.$store.state.na...

嫣然丫丫丫
29分钟前
1
0
Python出现安全策略问题的解决方法

Python运行期间出现如下错误 import: attempt to perform an operation not allowed by the security policy `PS' @ error/constitute.c/IsCoderAuthorized/408. 解决方法:在脚本的开头添加......

大糊涂
36分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部