加载中
python-35:urllib 和 urllib2 模块

首先,urllib 和 urllib2 是python 自带的模块,所以我们可以通过官网文档来查看它们的详细信息,这里依然给出网址,感兴趣的同学可以看一下 urllib模块:http://python.usyiyi.cn/python_27...

2015/12/01 18:56
336
python-60:Python 爬虫的工具列表

本文转载自伯乐在线:http://python.jobbole.com/82633/ 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab - 网络库(基于pycurl)...

2015/12/15 20:29
494
python-34:极视界爬虫总结

我们的第二个例子到这里也要结束了,相对于第一个来说,这个实例更加深入,涉及到了更多的模块和方法,但是通过一步步的实践下来,你会发现这其实不难,因为我们有很多的网上的资源,你只要知...

2015/12/01 11:47
172
python-03:用最简单快速的方法入门

用最简单快速的方法,在最短的时间内轻松入门

2015/11/23 21:59
258
python-06:爬虫基础知识

本文转自伯乐在线:http://python.jobbole.com/81334/ 1. 爬虫是什么 简单的说,爬虫是获取网上的信息的一种方法 2. 编写爬虫程序要学习什么知识 1. Python基础知识 2. Python中urllib和url...

2015/11/24 09:48
209
python-26:创建一个文件夹存放图片

前面已经学习了怎么下载图片以及怎么下载多张图片,这仅仅只是一个开始,后面我们下载的图片会比这些多得多,所以我希望我下载的图片能分门别类的保存,我不喜欢一打开我的主目录就被一大堆图...

2015/11/26 13:09
430
python-02:学习路线

随时更新的学习路线 1. python基础知识 麦子学院的几个短视频 python 爬虫基础 2. 以python爬虫作为入手点深入学习 1. 爬虫基础知识,最简单的爬虫程序,理解最简单的爬虫程序 2. 丑事百科实...

2015/11/23 21:55
301
python-25:将图片下载到本地

得到图片的网址之后怎么将图片下载到本地呢? 在python中我们使用 urllib 库里面的 urllib.urlretrieve() 函数 又是新函数,还记得上回在使用urllib2.Request() 函数的时候因为传参数时没指定...

2015/11/26 13:03
193
python-21:爬取糗事百科段子--总结

好了,我们第一个实践的实例--爬取糗事百科段子,到这里就结束了 我们来看看我们做了什么 1. 我们花一个钟的时间把python的知识点过了一遍,对python有了一个基本的认识 2. 然后在python的几...

2015/11/25 09:20
139
python-14:异常处理

异常处理是python中对错误的另一种处理方式 至于为什么在爬虫代码中加入异常处理,异常处理是什么,在这里给大家两个网站,有兴趣的话可以仔细研究 1. http://python.jobbole.com/81341/ 伯乐...

2015/11/25 08:54
144
python-36:在下一个实例开始之前先闲聊几句

最近被模拟登陆虐得不要不要的,想着反正这个博客开通到现在好像也没什么人看,所以在这里吐吐槽应该没事吧 1. 首先说我对学习的一些看法吧 从实习到工作现在已经满一年了,期间加上毕业设计...

2015/12/01 19:55
105
python-07:最简单的爬虫程序

其实到这里我也不知道应该怎么讲,因为一开始我并不知道这个最简单的爬虫程序怎么写,单靠我自己想是写不出来的,所以就上网找了个程序,我要先让程序运行起来然后再慢慢的一行一行代码的去解...

2015/11/24 09:51
514
python-44: cookielib的使用

本篇参考自 伯乐在线 :http://python.jobbole.com/81344/ 前面讲解了怎么使用浏览器的工具找到cookies,以及怎么直接使用cookies登陆网站等等,我们这一小节来讲解一下cookies的其他操作 py...

2015/12/07 12:51
151
python-59: 基础篇完

经历了这漫长的时间,我们的基础篇终于讲完了,来说几个问题 1. 基础篇主要讲了什么 基础篇我们主要是使用urllib,urllib2和cookielib这几个库来讲解爬虫的几个实例,为什么要选择这几个库呢?...

2015/12/15 13:40
120
python-43:两个重要的问题

在模拟登录中,还有两个重要的问题,前面一直找不到提出来的机会,在这里一起提一下,这两个问题就是 headers 内容的增加和 cookies 的有效期 1. headers 内容的增加 我们先看一张图和两段代...

2015/12/03 13:23
185
python-62: BS4的基本知识

我们前面提出了几个问题,现在就来一个一个的解决这些问题 1.BS4是什么? 官方文档上是这样写的: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 所谓的提取数据就是在网页...

2015/12/21 20:00
605
python-23:爬取第一个网页的源码

在这个项目中,我们使用到的网址是 http://product.yesky.com/more/506001_31372_photograph_1.shtml 首先是第一个网页源码的爬取,整体代码跟上一个类似,但是为了能让大家更熟悉代码的编写...

2015/11/25 12:53
191
python-05:怎么开始写爬虫

前面已经学习了基础知识,然后选择了继续学习爬虫,那么现在来考虑一个实际的问题: 你觉得你有没有这个能力,够不够帅能够在现在自己写出一个爬虫 反正我没有,不帅,不能 在做每件事情之前...

2015/11/24 09:45
243
python-47: 传送数据的两种方法

前面我们已经讨论了模拟登陆中需要传送什么数据以及怎么找出传送的数据等等,在python 中,数据的传送有两种方式,POST和GET POST 和 GET 是 HTTP 里面的两种请求方法,详细的介绍可以看这...

2015/12/07 22:02
239
python-10:将网页源码爬取下来

第一步我们先来爬取糗事百科的网页源码 糗事百科的网址是:http://www.qiushibaike.com/ 这也是我们等下要传入的url 其实前面的最简单的爬虫程序就是爬取网页的源代码,现在我们试着用它来爬...

2015/11/24 10:02
208

没有更多内容

加载失败,请刷新页面

返回顶部
顶部