加载中
python-02:学习路线

随时更新的学习路线 1. python基础知识 麦子学院的几个短视频 python 爬虫基础 2. 以python爬虫作为入手点深入学习 1. 爬虫基础知识,最简单的爬虫程序,理解最简单的爬虫程序 2. 丑事百科实...

2015/11/23 21:55
300
python-06:爬虫基础知识

本文转自伯乐在线:http://python.jobbole.com/81334/ 1. 爬虫是什么 简单的说,爬虫是获取网上的信息的一种方法 2. 编写爬虫程序要学习什么知识 1. Python基础知识 2. Python中urllib和url...

2015/11/24 09:48
209
python-21:爬取糗事百科段子--总结

好了,我们第一个实践的实例--爬取糗事百科段子,到这里就结束了 我们来看看我们做了什么 1. 我们花一个钟的时间把python的知识点过了一遍,对python有了一个基本的认识 2. 然后在python的几...

2015/11/25 09:20
139
python-05:怎么开始写爬虫

前面已经学习了基础知识,然后选择了继续学习爬虫,那么现在来考虑一个实际的问题: 你觉得你有没有这个能力,够不够帅能够在现在自己写出一个爬虫 反正我没有,不帅,不能 在做每件事情之前...

2015/11/24 09:45
243
python-28:多级页面爬取

学习了这么久,其实到这里才算是真正意义上的爬虫 对于爬虫,有一个很有意思而且很形象的解释,把互联网当成一张蜘蛛网,那么,每一个网页链接都是 一个节点,这个节点连接这通往其他节点的路...

2015/11/26 13:24
182
python-07:最简单的爬虫程序

其实到这里我也不知道应该怎么讲,因为一开始我并不知道这个最简单的爬虫程序怎么写,单靠我自己想是写不出来的,所以就上网找了个程序,我要先让程序运行起来然后再慢慢的一行一行代码的去解...

2015/11/24 09:51
514
python-59: 基础篇完

经历了这漫长的时间,我们的基础篇终于讲完了,来说几个问题 1. 基础篇主要讲了什么 基础篇我们主要是使用urllib,urllib2和cookielib这几个库来讲解爬虫的几个实例,为什么要选择这几个库呢?...

2015/12/15 13:40
120
python-37: 模拟登录

我们通过前面的两个实例讲解了爬虫的简单应用,但是在很多网站中,你将会发现你写的所有代码都没有用 因为你没有登录 登录网站是一种很常见的行为,就拿百度贴吧来说,你需要先登录才能发贴回...

2015/12/01 20:00
180
python-14:异常处理

异常处理是python中对错误的另一种处理方式 至于为什么在爬虫代码中加入异常处理,异常处理是什么,在这里给大家两个网站,有兴趣的话可以仔细研究 1. http://python.jobbole.com/81341/ 伯乐...

2015/11/25 08:54
144
python-60:Python 爬虫的工具列表

本文转载自伯乐在线:http://python.jobbole.com/82633/ 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab - 网络库(基于pycurl)...

2015/12/15 20:29
493
python-12:怎么在爬虫代码中伪装header

还是这张图,我们看到,header中有很多信息,究竟哪一个是我们需要的呢 其实有可能一个也不需要,有可能全部都需要,这取决于你访问的网页的服务器需不需要你提供这些信息 最常用到的两个信息...

2015/11/24 10:07
289
python-04:接下来做什么

如果你已经点开我前面给的链接并且认真的学习了这些视频,那么恭喜你,你已经入门了,你可能还对自己没有信心,但是,你确确实实已经入门了,这其实是一件高兴的事,你仅仅花了60多分钟的时间...

2015/11/24 09:44
152
python-50: 验证码

好了,到这里这个实例就讲解完了,大致的流程我在上一小节已经写出来了,这里就不重复了 这仅仅是模拟登陆中最最简单的例子,因为你不用面对验证码的机制或者是其他的登陆限制,你可以试着去...

2015/12/09 16:30
407
python-75:BS4实例1源码

最终实现我们所有功能的源码是这样的 #!/usr/bin/env python # -*- coding:UTF-8 -*- __author__ = '217小月月坑'   ''' 实例一最终源码 '''   from bs4 import BeautifulSoup i...

2016/01/11 19:16
252
python-61: Beautiful Soup 4

前面已经列举出来了很多爬虫有用的工具列表,我们不用每一个都学习,只要选择你喜欢的工具来学习就行,要知道自己的目的,自己想学什么,大部分的工具网上都有资料,只要感兴趣,应该很容易学...

2015/12/17 19:43
128
python-11:HTTP headers是什么

1. HTTP Headers 是什么 HTTP Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息 好吧其实这有点拗口的解释看不懂也没关系,还有一个更直观的表示 2....

2015/11/24 10:04
204
python-40: 哪个cookies才是我们需要的

我们已经获取了cookies,本来按照剧情发展,我们下一步应该是使用这个cookies模拟登录了,但是偏偏我是一个比较欠的人,我想要弄清楚我们前面三种方法获取到的cookies是不是一样的,哦,不。其...

2015/12/02 19:14
215
python-23:爬取第一个网页的源码

在这个项目中,我们使用到的网址是 http://product.yesky.com/more/506001_31372_photograph_1.shtml 首先是第一个网页源码的爬取,整体代码跟上一个类似,但是为了能让大家更熟悉代码的编写...

2015/11/25 12:53
187
python-10:将网页源码爬取下来

第一步我们先来爬取糗事百科的网页源码 糗事百科的网址是:http://www.qiushibaike.com/ 这也是我们等下要传入的url 其实前面的最简单的爬虫程序就是爬取网页的源代码,现在我们试着用它来爬...

2015/11/24 10:02
208
python-13:解决header的问题

前面我们已经讲了header是什么以及怎样用代码伪装header,现在来看看修改后的代码并看看运行结果 #!/usr/bin/env python # -*- coding:UTF-8 -*- __author__ = '217小月月坑' import...

2015/11/24 10:09
210

没有更多内容

加载失败,请刷新页面

返回顶部
顶部