文档章节

python-21:爬取糗事百科段子--总结

达岭凹老大
 达岭凹老大
发布于 2015/11/25 09:20
字数 727
阅读 139
收藏 1

好了,我们第一个实践的实例--爬取糗事百科段子,到这里就结束了

我们来看看我们做了什么
    1. 我们花一个钟的时间把python的知识点过了一遍,对python有了一个基本的认识
    2. 然后在python的几个发展大方向中我们选择了爬虫作为切入点
    3. 为了编写爬虫,我们先是了解了爬虫的简单原理,然后从最简单的爬虫程序开始一步一步的注释,实现将网页源码爬取下来
    4. 为了从源码中找出我们想要的数据,我们介绍了分析网页源码的方法和工具,加入了正则表达式的学习
    5. 通过丑事百科的实例,将我们所学的知识点全部串联起来
    

重要的知识点总结:
    1. 最简单的爬虫程序
            整个流程是这样的
                1. 导入 urllib2 库函数
                2. 使用 Rquests 构造请求
                3. 使用 urlopen 方法发送请求
                4. 将网页源码读取并显示出来
        不管是什么代码,都希望能常常敲一下,现在你可能看不出什么效果,但是后面你会发现你记得很牢
        
    2. 分析网页的过程
        熟悉你里浏览器,善用工具,在分析网页源码时注意总结规律
    
    3. 正则表达式
        基本上说记住 .*? 和 (.*?) 就好
        
从这个例子我们也可以知道一个爬虫的原理是什么了

    爬虫就是通过程序模拟浏览器的行为,在我们打开网址的时候,浏览器和服务器之间的数据是通过发送请求,然后响应这样的形似来的,所以我们在代码中就要模拟这种行为,Rquests 是构造请求,urlopen 是发送请求,就这么简单


闲聊几句
    今天是2015-12-01,学习python的第15天,这其中写文档找各种资料的时间比真正写代码的时间要长,但是还好,这一系列的东西直到现在还没有断,并且已经想好之后的很多内容了,我本身也是新手,只是因为要写这一系列的......额......姑且叫做博客吧,所以花费了一些时间在网上查找,但是收获到的比预想中的要多得多,也对学习的一个思路之类的有了更深的认识。我因为本身还有跟python爬虫不相关的本职工作要做,所以也没什么时间雕琢,不过以我的水平,估计再怎么雕琢也难出花来,而且这个基本是现学现卖,其中肯定有很多写得不到位的地方,等到有时间会重新整理
    
    

© 著作权归作者所有

达岭凹老大
粉丝 60
博文 83
码字总数 69643
作品 0
南宁
程序员
私信 提问
分享我自己写的一套Python爬虫学习经验

最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴...

崔庆才
2015/02/23
4K
25
python-20:爬取糗事百科段子源码

到这里,我们爬取糗事百科这个入门项目已经结束了,下面贴上源码: ---------------------------------爬取糗事百科段子源码---------------------------- #!/usr/bin/env python -- coding:...

达岭凹老大
2015/11/25
200
0
Python3.x实现简单爬虫—爬糗事百科

1、Python版本:3.5,urllib库, 2、爬取糗事百科24小时热门段子,第一页(网页地址:http://www.qiushibaike.com/hot/1) 3、使用正则匹配, re库 4、Python2的urllib、urllib2合并成pytoh...

大猩猩secrets
2016/10/25
76
0
Python爬虫框架Scrapy架构和爬取糗事百科段子结果

根据上篇文章《Python爬虫框架Scrapy之爬取糗事百科大量段子数据》(传送门:Python爬虫框架Scrapy之爬取糗事百科大量段子数据),写好了糗百段子的爬虫,接下来就是开始运行然后获取结果了。...

铁扇公主1
2017/05/24
254
0
python—爬虫

1.1 介绍 通过过滤和分析HTML代码,实现对文件、图片等资源的获取,一般用到: urllib和urllib2模块 正则表达式(re模块) requests模块 Scrapy框架 urllib库: 1)获取web页面 2)在远程htt...

huangzp168
2018/01/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

CSS3 : transition 属性

本文转载于:专业的前端网站➧CSS3 : transition 属性 CSS3的 transition 属性用于状态过度效果! 1、语法: 1 transition: property duration timing-function delay;2 -moz-transition: ...

前端老手
27分钟前
6
0
一个简单的加密工具,性能貌似不行,待优化

一个简单的加密工具,性能貌似不行,待优化 package com.kxvz.common.crypt;import javax.crypto.Cipher;import javax.crypto.KeyGenerator;import javax.crypto.SecretKey;import java.i......

Kxvz
29分钟前
5
0
vue实现路由懒加载

一、为什么要实现懒加载 减少首屏加载时间,避免白屏 二、常用的懒加载方式有两种:即使用vue异步组件 和 ES中的import a、vue异步加载: import Vue from 'vue' import Router from 'vue-ro...

Bing309
32分钟前
6
0
axios拦截器

axios.interceptors.response.use(response => { if (response.data.code == 0) { return response.data } else if (response.data.code == 600) { Cookies.remove('Admin-Token') router.pu......

Cyoya
34分钟前
6
0
给大家分享下部署云桌面的几个小技巧

从去年4月份开始我们公司就开始使用云桌面来进行上网办公的,在这一年多的使用过程中并没有出现像网上和有些用户说的那样,说云桌面各种坑老是出现这样和那样的问题,而我们之所以用的还不错...

GZASD
34分钟前
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部