加载中
python-83:公务员时间源码 V-0.1

好了,我们前面已经将整个实例的功能分为三大块,并且也已经分别实现了,现在我们试着将所有功能整合到一起看看 我的源码是这样的 #!/usr/bin/env python # -*- coding:UTF-8 -*- __aut...

2016/01/21 21:39
125
python-82:交互部分模拟实现的源码

再来回顾一些我们设想的交互部分,为了方便对照,直接放在这里 我的设想是这样的,我们会将文章的标题做成一个列表来显示,并将这些标题排好序,然后输入标题前面的序号来查看相应的文章,在...

2016/01/21 21:23
100
python-81:交互

我们前面已经说过,我们这个实例要设置交互,从现在开始,我们就要想办法来实现它 首先,我们要先明确两个问题,什么是交互,我们想要设置什么样的交互 什么是交互 交互原本是一个计算机术语...

2016/01/21 21:17
64
python-80:获取文章的内容

获取文章的内容是这个实例的第二步,但是这个看起来不难实现,因为,我们要获取的文章都是发布在伯乐在线这个网站里面的,也就是说,他们的网页代码的形式和组织结构都是一样的,这就意味着,...

2016/01/21 21:14
92
python-79:为什么要对日期进行处理

为什么要对日期进行处理 前面说过,每一页显示的文章数有20条,而每天更新的也就三四条,如果每次都将20条信息显示出来的话,必然会有很多重复的信息,这样不好,所以我希望能按日期搜索,比...

2016/01/21 21:10
83
python-78:对日期格式进行处理

好,这一小节来讲讲怎么对日期格式进行处理,我们再来看看那难看的日期,这将会是它最后一次出现在我们的视线中                 2016/01/14 · 我们的处理就是将空格...

2016/01/21 20:59
59
python-77:获取最新文章的标题,网址

来看看我们这个实例使用到的网址,大家可以先打开看看:http://blog.jobbole.com/all-posts/ 我们要做的第一步就是从这个网页中获取最新文章的标题和网址。可以看到,网页上每一页显示20篇文...

2016/01/15 21:31
225
python-76:BS4实例2:公务员时间

最近一段时间,我们组长每天来上班的第一件事情就是从前台拿当天的报纸到座位上看,还打趣的说,这像不像公务员上班时候的样子 当然,这并不是调侃或者实力嘲讽,实际上,每天半个小时左右的...

2016/01/15 21:27
90
python-75:BS4实例1源码

最终实现我们所有功能的源码是这样的 #!/usr/bin/env python # -*- coding:UTF-8 -*- __author__ = '217小月月坑'   ''' 实例一最终源码 '''   from bs4 import BeautifulSoup i...

2016/01/11 19:16
252
python-74:按原格式下载BS4官方文档

好了,前面也进行了几次失败的尝试,我来总结一下啊 首先,我们所有的尝试本质上是基于一个方法,直接将获取出来的所有数据一次性删除。我们选择了一个看似最简单的方法,我们将数据获取出来...

2016/01/06 20:57
258
python-73:让我们来解决这个不和谐的符号

上一小节我们认识了删除三兄弟,但是我们最重要的还是要解决问题,首先,毫无疑问,我们肯定要从这三种方法中选一个来使用,虽然前面已经讲解了这三个函数的使用方法并且对实例进行了分析,但...

2016/01/06 20:52
134
python-72:BS4中的clear(),extract(),decompose()

前面我们已经将正文内容获取出来了,其实到这里已经可以完成这个实例的要求了,但是我在结果中发现一些乱入的字符 就是这些红色框框圈出来的符号,本来这是不影响使用的,但对于轻微强迫症的...

2016/01/04 20:07
1K
python-71:get_text()

上一小节我们已经实现将带有正文部分的那段源码抠出来了,我们现在要考虑的问题是怎么获取里面的文字内容。 获取文字内容前面也遇到过,.string 方法,但是这个方法只能获取单个tag的内容,如...

2016/01/04 20:02
1K
python-70:使用BS4获取正文内容

上一小节我们学习了find 和 find_all 函数,我们也知道find_all 函数返回的结果是一个列表,然而我们并不想要列表,列表不利于我们查看,所以我们只能使用find,find会将匹配的结果直接返回...

2016/01/03 20:04
593
python-69:find() 和 find_all()

find 和 find_all()的详细说明和使用方法在BS4文档的"搜索文档树" 这一章节里面,这一章节的内容对爬虫来说很重要,而且也不是很多,建议大家还是认真的学习这一小部分的内容,我这里就简单的...

2015/12/31 22:30
502
python-68:BS4获取多个标签的文本

上一小节我们讲解了如何获取源码并提取文章的标题,我们使用的是soup.title.string ,经过对网页源码的分析,我发现文章的内容大部分都在<p>...</p>标签里,就像这样,所以我现在想将所有<p>...

2015/12/31 22:28
1K
python-67:BS4简单浏览数据的方法

对于我们这个实例来说,首先第一步应该是将网页源码下载下来,这个工作我们已经熟悉得不能再熟悉了,这里就直接贴上代码 import urllib2 url = 'http://beautifulsoup.readthedocs.org/z...

2015/12/30 20:31
307
python-66:BS4实例--下载BS4官方文档

前面已经对BS4有了简单的认识和讲解,该讲的都讲了,原本也已经想好了一个实例,但是现在想往后推一推,因为我实在受不了了,我们前面说的参考文档是BS4的官方文档,就是这货:http://beauti...

2015/12/30 20:28
301
python-65:对BS4传入文件的一些疑惑

前面简单的给BS4入了门,但是有一个地方却引起了我的兴趣, soup = BeautifulSoup(open("index.html")) 还有官方文档里的一段描述:"可以传入一段字符串或一个文件句柄" open("index.html"...

2015/12/22 20:21
257
python-64:无痛的入门BS4

好了,现在开始来认真的学习BS4,我觉得学习应该是快乐的一件事情,尤其是在你学习一个新知识的时候,我不喜欢那些专业性很强的文档或者教程,里面的名词我看都看不懂,怎么去学习这门知识,...

2015/12/22 20:12
244

没有更多内容

加载失败,请刷新页面

返回顶部
顶部