文档章节

Python爬虫: 抓取One网页上的每日一话和图

御前带刀红衬衫
 御前带刀红衬衫
发布于 2016/05/05 20:43
字数 1383
阅读 191
收藏 11

先说下需求:

最近打算搜集点源数据,丰富下生活。嗯,最近看到One这个APP蛮好的。每天想你推送一张图和一段话。很喜欢,简单不复杂。而我想要把所有的句子都保存下来,又不想要每个页面都去手动查看。因此,就有了Python。之前有点Python基础,不过没有深入。现在也没有深入,用哪学哪吧。

(一)
一台MAC电脑

(二)Python环境搭建(所有命令都是在terminal中输入的)

  • 安装homebrew
    /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

  • 安装pip:这里我在terminal中输入python -v,homebrew会自动帮你升级Python到2.7.11版本的。2.7.11版本里自带了pip工具。

  • 安装virtualenv:
    pip install virtualenv

  • 安装request和beautifulsoup4:
    pip install requests beautifulsoup4
    参考这里

(三)分析
目的:找出三个内容所在的网页标签的位置,然后将它们提取出来。
网址:http://wufazhuce.com/one/1293
谷歌浏览器,右键->显示网页源代码,然后就会弹出一堆HTML的东西了。这样的:


网页源文件

我想要的内容是这段话:“即使热恋者的情感是错觉、幻象或自恋行为,那又何妨,所谓人生就是一段不断追求情爱的路程。 by 森山大道”。它在图中画红线的地方。在<heda>标签里的<meta>中,之后会用到,先往下看。
图片的链接在哪里?显然不在<head>中,往下找,然后就在<body>中,发现2处和图片类似的链接。看图

 

图片链接地址

哪个链接是呢,点击去,发现后一个链接,也就是67行这个img标签的链接是。
然后,我还想知道哪一天的图和文字。嗯,在回到<head>标签里,很明显有个<title>,里面的东西就是我们要的。这样:
<title>VOL.1271 - 「ONE · 一个」</title>
(四)python编码
想要抓取网页上的内容,又不想自己去解析HTML,只好求助万能的Google了。然后就找到了上面的链接。主要有两个工具:request加载网页,BeautifulSoup4解析HTML。

首先,抓取我们需要的哪三个内容:
进入python环境,然后敲入下面的代码:

import requestsimport bs4
response = requests.get('http://wufazhuce.com/one/1295')
soup = bs4.BeautifulSoup(response.text,"html.parser")

这样,就可以将网页信息存储到soup中了。你可以敲入print soup试试。

接下来,我们获得<title>VOL.1271 - 「ONE · 一个」</title>中的数字1271。怎么获得呢,beautifulsoup4教程,提供了很好的方法,可以通过tag查找得到title的内容,然后截取字符串。termianl中输入:

soup.title.string[3:7]

title是tag值,string是tag=title的字符串的值,也就是<title></title>之间的值,因为只有一个<title>tag,所以不用做判断,直接获取即可。

接下来,获取一段话。


 

这段话在<meta>中,而这里又有太多的<meta>了,怎么办。这里要用到select方法了,它可以查找所有的<meta>,并返回一个列表。还要用到get方法,get可以获得tag的属性,如tag: <meta attr='abc'> tag.get('attr')值等于abc。这里我们要获取的属性是name,通过name='description'来区分。

for meta in soup.select('meta'):    if meta.get('name') == 'description':        print meta.get('content')

接下来,在两个img标签中,查找第2个img标签标定的链接。这里通过find_all方法,它可以查找所有的符合要求的标签。

soup.find_all('img')[1]['src']

这样,我们就把所需要的信息找出来了。


终端示例

等等,之后我们还需要并发和保存文件。在此之前,先来看点别的。map函数有两个参数,一个是函数,一个是序列。将序列的每个值,作为参数传递给函数,返回一个列表。参考这里
示例:

def echoInfo(num):
    return num

data = map(echoInfo, range(0,10))print data

结果: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
然后并发, python可以跨平台使用,自身提供了多进程支持模块:multiprocessing。而pool可以用来创建大量的子进程。
保存数据到文件。这里我们是吧数据解析后存储到字典中,然后序列化为JSON模型,最后保存到文件的。
即:字典->JSON模型->存储到文件。
字典->JSON模型,使用的是JSON模块的json.dumps方法,该方法有一个参数,参数为字典,返回值是JSON字符串。
JSON模型->文件,使用的是json.load方法,可以将JSON存储到文件中。

全部的代码示例如下:

import argparseimport refrom multiprocessing import Poolimport requestsimport bs4import timeimport jsonimport io

root_url = 'http://wufazhuce.com'def get_url(num):
    return root_url + '/one/' + str(num)def get_urls(num):
    urls = map(get_url, range(100,100+num))    return urlsdef get_data(url):
  dataList = {}
  response = requests.get(url)  if response.status_code != 200:      return {'noValue': 'noValue'}
  soup = bs4.BeautifulSoup(response.text,"html.parser")
  dataList["index"] = soup.title.string[4:7]  for meta in soup.select('meta'):    if meta.get('name') == 'description':
      dataList["content"] = meta.get('content')
  dataList["imgUrl"] = soup.find_all('img')[1]['src']  return dataListif __name__=='__main__':
  pool = Pool(4)
  dataList = []
  urls = get_urls(10)
  start = time.time()
  dataList = pool.map(get_data, urls)
  end = time.time()  print 'use: %.2f s' % (end - start)
  jsonData = json.dumps({'data':dataList})  with open('data.txt', 'w') as outfile:
    json.dump(jsonData, outfile)

本文转载自:http://www.jianshu.com/p/c4f35dfe1a1f

共有 人打赏支持
御前带刀红衬衫
粉丝 22
博文 15
码字总数 13374
作品 0
南宁
程序员
同事每天都买两张彩票,利用Python抓取彩票中奖数据,可笑至极!

问他为什么每天都要买彩票,他说经常看新闻,看到很多人中大奖。我笑着反问,彩票预测可信吗?中奖的概率又是多少呢? (私信小编001 、002 、003 、007任意即可获取Python学习资料) 我不知...

Python新世界
07/14
0
0
这是我最想推荐给程序员们看的基于Python3.4实现的爬虫书

互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问。但是,这些数据难以复用。它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用。从网页中抽取数据的过程又称为网络爬...

异步社区
07/11
0
0
Python异步加载爬虫,护士私密照源源不断,Ajax抓取速度惊人!

利用aiohttp这个库来进行异步协程提速! 如果Python爬虫不仅在代码编写上展现速度,而且在爬取过程中表现出优越感,最好的就是去下载图片吧,而下载图片最好的代表当然是......我就不多说了。...

Python新世界
07/17
0
0
Python 爬虫工程师必学——App数据抓取实战

网盘下载 Python 爬虫工程师必学 App数据抓取实战 爬虫分为几大方向,WEB网页数据抓取、APP数据抓取、软件系统数据抓取。本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭...

qq__2304636824
10/06
0
0
一套来自年薪40W的Python大神分享的学习体系

不论你是对Python初出茅庐,还是如指诸掌,这篇文章对你的收获总归还是有的啦,可能只是程度的问题。好了不扯远了,来说正题,下面在分享这套体系前还是要让Python做一下“自我介绍”。 1.Py...

Python共读
08/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

腾讯投资最高1.75亿美元正式进军菲律宾移动支付市场

菲律宾长途电话公司(PLDT)公司今日宣布,中国互联网巨头腾讯和私募股权公司KKR将获得该公司旗下金融科技公司Voyager Innovations的少数股权。 PLDT在一份声明中称:“腾讯和KKR最多将分别收...

linuxCool
21分钟前
2
0
正则介绍及grep/egrep用法

10月16日任务 9.1 正则介绍_grep上 9.2 grep中 9.3 grep下 扩展 把一个目录下,过滤所有*.php文档中含有eval的行 grep -r --include="*.php" 'eval' /data 正则介绍 正则就是一串有规律的字符...

hhpuppy
32分钟前
1
0
J2Cache 中使用 Lettuce 替代 Jedis 管理 Redis 连接

一直以来 J2Cache 都是使用 Jedis 连接 Redis 服务的。Jedis 是一个很老牌的 Redis 的 Java 开发包,使用很稳定,作者维护很勤勉,社区上能搜到的文章也非常非常多。算是使用范围最广的 Redi...

红薯
今天
12
0
一个可能的NEO链上安全随机数解决方案

0x00 困境 链上安全随机数生成应该算是一个比较蛋疼的问题,哪怕你的系统再牛逼,合约程序困在小小的虚拟机里,哪怕天大的本事也施展不开。 更悲催的是,交易执行的时候,是在每一个节点都执...

暖冰
今天
1
0
【大福利】极客时间专栏返现二维码大汇总

我已经购买了如下专栏,大家通过我的二维码你可以获得一定额度的返现! 然后,再给大家来个福利,只要你通过我的二维码购买,并且关注了【飞鱼说编程】公众号,可以加我微信或者私聊我,我再...

飞鱼说编程
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部