文档章节

Python爬虫实战(4):豆瓣小组话题数据采集—动态网页

fullerhua
 fullerhua
发布于 2016/07/18 10:16
字数 1208
阅读 1228
收藏 30

###1, 引言 注释:上一篇《Python爬虫实战(3):安居客房产经纪人信息采集》,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功。本篇是针对动态网页的数据采集编程实战。

Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫。为了适应各种应用场景,GooSeeker的整个网络爬虫产品线包含了四类产品,如下图所示:

本实战是上图中的“独立python爬虫”的一个实例,以采集豆瓣小组讨论话题(https://www.douban.com/group/haixiuzu/discussion?start=0 )信息为例,记录整个采集流程,包括python和依赖库的安装,即便是python初学者,也可以跟着文章内容成功地完成运行。

###2,Python和相关依赖库的安装

  • 运行环境:Windows10

####2.1,安装Python3.5.2

####2.2,Lxml 3.6.0

  • Lxml官网地址: http://lxml.de/
  • Windows版安装包下载: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
  • 对应windows下python3.5的安装文件为 lxml-3.6.0-cp35-cp35m-win32.whl
  • 下载完成后,在windows下打开一个命令窗口,,切换到刚下载的whl文件的存放目录,运行pip install lxml-3.6.0-cp35-cp35m-win32.whl

####2.3,下载网页内容提取器程序 网页内容提取器程序是GooSeeker为开源Python即时网络爬虫项目发布的一个类,使用这个类,可以大大减少数据采集规则的调试时间,具体参看《Python即时网络爬虫项目: 内容提取器的定义》

####2.4,安装selenium

  • pip install selenium

####2.5,PhantomJS下载

  • 下载地址 http://phantomjs.org/download.html
  • 把下载得到的phantomjs-2.1.1-windows.zip解压到本机的某个文件夹下
  • 把解压后的文件夹中的phantomjs.exe的完整路径加文件名记录下来,用来替换下面代码的 browser = webdriver.PhantomJS(executable_path='C:\phantomjs-2.1.1-windows\bin\phantomjs.exe') 这一行中的两个单引号之间的内容。

###3,网络爬虫的源代码

# _*_coding:utf8_*_
# douban.py
# 爬取豆瓣小组讨论话题

from urllib import request
from lxml import etree
from gooseeker import GsExtractor
from selenium import webdriver

class PhantomSpider:
    def getContent(self, url):
        browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe')
        browser.get(url)
        time.sleep(3)
        html = browser.execute_script("return document.documentElement.outerHTML")
        output = etree.HTML(html)
        return output

    def saveContent(self, filepath, content):
        file_obj = open(filepath, 'w', encoding='UTF-8')
        file_obj.write(content)
        file_obj.close()

doubanExtra = GsExtractor()   
# 下面这句调用gooseeker的api来设置xslt抓取规则
# 第一个参数是app key,请到GooSeeker会员中心申请
# 第二个参数是规则名,是通过GooSeeker的图形化工具: 谋数台MS 来生成的
doubanExtra.setXsltFromAPI("ffd5273e213036d812ea298922e2627b" , "豆瓣小组讨论话题")  

url = "https://www.douban.com/group/haixiuzu/discussion?start="
totalpages = 5
doubanSpider = PhantomSpider()
print("爬取开始")

for pagenumber in range(1 , totalpages):
    currenturl = url + str((pagenumber-1)*25)
    print("正在爬取", currenturl)
    content = doubanSpider.getContent(currenturl)
    outputxml = doubanExtra.extract(content)
    outputfile = "result" + str(pagenumber) +".xml"
    doubanSpider.saveContent(outputfile , str(outputxml))

print("爬取结束")

运行过程如下:

  • 将上面的代码保存到douban.py中,和前面2.3步下载的提取器类gooseeker.py放在同一个文件夹中
  • 打开Windows CMD窗口,切换当前目录到存放douban.py的路径(cd \xxxx\xxx)
  • 运行 python douban.py

**请注意:**为了让源代码更整洁,也为了让爬虫程序更有通用性,抓取规则是通过api注入到内容提取器bbsExtra中的,这样还有另外一个好处:如果目标网页结构变化了,只需通过MS谋数台重新编辑抓取规则,而本例的网络爬虫代码不用修改。为内容提取器下载采集规则的方法参看《Python即时网络爬虫:API说明—下载内容提取器》

###4,爬虫结果

在项目目录下可以看到多个result**.xml文件,文件内容如下图所示:

###5,总结

因为信息采集规则是通过api下载下来的,所以,本案例的源代码显得十分简洁。同时,整个程序框架变得很通用,因为最影响通用性的采集规则是从外部注入的。

###6,集搜客GooSeeker开源代码下载源

  1. GooSeeker开源Python即时网络爬虫GitHub源

###7,文档修改历史

2016-07-18:V1.0

© 著作权归作者所有

共有 人打赏支持
fullerhua
粉丝 83
博文 35
码字总数 35735
作品 0
深圳
程序员
私信 提问
加载中

评论(3)

六月是你的谎言
六月是你的谎言
腻害腻害
AkataMoKa
AkataMoKa
不错,好文章!
花儿笑弯了腰
花儿笑弯了腰
沙发
一个月入门Python爬虫,快速获取大规模数据

数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索...

Python开发者
2018/04/25
0
0
手把手教你写网络爬虫(1):网易云音乐歌单

原文出处:拓海 大家好,《手把手教你写网络爬虫》连载开始了!在笔者的职业生涯中,几乎没有发现像网络爬虫这样的编程实践,可以同时吸引程序员和门外汉的注意。本文由浅入深的把爬虫技术和...

拓海
2018/04/27
0
0
荐书丨确认过眼神,这份Python书单一定是你的菜

点击上方“程序人生”,选择“置顶公众号” 第一时间关注程序猿(媛)身边的故事 Python 是军刀型的开源工具,被广泛应用于Web 开发、爬虫、数据清洗、自然语言处理、机器学习和人工智能等方...

csdnsevenn
2018/05/05
0
0
【北京】python开发求职

技能 1. 熟悉python语言,擅长网络编程,熟悉python自带类库以及第三方库,多线程,多进程的使用,掌握python各种数据结构的用法 2. 熟悉MySQL、SQLite等数据库的使用及优化、数据分区以及存...

zhangdedezhu
2014/03/08
784
7
这届 Python 程序员,很行!

数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 爬虫是入门Python最好的方式,没有之一。Python有很多应用...

CSDN资讯
2018/11/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Mac java多版本控制

vim ~/.bash_profile ORACLE_JAVA_6_HOME="/Library/Java/JavaVirtualMachines/1.6.0.jdk/Contents/Home"ORACLE_JAVA_7_HOME="/Library/Java/JavaVirtualMachines/jdk1.7.0_80.jdk/Contents......

晨猫
12分钟前
1
0
[转载]Qlist的用法

QList是一种表示链表的模板类。 QList是Qt的一种泛型容器类。它以链表方式存储一组值,并能对这组数据进行快速索引,还提供了快速插入和删除等操作。 QList、QLinkedList和QVector提供的操作...

shzwork
12分钟前
0
0
谷歌的JavaScript编写风格中 13点值得我们注意的!

  对于那些还不熟悉JavaScript的编写风格的人,谷歌提供了编写JavaScript的编写风格指南,谷歌风格指南 其中列出了编写干净、可理解代码的最佳风格实践。   对于编写有效的JavaScript来说...

peakedness丶
26分钟前
3
0
Spring Boot2中配置HTTPS

1.生成证书 使用jdk,jre中的keytool.exe生成自签名的证书,需要配置JAVA_HOME和path环境变量,即jdk的环境变量。命令如下: keytool -genkey -alias tomcat -storetype PKCS12 -keyalg RSA ...

voole
33分钟前
4
0
Spring Cloud Alibaba 新版本发布:众多期待内容整合打包加入!

在Nacos 1.0.0 Release之后,Spring Cloud Alibaba也终于发布了最新的版本。该版本距离上一次发布,过去了整整4个月!下面就随我一起看看,这个大家期待已久的版本都有哪些内容值得我们关注。...

程序猿DD
36分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部