文档章节

Python实现获取百度贴吧主页的前十页回复数,帖子id,主题

鑢七花
 鑢七花
发布于 2016/11/17 16:15
字数 695
阅读 10
收藏 0
点赞 0
评论 0

Python实现获取百度贴吧主页的前十页回复数,帖子id,主题,并导入数据库

#!/usr/bin/python
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import MySQLdb
import MySQLdb.cursors
import urllib
import urllib2
import re
import sys
reload (sys)
sys.setdefaultencoding('utf-8')
 
#处理页面标签类
class Tool:
    #去除img标签,7位长空格
    removeImg = re.compile('<img.*?>| {7}|')
    #删除超链接标签
    removeAddr = re.compile('<a.*?>|</a>')
    #把换行的标签换为\n
    replaceLine = re.compile('<tr>|<div>|</div>|</p>')
    #将表格制表<td>替换为\t
    replaceTD= re.compile('<td>')
    #把段落开头换为\n加空两格
    replacePara = re.compile('<p.*?>')
    #将换行符或双换行符替换为\n
    replaceBR = re.compile('<br><br>|<br>')
    #将其余标签剔除
    removeExtraTag = re.compile('<.*?>')
    def replace(self,x):
        x = re.sub(self.removeImg,"",x)
        x = re.sub(self.removeAddr,"",x)
        x = re.sub(self.replaceLine,"\n",x)
        x = re.sub(self.replaceTD,"\t",x)
        x = re.sub(self.replacePara,"\n    ",x)
        x = re.sub(self.replaceBR,"\n",x)
        x = re.sub(self.removeExtraTag,"",x)
        #strip()将前后多余内容删除
        return x.strip()
        
#百度贴吧爬虫类
class BDTB:

    def __init__(self,baseUrl):
        self.baseURL = baseUrl
        self.tool = Tool()
        self.floor = 1
        self.file = None
        self.floorTag = 1
        
    #传入贴吧主页网址,获取贴吧主页的代码
    def getPage(self,pageNum):
        try:
            url = self.baseURL + '&pn=' + str(pageNum)
            request = urllib2.Request(url)
            response = urllib2.urlopen(request)
            #print response.read()
            return response.read().decode('utf-8')
        except urllib2.URLError, e:
            if hasattr(e,"reason"):
                print u"连接百度贴吧失败,错误原因",e.reason
                return None
                
    #传入主页代码,获取帖子
    def getTitle(self,page):
        pattern = re.compile(r'<a href="/p/.*? title="(.*?)" .*? class="j_th_tit .*?>(.*?)</a>',re
.S)
        result = re.findall(pattern,page)
        gettitles = []
        for item in result:            
            gettitle = self.tool.replace(item[1])
            gettitles.append(gettitle.encode('utf-8'))
        return gettitles

    #传入主页页码,获取帖子回复数
    def getReplay(self,page):
        pattern = re.compile(r'<span class="threadlist_rep_num center_text.*?>(.*?)</span>',re.S)
        result = re.findall(pattern,page)
        getreplays = []
        #print result
        for item in result:
            #print self.tool.replace(getreplay)
            getreplay = self.tool.replace(item)
            getreplays.append(getreplay.encode('utf-8'))            
        #print getreplays
        return getreplays
        

    #传入主页页码,获取帖子作者
    #def getAuthor(self):
        #page = self.getPage()
        #pattern = re.compile(r'<a data-field=\'.*? class="frs-author-name.*? >(.*?)</a>',re.S)
        #result = re.findall(pattern,page)
        #for item in result:
            #print item
    
    #传入主页代码,获取帖子id
    def getId(self,page):
        pattern = re.compile(r'<a href="/p/(.*?)" title=".*?" class="j_th_tit .*?>.*?</a>',re.S)
        result = re.findall(pattern,page)
        getids = []
        for item in result:
            #print self.tool.replace(getid)
            getid = self.tool.replace(item)
            getids.append(getid.encode('utf-8'))            
        return getids            

    def writeDate(self,replay,id,title):
        for (replay, id, title) in zip(replay,                                                                                                                                                                                                                                                                       conn = MySQLdb.connect(host='192.168.1.181',user='root',passwd='redhat',db='tiebadata',por
t = 3306,charset = 'utf8')
            cur = conn.cursor()
            cur.execute('insert into zhuti(replay, id, title) values(%s, %s, %s)',(replay, id, title))
            print "success connect!"
            conn.commit()
            cur.close()
            conn.close()
    def start(self,title):
        indexPage = self.getPage(0)
        gettitle = self.getTitle(indexPage)
        if indexPage == None:
            print "URL已失效,请重试"
            return
        try:
            print "获取贴吧前十页帖子"
            for i in range(0,10):
                print "正在写入第" + str(i) + "页数据"
                page = self.getPage(i*50)
                replay = self.getReplay(page)
                id = self.getId(page)
                title = self.getTitle(page)
                self.writeDate(replay,id,title)
        except IOError,e:
            print "写入异常,原因" + e.message
        finally:
            print "写入任务完成"
            
        
print u"请输入贴吧名:"
baseURL = 'http://tieba.baidu.com/f?kw=' + raw_input(u'') + '&fr=ala0&tpl=5'
print u"请再一次输入贴吧名称:"
title = raw_input(u'')
bdtb = BDTB(baseURL)
bdtb.start(title)

目前不是很完善,后续将加入自动建表的功能

 

© 著作权归作者所有

共有 人打赏支持
鑢七花
粉丝 5
博文 7
码字总数 17605
作品 0
葫芦岛
运维
Python实现贴吧多线程网盘爬虫

大多数Python学习者都是冲着Python在爬虫领域有非常出色的表现才开始学习的,在学好Python的基本语法并会使用re、requests、BeautifulSoup4等模块后,很快就能写出一个简单的爬虫小程序(不要...

数据取经团 ⋅ 2017/11/29 ⋅ 0

在技术圈儿混,怎能不关注这几个公众号!

精品公众号订阅,总有几个适合你 AIOps智能运维 ID:AI_Ops ▲长按图片识别二维码关注 百度云智能运维团队官方公众号!我们利用大规模分布式、大数据和机器学习等技术为百度云用户和百度各产...

g2v13ah ⋅ 03/30 ⋅ 0

ThinkOX 1.1.0 发布,新增资讯模块、同步登陆绑定站内账号等

如果出现升级提示,请关闭浏览器重新打开即可安装。 产品主页:tox.ourstu.com 版本号 1.1.0 包含了大量改进。 授权用户请联系我们升级至最新版(必须升级至1.1.0版才能使用手机客户端)。 ...

陈一枭 ⋅ 2014/08/27 ⋅ 7

python3 爬虫实战之爬取网易新闻APP端

(一)使用工具 这里使用了火狐浏览器的user-agent插件,不懂的可以点这里火狐插件使用 (二)爬虫操作步骤: 百度 网易新闻并选择 步骤一: 步骤二: 步骤三: 步骤四: 最后一步: 注意点:...

徐代龙 ⋅ 05/24 ⋅ 0

如何让自己成长为 IT 项目管理者

在这个快节奏发展的时代,你需要用最有效的方式,学习最有用的知识。技但碎片化的信息那么多,如何选择呢?推荐几个程序员自我提升必备的公众号,快关注、使用起来吧! TGO鲲鹏会ID:tgo-kun...

bf02jgtrs00xktcx ⋅ 04/18 ⋅ 0

python—爬虫

1.1 介绍 通过过滤和分析HTML代码,实现对文件、图片等资源的获取,一般用到: urllib和urllib2模块 正则表达式(re模块) requests模块 Scrapy框架 urllib库: 1)获取web页面 2)在远程htt...

huangzp168 ⋅ 01/12 ⋅ 0

分享一个神器,Selenium 自动化测试工具

最近写项目的时候,用到了Selenium,一个 Web 端的自动化测试工具,直接运行在浏览器中,用来模拟用户操作。 Selenium 不仅仅可以用作自动化测试,还有很多种玩法,比如 Python 的爬虫,实现...

angkee ⋅ 05/31 ⋅ 0

人脸检测(dlib和opencv)

mark一下,感谢作者分享! https://zhuanlan.zhihu.com/p/32781218 $ sudo apt-get install libgtk-3-dev $ sudo apt-get install libboost-all-dev $ pip install scipy $ pip install open......

weixin_38569817 ⋅ 05/30 ⋅ 0

万方数据库,文献下载的准备,文献信息收集

想批量下载万方数据库的文献,看了一下其html源码不好玩啊. 其一篇文献的下载的链接. 下 载 onclick 事件 onclick 事件会在对象被点击时发生。 请注意, oncli...

东风冷雪 ⋅ 05/23 ⋅ 0

关注这些技术号,你将拥有半个互联网圈

“ IT 行业技术变更周期越来越快,作为技术人最重要的是持续学习,现在的学习途径有很多,我们到底该如何做出选择? 我觉得最重要有两方面:第一,需要保持良好的技术视野,持续关注行业内技...

g6u8w7p06dco99fq3 ⋅ 04/18 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

聊聊spring cloud gateway的LoadBalancerClientFilter

序 本文主要研究一下spring cloud gateway的LoadBalancerClientFilter GatewayLoadBalancerClientAutoConfiguration spring-cloud-gateway-core-2.0.0.RELEASE-sources.jar!/org/springfram......

go4it ⋅ 41分钟前 ⋅ 0

详解:Nginx反代实现Kibana登录认证功能

Kibana 5.5 版后,已不支持认证功能,也就是说,直接打开页面就能管理,想想都不安全,不过官方提供了 X-Pack 认证,但有时间限制。毕竟X-Pack是商业版。 下面我将操作如何使用Nginx反向代理...

问题终结者 ⋅ 48分钟前 ⋅ 0

002、nginx配置虚拟主机

一、nginx配置虚拟主机可分为三种方式,分别为: 1、基于域名的虚拟主机,通过域名来区分虚拟主机——应用:外部网站 2、基于端口的虚拟主机,通过端口来区分虚拟主机——应用:公司内部网站...

北岩 ⋅ 51分钟前 ⋅ 0

shell脚本之死循环写法

最近在学习写shell脚本,在练习if while等流程控制时,突然它们的死循环写法是怎么样的?经过百度与亲测记录如下: for死循环 #! /bin/bashfor ((;;));do date sleep 1d...

hensemlee ⋅ 53分钟前 ⋅ 0

苹果的ARKit2.0有多可怕,看了就知道

序言 ARKit主要由三部分组成: 跟踪(Tracking) 跟踪是ARKit的核心组件之一,其提供了设备在物理世界中的位置与方向信息,并对物体进行跟踪,如人脸。 2.场景理解(Scene Understanding) 场...

_小迷糊 ⋅ 54分钟前 ⋅ 0

5.1 vim介绍 5.2 vim移动光标 5.3 ,5.4vim一般模式下移动光标,复制粘贴

vim命令 vim是vi的一个升级版;vim可以显示文字的颜色 安装vim这一个包vim-enhanced 如果不知道安装包,可以使用 命令下面命令来查看vim命令是那个包安装的。 [root@linux-128 ~]# yum prov...

Linux_老吴 ⋅ 57分钟前 ⋅ 0

vim一般模式

vim 是什么 vim是什么 ? 在之前接触Linux,编辑网卡配置文件的时候我们用过了vi ,vim简单说就是vi的升级版,它跟vi一样是Linux系统中的一个文本编辑工具。 如果系统中没有vim ,需要安装一...

李超小牛子 ⋅ 今天 ⋅ 0

docker实战

构建企业级Docker虚拟化平台实战 重点剖析虚拟化和云计算概念; 分析Docker虚拟化的概念和原理; 从0开始实战Docker虚拟化平台; 基于Docker构建Nginx WEB服务器和CentOS虚拟机; 基于开源监...

寰宇01 ⋅ 今天 ⋅ 0

vim介绍、vim颜色显示和移动光标、vim一般模式下移动光标、一般模式下复制粘贴剪切

VIM Vim 是 UNIX 文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff),语法高亮,全面的帮助系统,本地脚本(Vimscript),和便于选择的...

蛋黄Yolks ⋅ 今天 ⋅ 0

springboot+mockito测试controller层遇到的问题

使用MockitoJUnitRunner测试的一个例子,原来报错无法找到bean, 类似的异常如下:createBeanError..... 原因:是因为@Runwith使用了SpringRunner,应该修改为MockitoJUnitRunner 代码如下: ...

writeademo ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部