文档章节

Python实现获取百度贴吧主页的前十页回复数,帖子id,主题

鑢七花
 鑢七花
发布于 2016/11/17 15:57
字数 712
阅读 6
收藏 0

                                                     Python实现获取百度贴吧主页的前十页回复数,帖子id,主题

#!/usr/bin/python
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
import sys
reload (sys)
sys.setdefaultencoding('utf-8')
 
#处理页面标签类
class Tool:
    #去除img标签,7位长空格
    removeImg = re.compile('<img.*?>| {7}|')
    #删除超链接标签
    removeAddr = re.compile('<a.*?>|</a>')
    #把换行的标签换为\n
    replaceLine = re.compile('<tr>|<div>|</div>|</p>')
    #将表格制表<td>替换为\t
    replaceTD= re.compile('<td>')
    #把段落开头换为\n加空两格
    replacePara = re.compile('<p.*?>')
    #将换行符或双换行符替换为\n
    replaceBR = re.compile('<br><br>|<br>')
    #将其余标签剔除
    removeExtraTag = re.compile('<.*?>')
    def replace(self,x):
        x = re.sub(self.removeImg,"",x)
        x = re.sub(self.removeAddr,"",x)
        x = re.sub(self.replaceLine,"\n",x)
        x = re.sub(self.replaceTD,"\t",x)
        x = re.sub(self.replacePara,"\n    ",x)
        x = re.sub(self.replaceBR,"\n",x)
        x = re.sub(self.removeExtraTag,"",x)
        #strip()将前后多余内容删除
        return x.strip()
        
#百度贴吧爬虫类
class BDTB:

    def __init__(self,baseUrl):
        self.baseURL = baseUrl
        self.tool = Tool()
        self.floor = 1
        self.file = None
        
    #传入贴吧主页网址,获取贴吧主页的代码
    def getPage(self,pageNum):
        try:
            url = self.baseURL + '&pn=' + str(pageNum)
            request = urllib2.Request(url)
            response = urllib2.urlopen(request)
            #print response.read()
            return response.read().decode('utf-8')
        except urllib2.URLError, e:
            if hasattr(e,"reason"):
                print u"连接百度贴吧失败,错误原因",e.reason
                return None
                
    #传入主页代码,获取帖子
    def getTitle(self,page):
        pattern = re.compile(r'<a href="/p/.*? title="(.*?)" .*? class="j_th_tit .*?>(.*?)</a>',re.S)
        result = re.findall(pattern,page)
        gettitles = []
        for item in result:            
            gettitle = "\n"+"标题:"+self.tool.replace(item[1])+"\n"
            gettitles.append(gettitle.encode('utf-8'))
        return gettitles

    #传入主页页码,获取帖子回复数
    def getReplay(self,page):
        pattern = re.compile(r'<span class="threadlist_rep_num center_text.*?>(.*?)</span>',re.S)
        result = re.findall(pattern,page)
        getreplays = []
        #print result
        for item in result:
            #print self.tool.replace(getreplay)
            getreplay = "\n"+"回复数:"+self.tool.replace(item)+"\n"
            getreplays.append(getreplay.encode('utf-8'))            
        #print getreplays
        return getreplays
        

    #传入主页页码,获取帖子作者
    #def getAuthor(self):
        #page = self.getPage()
        #pattern = re.compile(r'<a data-field=\'.*? class="frs-author-name.*? >(.*?)</a>',re.S)
        #result = re.findall(pattern,page)
        #for item in result:
            #print item
    
    #传入主页代码,获取帖子id
    def getId(self,page):
        pattern = re.compile(r'<a href="/p/(.*?)" title=".*?" class="j_th_tit .*?>.*?</a>',re.S)
        result = re.findall(pattern,page)
        getids = []
        #print result
        for item in result:
            #print self.tool.replace(getid)
            getid = "\n"+"帖子id:"+self.tool.replace(item)+"\n"
            getids.append(getid.encode('utf-8'))
        #print getids
        return getids            

    def writeDate(self,getreplays,getids,gettitles):
        reload(sys)
        sys.setdefaultencoding('utf-8')
        for (item, a, b) in zip(getreplays,getids,gettitles):
            self.file.write(item)
            self.file.write(a)
            self.file.write(b)
            c = "------------------------------------------------------------------------"
            self.file.write(c)  
            self.floor += 1
    def start(self,title):
        indexPage = self.getPage(0)
        gettitle = self.getTitle(indexPage)
        self.file = open(title + ".txt","a+")            
        print "写入文件名称成功!"
        if indexPage == None:
            print "URL已失效,请重试"
            return
        try:
            print "获取贴吧前十页帖子"
            for i in range(0,10):
                print "正在写入第" + str(i) + "页数据"
                page = self.getPage(i*50)
                getreplays = self.getReplay(page)
                getids = self.getId(page)
                gettitles = self.getTitle(page)
                self.writeDate(getreplays,getids,gettitles)
        except IOError,e:
            print "写入异常,原因" + e.message
        finally:
            print "写入任务完成"
            
        
print u"请输入贴吧名:"
baseURL = 'http://tieba.baidu.com/f?kw=' + raw_input(u'') + '&fr=ala0&tpl=5'
print u"请再一次输入贴吧名称" #输入的名称为保存数据的txt文件名称
title = raw_input(u'')
#title = "贴吧主页"
bdtb = BDTB(baseURL)
bdtb.start(title)

格式粘贴时有问题,直接拷贝可能会有问题,请注意。

© 著作权归作者所有

共有 人打赏支持
鑢七花
粉丝 5
博文 14
码字总数 17605
作品 0
葫芦岛
运维
Python实现贴吧多线程网盘爬虫

大多数Python学习者都是冲着Python在爬虫领域有非常出色的表现才开始学习的,在学好Python的基本语法并会使用re、requests、BeautifulSoup4等模块后,很快就能写出一个简单的爬虫小程序(不要...

数据取经团
2017/11/29
0
0
在技术圈儿混,怎能不关注这几个公众号!

精品公众号订阅,总有几个适合你 AIOps智能运维 ID:AI_Ops ▲长按图片识别二维码关注 百度云智能运维团队官方公众号!我们利用大规模分布式、大数据和机器学习等技术为百度云用户和百度各产...

g2v13ah
03/30
0
0
ThinkOX 1.1.0 发布,新增资讯模块、同步登陆绑定站内账号等

如果出现升级提示,请关闭浏览器重新打开即可安装。 产品主页:tox.ourstu.com 版本号 1.1.0 包含了大量改进。 授权用户请联系我们升级至最新版(必须升级至1.1.0版才能使用手机客户端)。 ...

陈一枭
2014/08/27
3.3K
7
python3 爬虫实战之爬取网易新闻APP端

(一)使用工具 这里使用了火狐浏览器的user-agent插件,不懂的可以点这里火狐插件使用 (二)爬虫操作步骤: 百度 网易新闻并选择 步骤一: 步骤二: 步骤三: 步骤四: 最后一步: 注意点:...

徐代龙
05/24
0
0
python—爬虫

1.1 介绍 通过过滤和分析HTML代码,实现对文件、图片等资源的获取,一般用到: urllib和urllib2模块 正则表达式(re模块) requests模块 Scrapy框架 urllib库: 1)获取web页面 2)在远程htt...

huangzp168
01/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

7 个致命的 Linux 命令

导读 如果你是一个 Linux 新手,在好奇心的驱使下,可能会去尝试从各个渠道获得的命令。以下是 7 个致命的 Linux 命令,轻则使你的数据造成丢失,重则使你的系统造成瘫痪,所以,你应当竭力避...

问题终结者
今天
0
0
设计模式:工厂方法模式(工厂模式)

工厂方法模式才是真正的工厂模式,前面讲到的静态工厂模式实际上不能说是一种真正意义上的设计模式,只是一种变成习惯。 工厂方法的类图: 这里面涉及到四个种类: 1、抽象产品: Product 2、...

京一
今天
0
0
区块链和数据库,技术到底有何区别?

关于数据库和区块链,总会有很多的困惑。区块链其实是一种数据库,因为他是数字账本,并且在区块的数据结构上存储信息。数据库中存储信息的结构被称为表格。但是,区块链是数据库,数据库可不...

HiBlock
今天
0
0
react native 开发碰到的问题

react-navigation v2 问题 问题: static navigationOptions = ({navigation, navigationOptions}) => ({ headerTitle: ( <Text style={{color:"#fff"}}>我的</Text> ), headerRight: ( <View......

罗培海
今天
0
0
Mac Docker安装流程

久仰Docker大名已久,于是今天趁着有空,尝试了一下Docker 先是从docker的官网上下载下来mac版本的docker安装包,安装很简易,就直接拖图标就好了。 https://www.docker.com/products/docker...

writeademo
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部