文档章节

python爬取标题和作者时间的小程序

FOG_Y
 FOG_Y
发布于 2015/05/20 10:27
字数 169
阅读 96
收藏 6

#encoding:UTF-8
import urllib.parse
import urllib.request
import base64
import re
import sys
import time
from random import sample
import codecs
from html.parser import HTMLParser
log = 'gogogo.txt'
logfile = codecs.open(log,'w','utf-8')
class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.a=0
        self.span=0;
    def handle_starttag(self,tag,attrs):
        if tag=='a':
            for name,value in attrs:
                if name=='class' and value=='tit':
                    self.a=1
        if tag=='span':
            for name,value in attrs:
                if name=='class' and value=='reply':
                    self.span=1
    def handle_endtag(self, tag):
        if tag == 'a' and self.a==1:
            self.a=0
            logfile.write('|')
        if tag=='span' and self.span==1:
            self.span=0
            logfile.write('\n')
    def handle_data(self, data):
        if (self.a or self.span):
            logfile.write(data)
parser = MyHTMLParser()


def getpage(url):
    req = urllib.request.Request(url)
    response = urllib.request.urlopen(req)
    the_page = response.read()
    return the_page
for i in range(1,405):
    url='http://bbs.qyer.com/forum-52-'+str(i)+'.html'
    page=getpage(url).decode('utf-8','ignore')
    parser.feed(page)
    print(i)

© 著作权归作者所有

FOG_Y
粉丝 5
博文 6
码字总数 2805
作品 0
长沙
程序员
私信 提问
Python 统计 博客 信息

用Python爬取博客信息,生成按照月份汇总的该月发表的博客数的数据,将标题和时间提取出来 爬取html页面并保存 使用beautifulSoup提取每页的标题和创建时间,分组统计,汇总结果,使用group...

阿豪boy
2018/02/27
9
0
一入爬虫深似海,总结python爬虫学习笔记!

正文 〇. python 基础 先放上python 3 的官方文档:https://docs.python.org/3/ (看文档是个好习惯) 关于python 3 基础语法方面的东西,网上有很多,大家可以自行查找. 一. 最简单的爬取程序 爬...

糖宝lsh
02/14
33
0
菜鸟学Python,上半年文章大汇总

一晃大半年过去了,时间过的真快啊!上半年我一共发表了原创的文章有近45篇,其中有一些是粉丝投稿的!后台总有人留言说查找历史文章不方便,怎么办?为了方便大家阅读,我把上半年的原创文章...

菜鸟学python
2018/06/24
0
0
Python BeautifulSoup爬取oschina个人blog文章

前段时间学习了一些python的模块,要熟悉各个功能还是得写写代码的,所以根据前面掌握的模块知识,写了一个小程序,专门用来爬取oschina的个人博客文章的小工具。经常看到一些大牛的好文章,...

China_OS
2012/12/21
1K
0
爬取Python教程博客并转成PDF

爬取Python教程博客并转成PDF 今天我们爬取一下python教程博客并把爬取内容转换成PDF储存到本地。 用到的工具 requests BeautifulSoup time pdfkit wkhtmltopdf 我们先说一下本次要用到的两个...

带头小哥哥
2018/09/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

CentOS7.6中安装使用fcitx框架

内容目录 一、为什么要使用fcitx?二、安装fcitx框架三、安装搜狗输入法 一、为什么要使用fcitx? Gnome3桌面自带的输入法框架为ibus,而在使用ibus时会时不时出现卡顿无法输入的现象。 搜狗和...

技术训练营
今天
3
0
《Designing.Data-Intensive.Applications》笔记 四

第九章 一致性与共识 分布式系统最重要的的抽象之一是共识(consensus):让所有的节点对某件事达成一致。 最终一致性(eventual consistency)只提供较弱的保证,需要探索更高的一致性保证(stro...

丰田破产标志
今天
7
0
docker 使用mysql

1, 进入容器 比如 myslq1 里面进行操作 docker exec -it mysql1 /bin/bash 2. 退出 容器 交互: exit 3. mysql 启动在容器里面,并且 可以本地连接mysql docker run --name mysql1 --env MY...

之渊
今天
7
0
python数据结构

1、字符串及其方法(案例来自Python-100-Days) def main(): str1 = 'hello, world!' # 通过len函数计算字符串的长度 print(len(str1)) # 13 # 获得字符串首字母大写的...

huijue
今天
5
0
PHP+Ajax微信手机端九宫格抽奖实例

PHP+Ajax结合lottery.js制作的一款微信手机端九宫格抽奖实例,抽奖完成后有收货地址添加表单出现。支持可以设置中奖概率等。 奖品列表 <div class="lottery_list clearfix" id="lottery"> ......

ymkjs1990
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部