文档章节

Python BeautifuSoup4 爬表格

0mdzz
 0mdzz
发布于 2014/09/12 23:11
字数 65
阅读 552
收藏 2
# -*-coding:utf-8-*-

import os
import sys
from bs4 import BeautifulSoup

reload(sys)
sys.setdefaultencoding("utf-8")
fp = open('txt.txt','a')
for i in range(3):
    path = sys.argv[1]
    s = path + str(i+1) +'.html'
    html_doc = open(str(s))
    soup = BeautifulSoup(html_doc)

    for tabb in soup.find_all('tr'):
        print
        for tdd in tabb.find_all('td'):
#            print tdd.get_text()+",",
            fp.writelines(tdd.get_text()+',')
        fp.writelines('\n')         
fp.close()


© 著作权归作者所有

0mdzz
粉丝 2
博文 32
码字总数 6391
作品 0
西安
程序员
私信 提问
7个实战案例、24个学习视频、12G干货资料...带你免费入门《Python数据分析》!...

相信许多做数据的都有这样的经历: 你花大半天整合了一张数据表,却因为其他部门的错误,导致表格结构全错了!于是你又要吭哧吭哧重新来过...... 每次数据都重复洗一遍,还这么慢,要是有一劳...

tw6cy6ukydea86z
2018/05/23
0
0
Python爬虫:爬取拉勾网招聘信息

爬取拉勾网招聘信息,可以自定义搜索关键字。并把搜索结果保存在 excel 表格中 # -- coding:utf-8 -- import requests,json,xlwtkd = 'linux'items = [] def get_content(pn): #url和data通过......

M四月天
2018/06/26
0
0
Python爬虫:用BeautifulSoup进行NBA数据爬取

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_25819827/article/details/70158738 爬虫主要就是要过滤掉网页中无用的信息,抓取网页中有用的信息 一般的...

night李
2017/04/13
0
0
万民Python,爬取某机构 python收费教材,公布给大家学习!

Python Python 是一种计算机程序设计语言。大多数不懂编程的人也听过一些编程语言,例如晦涩难懂的C语言,近些年风靡的Java语言,号称世上最好的编程语言PHP,还未上市的易语言...... 编程 ...

Python新世界
2018/07/28
0
0
同事每天都买两张彩票,利用Python抓取彩票中奖数据,可笑至极!

问他为什么每天都要买彩票,他说经常看新闻,看到很多人中大奖。我笑着反问,彩票预测可信吗?中奖的概率又是多少呢? (私信小编001 、002 、003 、007任意即可获取Python学习资料) 我不知...

Python新世界
2018/07/14
0
0

没有更多内容

加载失败,请刷新页面

加载更多

PostgreSQL 11.3 locking

rudi
今天
5
0
Mybatis Plus sql注入器

一、继承AbstractMethod /** * @author beth * @data 2019-10-23 20:39 */public class DeleteAllMethod extends AbstractMethod { @Override public MappedStatement injectMap......

一个yuanbeth
今天
10
1
一次写shell脚本的经历记录——特殊字符惹的祸

本文首发于微信公众号“我的小碗汤”,扫码文末二维码即可关注,欢迎一起交流! redis在容器化的过程中,涉及到纵向扩pod实例cpu、内存以及redis实例的maxmemory值,statefulset管理的pod需要...

码农实战
今天
4
0
为什么阿里巴巴Java开发手册中不建议在循环体中使用+进行字符串拼接?

之前在阅读《阿里巴巴Java开发手册》时,发现有一条是关于循环体中字符串拼接的建议,具体内容如下: 那么我们首先来用例子来看看在循环体中用 + 或者用 StringBuilder 进行字符串拼接的效率...

武培轩
今天
8
0
队列-链式(c/c++实现)

队列是在线性表功能稍作修改形成的,在生活中排队是不能插队的吧,先排队先得到对待,慢来得排在最后面,这样来就形成了”先进先出“的队列。作用就是通过伟大的程序员来实现算法解决现实生活...

白客C
今天
81
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部