Python Excel 内容转换
Python Excel 内容转换
阿豪boy 发表于5个月前
Python Excel 内容转换
  • 发表于 5个月前
  • 阅读 4
  • 收藏 0
  • 点赞 0
  • 评论 0

标题:腾讯云 新注册用户域名抢购1元起>>>   

将这样的数据格式

 

转化为如下,方便使用爬虫验证文件是否有效

# coding=utf-8
from bs4 import BeautifulSoup
import urllib
import urllib2
import sys
import requests
import cookielib
import re

reload(sys)
sys.setdefaultencoding('utf8')

import xlwt
import xlrd

data = xlrd.open_workbook('in.xls')

table = data.sheets()[0]  # 通过索引顺序获取

# 获取行数和列数
nrows = table.nrows
ncols = table.ncols

# 循环行列表数据
pattern_url = re.compile(u'http://(.*?) 密')
pattern_code = re.compile(u'密码(.*)')

all_rows = []
for i in range(nrows):
    '链接:http://pan.baidu.com/s/1nvOFRxZ 密码:1uqh'
    try:
        s = table.cell(i, 1).value

        # url = s.split(' ')[0].split(u':')[1]
        # code = s.split(' ')[1].split(u':')[1]

        url = 'https://' + re.findall(pattern_url, s)[0]
        code = re.findall(pattern_code, s)[0][1:]

        data = {
            'title': table.cell(i, 0).value.strip(),
            'url': url.strip(),
            'code': code.strip()
        }
        # print table.cell(i, 0).value, url, code
        all_rows.append(data)
    except Exception as e:
        print e
        continue

for i in all_rows:
    print i['title'], i['url'], i['code']

# 将 all_rows 输出

# 新建一个excel文件
file = xlwt.Workbook()  # 注意这里的Workbook首字母是大写,无语吧

# 新建一个sheet
# 如果对一个单元格重复操作,会引发
# returns error:
# Exception: Attempt to overwrite cell:
# sheetname=u'sheet 1' rowx=0 colx=0
# 所以在打开时加cell_overwrite_ok=True解决

table = file.add_sheet('demo', cell_overwrite_ok=True)
# 写入数据table.write(行,列,value)
table.write(0, 0, u'课程名称')
table.write(0, 1, u'网盘链接')
table.write(0, 2, u'提取密码')

row_num = 1
for i in all_rows:
    table.write(row_num, 0, i['title'])
    table.write(row_num, 1, i['url'])
    table.write(row_num, 2, i['code'])
    row_num += 1

# 保存文件
file.save('demo.xls')

 

标签: python excel
共有 人打赏支持
粉丝 4
博文 493
码字总数 365299
×
阿豪boy
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: