文档章节

Ukulele百度贴吧图片python3单线程爬取

a
 anglecv
发布于 2017/09/12 14:19
字数 462
阅读 4
收藏 0

前因

由于最近在找Uku谱子, 发现贴吧图片的资源还行,就弄着下载了。

代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author: actanble
# @Date:   2017-9-12 11:59:24

import urllib.request as ur
import os

class Spyder():

    def __init__(self, url):
        self.url = url

    def open_url(self):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
        req = ur.Request(url=self.url, headers=headers)  # python2,urllib.request()
        response = ur.urlopen(req)  # python2,urllib2.urlopen()
        return response.read()

def main():

    with open("json.txt", "r+") as f:
        urls = f.readlines()
        f.close()
    import json, requests
    res = []
    for url1 in urls:
        json1 = json.loads(requests.get(url1).text)
        print(json1["data"]["pic_list"])
        for x in json1["data"]["pic_list"]:
            res.append(x["pic_id"])

    def get_img_url(pid):
        return "https://imgsa.baidu.com/forum/pic/item/"+ pid +".jpg"

    i = 0
    with open("pic12.txt", "w+", ) as f:
        for x in res:
            f.write(get_img_url(x) + "\n")
            i += 1
        f.close()

    print(i)


def run():
    main()
    import requests
    def test_wirte():
        with open("pic12.txt", "r+") as f1:
            imgs = f1.readlines()
            i = 1
            for img in imgs:
                try:
                    os.mkdir("img_ukulele")
                except:
                    pass
                with open("./img_ukulele/"+str(i) + ".jpg", "wb") as f:
                    f.write(Spyder(img).open_url())
                    f.close()
                i+=1
            f1.close()


if __name__ == "__main__":
    run()

附件

json.txt

http://tieba.baidu.com/photo/g/bw/picture/list?kw=ukulele&alt=jview&rn=200&tid=2125121321&pn=1&ps=1&pe=40&info=1&_=1505195101160
http://tieba.baidu.com/photo/g/bw/picture/list?kw=ukulele&alt=jview&rn=200&tid=2125121321&pn=1&ps=121&pe=160&wall_type=v&_=1505195222386
http://tieba.baidu.com/photo/g/bw/picture/list?kw=ukulele&alt=jview&rn=200&tid=2125121321&pn=1&ps=161&pe=200&wall_type=v&_=1505195222704
http://tieba.baidu.com/photo/g/bw/picture/list?kw=ukulele&alt=jview&rn=200&tid=2125121321&pn=1&ps=41&pe=80&wall_type=v&_=1505195168755
http://tieba.baidu.com/photo/g/bw/picture/list?kw=ukulele&alt=jview&rn=200&tid=2125121321&pn=1&ps=81&pe=120&wall_type=v&_=1505195221831
http://tieba.baidu.com/photo/g/bw/picture/list?kw=ukulele&alt=jview&rn=200&tid=2125121318&pn=1&ps=1&pe=40&info=1&_=1505195457441
http://tieba.baidu.com/photo/g/bw/picture/list?kw=ukulele&alt=jview&rn=200&tid=2125121318&pn=1&ps=41&pe=80&wall_type=v&_=1505195465864
http://tieba.baidu.com/photo/g/bw/picture/list?kw=ukulele&alt=jview&rn=200&tid=2125121318&pn=1&ps=81&pe=120&wall_type=v&_=1505195490499
http://tieba.baidu.com/photo/g/bw/picture/list?kw=ukulele&alt=jview&rn=200&tid=2125121318&pn=1&ps=121&pe=160&wall_type=v&_=1505195492589

© 著作权归作者所有

共有 人打赏支持
a
粉丝 0
博文 1
码字总数 462
作品 0
武汉
私信 提问
Python实现贴吧多线程网盘爬虫

大多数Python学习者都是冲着Python在爬虫领域有非常出色的表现才开始学习的,在学好Python的基本语法并会使用re、requests、BeautifulSoup4等模块后,很快就能写出一个简单的爬虫小程序(不要...

数据取经团
2017/11/29
0
0
Python多线程爬图&Scrapy框架爬图

一、背景 对于日常Python爬虫由于效率问题,本次测试使用多线程和Scrapy框架来实现抓取斗图来表情。 由于IO操作不使用CPU,对于IO密集(磁盘IO/网络IO/人家交互IO)型适合用多线程,对于计算...

KaliArch
08/21
0
0
使用Python爬虫爬取简单网页(Python爬虫入门)

今天我们来看一看使用Python爬取一些简单的网页。 所用工具:IDLE (Python 3.6 64-bit) 一. 爬取京东商品页面 我将要爬取的是这个东京商品页面信息,代码如下: 二. 爬取亚马逊商品页面 我接...

小_橙_子
08/01
0
0
分享我自己写的一套Python爬虫学习经验

最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴...

崔庆才
2015/02/23
3.7K
25
分手后,小伙怒用Python爬取上万空姐照片,赢取校花选举大赛!

首先展示下Python爬取到的成果:   我做什么都要争第一,这次的校花投票选举大赛也不例外,虽然我是个男的......但是我看到了前女友竟然已经有三百多票排到第三名了,我怎么能眼睁睁的看着...

p柯西
06/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

深度学习中的注意力机制

最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。 本文以机器...

火力全開
2分钟前
0
0
去除文件中

最近生成的文件中出现了<feff>乱码,而且单个文件中出现不止一次,在vim中打该文件显示<feff>,而在idea中则显示一个“-”,对数据处理造成了极大的困扰,通过使用其它编辑器打开发现,Windo...

休辞醉倒
3分钟前
0
0
想搞懂大数据就看这篇文章就够了!

互联网时代的到来,各种专业词汇术语充斥着我们的大脑,大数据,人工智能更是当下时代的热点潮流,很多传统企业都徘徊穿梭于这个潮流当中,传统广告的褪去,移动互联网时代的大数据精准整合营...

董黎明
6分钟前
1
0
go module 初体验

尽管官方的go module比较好用,但由于很多库下载不了,所以需要用到以下配置 export PATH=/mnt/d/download/go/bin/:$PATH export GOPATH=/home/fish/dipamkara/ #export GOPATH=/mnt/d/work...

LoveCupid
9分钟前
1
0
【小白学游戏常用算法】二、A*启发式搜索算法

  在上一篇博客中,我们一起学习了随机迷宫算法,在本篇博客中,我们将一起了解一下寻路算法中常用的A*算法。   通常情况下,迷宫寻路算法可以使用深度优先或者广度优先算法,但是由于效...

hejunbinlan
12分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部