文档章节

Python最简单的图片爬虫,20行代码带你爬遍整个网站

o
 osc_47sntkvg
发布于 07/01 07:11
字数 236
阅读 23
收藏 0

精选30+云产品,助力企业轻松上云!>>>

 

前言

网络上的信息很多,有的时候我们需要关键字搜索才可以快速方便的找到我们需要的信息。今天我们实现搜索关键字爬取堆糖网上相关的美图,零基础学会通用爬虫,当然我们还可以实现多线程爬虫,加快爬虫爬取速度

 

 

 

环境:

windows

pycharm

python3

导入模块

import urllib.parse
import json
import requests
import jsonpath

 

确定目标网址

url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}'

 

分析网站,确定爬取目标

label = '美女'
label = urllib.parse.quote(label)

 

发送请求,提取数据

num = 0
for index in range(0,2400,24):
    u = url.format(label,index)
    we_data = requests.get(u).text

 

类型转换

html = json.loads(we_data)
    photo = jsonpath.jsonpath(html,"$..path")

 

保存数据

for i in photo:
        a = requests.get(i)
        with open(r'C:\Users\Administrator\Desktop\tupian\{}.jpg'.format(num),'wb') as f:
            f.write(a.content)  # 二进制
        num += 1

 

运行代码,效果如下图:

 

o
粉丝 0
博文 55
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。

暂无文章

DateTime2与SQL Server中的DateTime - DateTime2 vs DateTime in SQL Server

问题: Which one: 哪一个: datetime datetime2 is the recommended way to store date and time in SQL Server 2008+? 是在SQL Server 2008+中存储日期和时间的推荐方法吗? I'm aware of......

富含淀粉
55分钟前
13
0
Linux 文件打开过多 (Too many open files)

如图是程序运行了一段时间后抛出来的一个bug, 刚开始看这个bug的时候各种网上找答案, 无外乎教你怎么改ulimit(就是linux最大打开文件数), 当然不是说改这个没有用, 作为程序开发者来说, 如果...

onedotdot
55分钟前
25
0
ZStack实践汇|ZStack与行云管家对接实践ZStack与行云管家对接实践

一、ZStack与行云管家概述 大道至简·极速部署,ZStack致力于产品化私有云和混合云。 ZStack是一家坚持自主创新、专注产品化的云计算公司,以“降低企业上云门槛、让每一家企业都拥有自己的云...

ZStack社区版
今天
7
0
switch linux mint 20 apt repository to tsinghua' mirrors

edit file /etc/apt/sources.list.d/cat official-package-repositories.list lwk@qwfys:/etc/apt/sources.list.d$ lltotal 12drwxr-xr-x 2 root root 4096 Jul 5 20:01 ./drwxr-xr-x 7 ......

qwfys
今天
12
0
面试系列之C++的对象布局【建议收藏】

我们都知道C++多态是通过虚函数表来实现的,那具体是什么样的大家清楚吗?开篇依旧提出来几个问题: 普通类对象是什么布局? 带虚函数的类对象是什么布局? 单继承下不含有覆盖函数的类对象是...

伊牙牙嘿哈哈
今天
17
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部