文档章节

Python2 利用urllib模块编写一个自动下载网页上图片的爬虫

YYQ_ZJL
 YYQ_ZJL
发布于 2016/10/26 19:27
字数 206
阅读 11
收藏 0
# -*- coding:utf-8 -*-
import re
import urllib
import os
#得到网页源代码
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
def callbackfunc(blocknum, blocksize, totalsize):
    '''回调函数
    @blocknum: 已经下载的数据块
    @blocksize: 数据块的大小
    @totalsize: 远程文件的大小
    '''
    percent = 100.0 * blocknum * blocksize / totalsize
    if percent > 100:
        percent = 100
    print "%.2f%%"% percent
#下载图片
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'            #正则表达式解析图片文件格式
    imgre = re.compile(reg)                      #re.compile() 可以把正则表达式编译成一个正则表达式对象
    savePath = r'/home/zjlyyq/PycharmProjects/untitled/images/'
    imglist = imgre.findall(html)  #re.findall() 方法读取html 中包含 imgre(正则表达式)的数据
    x = 0
    for imgurl in imglist:
        picname = str(x) + '.jpg'
        filename = os.path.join(savePath+picname)       #设置保存路径
        print filename
        urllib.urlretrieve(imgurl, filename)
        x = x + 1


html = getHtml("http://tieba.baidu.com/p/2460150866")
getImg(html)

 

© 著作权归作者所有

YYQ_ZJL
粉丝 0
博文 30
码字总数 206
作品 0
杭州
其他
私信 提问
Python爬虫——利用PhantomJS下载动态加载图片

  在浏览网页过程中,我们会遇到一些让人心动的图片,这时我们需要将它保存在本地。一般我们用BeautifulSoup可以解析静态网页,但很多时候我们遇到的都是动态加载的图片,无法再利用urlli...

jclian91
2017/08/23
0
0
Python+url2爬虫技术

这回就编写一个小爬虫,知乎好像封闭查询了,那么我们换一个比较好爬取,而且不容易变动的网站,emmmm,起点网怎么样?爬取许多小说名字吧。 爬取分为,嗯,三个步骤大概,首先是用python的u...

材大难为用
01/11
0
0
python3爬虫爬取网页图片简单示例

本人也是刚刚开始学习python的爬虫技术,然后本来想在网上找点教程来看看,谁知道一搜索,大部分的都是用python2来写的,新手嘛,一般都喜欢装新版本。于是我也就写一个python3简单的爬虫,爬...

IT民工_柒晓白
2017/10/19
1K
1
Python开发简单爬虫--学习笔记

一、概述 目标 掌握开发轻量级爬虫 内容 爬虫简介 简单爬虫架构 URL管理器 网页下载器(urllib2) 网页解析器(BeautifulSoup) 完整实例:爬取百度百科雷军词条相关的1000个页面数据 tips: 轻量...

老男孩coder
2018/06/17
0
0
如何用Python来制作简单的爬虫,爬取到你想要的图片

在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。 我们最常规的做法就是通过鼠标右键,选择另存为...

糖宝lsh
2018/08/28
74
1

没有更多内容

加载失败,请刷新页面

加载更多

shangcheng-my

1.数据库主键、外键类型为bigint,那么在后台应该用什么类型的变量定义? 后台用string接收,因为前段传过来的一般都是json字符串,后台直接接收,mysql是可以吧数字类型的字符串转换为对应的...

榴莲黑芝麻糊
昨天
1
0
微服务架构依赖图

基于spring-cloud-alibaba + dubbo

龙影
昨天
3
0
Centos7 安装zabbix-agent

rpm -i https://repo.zabbix.com/zabbix/4.2/rhel/6/x86_64/zabbix-release-4.2-2.el6.noarch.rpm 可以到https://repo.zabbix.com/zabbix找到对应的版本 yum install zabbix-agent -y 出现E......

abowu
昨天
8
0
文本编辑器GNU nano 4.4 发布

GNU nano 4.4 "Hagelslag" 更新日志: 启动时,光标可以放在第一个或最后一个出现位置 字符串前面带有+/string 或 +?string的字符串。 发生自动硬包装时((--breaklonglines),任何前导引号...

linuxCool
昨天
7
0
你知道字节序吗

字节序 最近在调一个自定义报文的接口时,本来以为挺简单的,发现踩了好几个坑,其中一个比较“刻骨铭心”的问题就是数据的字节序问题。 背景 自定义报文,调用接口,服务端报文解析失败 iO...

杭城小刘
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部