文档章节

python爬取站长素材网页图片保存到ppt中

你为什么不吃药
 你为什么不吃药
发布于 07/17 17:41
字数 389
阅读 38
收藏 0

网站地址:http://sc.chinaz.com/tupian/index.html

直接上代码:

import requests
from bs4 import BeautifulSoup
from pptx import Presentation
from pptx.util import Inches
import os
header = {
    "Referer":"http://sc.chinaz.com/tupian/index_2.html",
    "Upgrade-Insecure-Requests":1,
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36",
     "Host":"sc.chinaz.com",
    "If-None-Match":"b22f28e7941dd41:0",
    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    "Connection":"keep-alive"
}
#创建ppt
prs = Presentation()
#图片放置位置
left, top, width, height = Inches(1), Inches(0.5), Inches(8), Inches(6)
#查询最大页数
response = requests.get("http://sc.chinaz.com/tupian/index.html")
soup = BeautifulSoup(response.text,"lxml");
b=soup.find_all("b")
print("最大页数为%s" % b[-1].text)
for i in range(2,int(b[-1].text)):
    print("下载第%d页的图片" % i)
    resposne = requests.get("http://sc.chinaz.com/tupian/index_%s.html" % str(i));
    resposne.encoding="utf-8"
    soup = BeautifulSoup(resposne.text,"lxml")
    div = soup.find("div",id="container")
    #获取所有a标签
    a = div.find_all("img")
    for j in a:
        #获取名称
        name = j["alt"]
        #获取图片地址
        img = j["src2"]
        #href = j.find("img")["src2"]
        #图片保存的名称
        imgname = name+".jpg"
        conteng = requests.get(img)
        #图片二进制
        er = conteng.content
        with open("F:\\BaiduNetdiskDownload\\"+imgname,"wb") as file:
            print("正在下载图片--%s" %imgname)
            file.write(er)
            file.flush()
            #创建一个空白ppt
            ppt = prs.slide_layouts[6]
            #添加到ppt中
            ppts = prs.slides.add_slide(ppt)
            #空白ppt添加下载的图片
            pic = ppts.shapes.add_picture("F:\\BaiduNetdiskDownload\\"+imgname, left, top, width, height)
            #删除图片
            try:
                if os.path.exists("F:\\BaiduNetdiskDownload\\"+imgname):
                    # 删除文件,可使用以下两种方法。
                    os.remove("F:\\BaiduNetdiskDownload\\"+imgname)
                    # os.unlink(my_file)
            except:
                pass
    files= os.listdir("F:\\BaiduNetdiskDownload\\")
    if files:
        for k in files:
            print("正在删除图片--%s" % k)
            os.remove("F:\\BaiduNetdiskDownload\\"+k)
    prs.save("ppt1.ppt")

个人娱乐

© 著作权归作者所有

共有 人打赏支持
你为什么不吃药
粉丝 3
博文 11
码字总数 3719
作品 0
石家庄
程序员
私信 提问
如何用Python来制作简单的爬虫,爬取到你想要的图片

在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。 我们最常规的做法就是通过鼠标右键,选择另存为...

糖宝lsh
08/28
0
0
Python 爬虫 下篇

Python安装 python学习 一 python语法,及变量类型 python学习 二 爬一个图片网站上 python学习 二 02 爬一个图片网站,获得主链接网址,并保存 python学习 二 03 爬一个图片网站-获得所有分...

gudianxiaoshuo
01/14
0
0
Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yanqianglifei/article/details/71272704 最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院...

致Great
2017/05/06
0
0
分分钟几万上下!用Python爬取包图网视频(附代码)切勿商用!

分析网页数据结构 目标抓取全站视频数据保存在本地, 并以网站视频名命名视频文件。 经分析我们可以发现总站数据 我们可以从这四这选项下手 分析网页数据格式 网页数据为静态 抓取下一页链接...

Python新世界
07/24
0
0
使用Python爬虫爬取简单网页(Python爬虫入门)

今天我们来看一看使用Python爬取一些简单的网页。 所用工具:IDLE (Python 3.6 64-bit) 一. 爬取京东商品页面 我将要爬取的是这个东京商品页面信息,代码如下: 二. 爬取亚马逊商品页面 我接...

小_橙_子
08/01
0
0

没有更多内容

加载失败,请刷新页面

加载更多

ConcurrentHashMap源码解析

初始化 先看看ConcurrentHashMap中几个重要的属性: // 初始化容量大小static final int DEFAULT_INITIAL_CAPACITY = 16;//默认负载因子static final float DEFAULT_LOAD_FACTOR = 0.75f...

grace_233
9分钟前
0
0
java对象的浅拷贝和深拷贝

浅拷贝 java的数据类型有基本数据类型(如:int、long等)和引用数据类型。例如:对象1中有属性a(基本数据类型)和属性b(引用数据类型),在进行浅拷贝到对象2时,属性a复制属性的值给对象...

yangyangyyyy
9分钟前
0
0
SQLServer AlwaysOn在阿里云的前世今生

缘起 早在2015年的时候,随着阿里云业务突飞猛进的发展,SQLServer业务也积累了大批忠实客户,其中一些体量较大的客户在类似大促的业务高峰时RDS的单机规格(规格是按照 内存CPUIOPS 一定比例...

阿里云云栖社区
10分钟前
0
0
ubuntu16.04 LNMP搭建 php7.1

sudo apt-get update sudo apt-get install mysql-server mysql-client sudo apt-add-repository ppa:ondrej/php sudo apt-get update sudo apt-get install php7.1 php7.1-fpm php7.1-cgi p......

一千零一夜个为什么
16分钟前
0
0
阿里云高级技术专家带你全面了解云主机性能评测

钱超,花名西邪,阿里云高级技术专家,超12年老阿里,是云主机性能领域的知名专家。 在目前的云计算测评领域,很多性能测评存在营销的包装,容易引起误导:比如用瞬时性能引导读者得出结论,...

阿里云官方博客
24分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部