文档章节

写了一个批量下载页面以及页面引用图片的脚本

since1986
 since1986
发布于 2014/05/12 11:03
字数 334
阅读 374
收藏 6
#!/bin/bash
#
#批量下载页面以及页面引用图片的脚本
#
#write by since1986 at 2014-05-12

#页面引用图片的目标下载目录
img_download_destination_folder="/opt/gbk/inc/wbts"

#页面引用图片的下载列表文件
img_download_list_file_path="/tmp/page_and_img_download.list"

#页面引用图片的引用方式的正则
img_regex="http://\S*(\.jpg|\.gif)"

#读取下载任务定义文件 下载任务定义文件使用 每行一段 “要下载的页面链接=下载目标路径” 的形式定义多个下载任务
page_src_url_map=`cat page_urls.map`


#循环下载任务定义中的每一项下载任务
for line in $page_src_url_map
    do
        page_src_url=`echo $line | cut -d= -f1` #从下载定义中获得要下载页面的源地址
        page_desc_path=`echo $line | cut -d= -f2` #从下载定义中获得要下载页面的目标路径
        wget $page_src_url -c -O $page_desc_path #使用断点续传的方式下载页面
        cat $page_desc_path | egrep -o $img_regex > $img_download_list_file_path #提取下载好的页面中包含的引用图片的链接并保存为下载列表文件
        wget -c -P ${img_download_destination_folder}/img/ -i $img_download_list_file_path #依据引用图片下载列表文件下载引用图片
        rm -rf $img_download_list_file_path #删除引用图片下载列表文件
    done


© 著作权归作者所有

共有 人打赏支持
since1986
粉丝 7
博文 60
码字总数 10510
作品 1
石家庄
程序员
私信 提问
锐商企业CMS--COMSHARP CMS

COMSHARP CMS (锐商企业CMS)是一款基于 ASP.NET 和 W3C 标准,支持多国语言的企业CMS, 帮助企业用户快速建设与部署企业级门户网站。创新的网站前端编辑系统(FrEE)让您直接在最终页面上进...

匿名
2010/01/24
6.7K
0
StaticFilesServer静态文件服务器

Web项目开发的过程中,一般会经过设计,切图静态化,程序。 设计工作是很独立的,与其他两个过程没什么关系。 但静态化和程序有时候就需要协作了,在我的实际工作中就遇到这样一个问题:前端在...

李朝强
2015/12/11
42
0
【油猴插件】用Tampermonkey来实现百度云满速下载和批量离线

网易新闻的评论要是直接出现在正文的右边就方便多了; 优酷要是能提供一个不用安装客户端直接下载视频的按钮那就更方便; 在新浪微博中被各种刷屏刷得烦死了,可不可以按照关键词屏蔽一下? ...

dotleo
2017/10/26
0
0
利用Tampermonkey chrome插件写脚本抢课以及交大选课插件

去年无意间有看过一款交大选课插件,觉得现在的学生都好NIUbility,为了选课能搞出一个chrome插件。今天又看到一个学生为了在学校抢课又写了一个抢课的脚本。真的不佩服,不禁感慨,我的校园...

TheBeauty2016
2017/07/11
0
0
浏览器加载过程

Q1:浏览器加载过程? Q2:加载时候容易遇到哪些问题?产生的原因?如何解决? A1: 1.用户访问网页,DNS服务器(域名解析系统)会根据用户提供的域名查找对应的IP地址,找到后,系统会向对应...

前端小虾
2016/10/10
13
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring Boot 集成 Swagger,生成接口文档就这么简单!

之前的文章介绍了《推荐一款接口 API 设计神器!》,今天栈长给大家介绍下如何与优秀的 Spring Boot 框架进行集成,简直不能太简单。 你所需具备的基础 告诉你,Spring Boot 真是个牛逼货! ...

Java技术栈
26分钟前
3
0
一个简单的js作用域题目(原创)

var name = 'nnmm' var obj = { name: 'name1', func: () => { console.log(this.name) }, func1: function (){ console.log(this.name) }, son: { ......

boogoogle
29分钟前
2
0
SSM整合activeMQ/activeMQ配置

一、引入依赖 <!-- xbean 如<amq:connectionFactory /> -->    <dependency>        <groupId>org.apache.xbean</groupId>        <artifactId>xbean-spring</artifac......

嘴角轻扬30
33分钟前
2
0
小公司出身的程序员,面试咋这么难?!

小公司出身,被大厂竞争者 KO 以下是一个非常真实的案例,是一个大厂工程师和一个小公司工程师同时求职一个独角兽公司的职位的经历。 一个是985本科学历,出身互联网大厂,四五年经验的样子。...

编程SHA
39分钟前
2
0
揭秘:蚂蚁金服bPaaS究竟是什么?

摘要: 分布式金融核心套件,蚂蚁金服bPaaS究竟是什么东东? 文/图 孙浩峰 去年9月,蚂蚁金服在杭州云栖ATEC发布了分布式金融核心套件bPaaS( Business Platform As a Service ),对外开放自...

阿里云官方博客
40分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部