文档章节

imgur.py

百里求一
 百里求一
发布于 2015/12/10 20:44
字数 214
阅读 7
收藏 0
#!/usr/bin/env python
# -*- coding: utf-8 -*-
 
from __future__ import with_statement
import sys
import os
import urllib2
from urlparse import urlparse
import random
import re
import gevent
from gevent import monkey
monkey.patch_all()
 
def get(url):
  setup = urllib2.build_opener()
  # TODO: Write appropriate headers.
  setup.add_headers = [('None', 'None')]
  urllib2.install_opener(setup)
  try:
    request = urllib2.Request(url)
  except (urllib2.HTTPError, urllib2.URLError), e:
    sys.exit(-1)
  return setup.open(request)
 
def is_url(url):
  res = urlparse(url)
  return 'imgur.com' in res.netloc
 
def fetch(url):
  res = urlparse(url)
  key = res.path.split('/')[2]
  urll = 'https://imgur.com/a/%s/noscript' % key
  return get(urll).read(), key
 
def get_or_create_folder(key, folder=None):
  foldername = key
  if folder is not None:
    foldername = folder
  if not os.path.exists(foldername):
    os.makedirs(foldername)
  return foldername
  
def fetch_images(foldername, images):
  gevent.sleep(random.randint(0, 1) * 0.0001)
  path = os.path.join(foldername, images[1])
  with open(path, 'wb') as img:
    img.write(get(images[0]).read())
  print 'Done:\t%s' % images[0]
 
def save(url, folder=None):
  data, key = fetch(url)
  REGEX = re.compile(r'<img src="(http\:\/\/i\.imgur\.com\/([a-zA-Z0-9]{5}\.(jpg|png|gif)))"')
  images = REGEX.findall(data)
  foldername = get_or_create_folder(key, folder)
  return foldername, images
 
 
if __name__ == '__main__':
  url = sys.argv[1]
  try:
    folder = sys.argv[2]
  except IndexError:
    folder = None
  foldername, images = save(url, folder=folder)
  threads = [gevent.spawn(fetch_images, foldername, image) for image in images]
  gevent.joinall(threads)

 

本文转载自:http://www.cnblogs.com/bergus/p/4592772.html

百里求一
粉丝 0
博文 29
码字总数 2218
作品 0
普陀
程序员
私信 提问

暂无文章

【TencentOS tiny】深度源码分析(4)——消息队列

消息队列 在前一篇文章中【TencentOS tiny学习】源码分析(3)——队列 我们描述了TencentOS tiny的队列实现,同时也点出了TencentOS tiny的队列是依赖于消息队列的,那么我们今天来看看消息...

杰杰1号
7分钟前
1
0
Hive

这就是那个 JAVA 类 package cn.itcast.bigdata;import java.util.HashMap;import org.apache.hadoop.hive.ql.exec.UDF;public class PhoneNbrToArea extends UDF{privat......

Garphy
7分钟前
2
0
Springboot开发,第二天

SpringBoot学习,第二天 目录:1、Springboot整合Listener 2、Springboot访问静态资源 3、异常处理 4、热部署 一、SpringBoot整合Listener 两种方式完成组件的注册 1、通过注解扫描完成组件的...

有一个小阿飞
11分钟前
3
0
BeginnersBook Perl 教程

来源:ApacheCN BeginnersBook 翻译项目 译者:飞龙 协议:CC BY-NC-SA 4.0 贡献指南 本项目需要校对,欢迎大家提交 Pull Request。 请您勇敢地去翻译和改进翻译。虽然我们追求卓越,但我们并...

ApacheCN_飞龙
23分钟前
2
0
我的Java秋招面经大合集

阿里面经 阿里中间件研发面经 蚂蚁金服研发面经 岗位是研发工程师,直接找蚂蚁金服的大佬进行内推。 我参与了阿里巴巴中间件部门的提前批面试,一共经历了四次面试,拿到了口头offer。 然后我...

Java技术江湖
28分钟前
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部