文档章节

基本小爬虫程序

AlanProgrammer
 AlanProgrammer
发布于 2014/04/02 18:16
字数 64
阅读 102
收藏 5
#!/usr/bin/python
import re
import urllib
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
def getImg(html):
    reg = r"src=\"(.+\.jpg)\" pic_ext"
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 1
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,"%s.jpg" %x)
        print x
        x += 1
    return (x-1)
html = getHtml("http://tieba.baidu.com/p/2753105329")
print getImg(html)

本文转载自:

AlanProgrammer
粉丝 0
博文 13
码字总数 128
作品 0
南京
私信 提问
我的第一个小程序:小程序与SEO

在之前的文章里,我曾提到小程序是C/S程序,而SEO的基本要求是B/S程序,需要网页做SSR(服务端渲染),这样才能让爬虫通过简单的HTTP请求获得网页内容,然后根据内容生成索引,最终通过搜索引擎...

_风清洋
07/04
0
0
爬虫小新--Sinawler

国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。 登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。 该应用获取的数...

匿名
2010/11/02
26.1K
1
python-21:爬取糗事百科段子--总结

好了,我们第一个实践的实例--爬取糗事百科段子,到这里就结束了 我们来看看我们做了什么 1. 我们花一个钟的时间把python的知识点过了一遍,对python有了一个基本的认识 2. 然后在python的几...

达岭凹老大
2015/11/25
138
0
Python爬虫 监控进程

一:前言 python 语言具有良好的垃圾回收功能,但是实际运用爬虫的时候还是会出现内存逐渐增大的现象,包括数据库服务占用的内存也会不断增加。这样服务器或者电脑就会收到一定的影响。这次的...

布咯咯_rieuse
2017/11/25
0
0
WebMagic Avalon设计草图

创建爬虫 这里可以配置爬虫的基本信息。 爬虫的抽取逻辑采用模板化的思想,编写一个Java文件之后,提供一些属性注入点,程序会自动根据注入点,产生表单。 ![create spider][1] 管理爬虫 这里...

黄亿华
2014/02/25
5.1K
30

没有更多内容

加载失败,请刷新页面

加载更多

Spring Cloud 笔记之Spring cloud config client

观察者模式它的数据的变化是被动的。 观察者模式在java中的实现: package com.hxq.springcloud.springcloudconfigclient;import org.springframework.context.ApplicationListener;i...

xiaoxiao_go
今天
4
0
CentOS7.6中安装使用fcitx框架

内容目录 一、为什么要使用fcitx?二、安装fcitx框架三、安装搜狗输入法 一、为什么要使用fcitx? Gnome3桌面自带的输入法框架为ibus,而在使用ibus时会时不时出现卡顿无法输入的现象。 搜狗和...

技术训练营
今天
4
0
《Designing.Data-Intensive.Applications》笔记 四

第九章 一致性与共识 分布式系统最重要的的抽象之一是共识(consensus):让所有的节点对某件事达成一致。 最终一致性(eventual consistency)只提供较弱的保证,需要探索更高的一致性保证(stro...

丰田破产标志
今天
7
0
docker 使用mysql

1, 进入容器 比如 myslq1 里面进行操作 docker exec -it mysql1 /bin/bash 2. 退出 容器 交互: exit 3. mysql 启动在容器里面,并且 可以本地连接mysql docker run --name mysql1 --env MY...

之渊
今天
7
0
python数据结构

1、字符串及其方法(案例来自Python-100-Days) def main(): str1 = 'hello, world!' # 通过len函数计算字符串的长度 print(len(str1)) # 13 # 获得字符串首字母大写的...

huijue
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部