文档章节

python抓取网页demo

爱喝貓的咖啡
 爱喝貓的咖啡
发布于 2015/07/31 14:59
字数 85
阅读 40
收藏 0


需要装一个第三HTML解析库库: BeautifulSoup,

http://www.crifan.com/python_third_party_lib_html_parser_beautifulsoup/

http://www.crummy.com/software/BeautifulSoup/

import urllib2
from bs4 import BeautifulSoup

def t1():
    url = "http://my.oschina.net/javayou"
    req = urllib2.Request(url,headers=brower_header)
    resp = urllib2.urlopen(req,timeout=2)

    html_doc = resp.read()
    soup = BeautifulSoup(html_doc, 'html.parser')
    #print soup.prettify()
    #print '--------------------------------------------------------------------------------------'
    ls = soup.find_all('a')
    for i in ls:
        if i.attrs.has_key('href') \
                and (i['href'].find("http:") == 0 or i['href'].find("https:") == 0):
            print i['href']


© 著作权归作者所有

爱喝貓的咖啡

爱喝貓的咖啡

粉丝 18
博文 58
码字总数 31397
作品 0
朝阳
程序员
私信 提问
同事每天都买两张彩票,利用Python抓取彩票中奖数据,可笑至极!

问他为什么每天都要买彩票,他说经常看新闻,看到很多人中大奖。我笑着反问,彩票预测可信吗?中奖的概率又是多少呢? (私信小编001 、002 、003 、007任意即可获取Python学习资料) 我不知...

Python新世界
2018/07/14
0
0
Python爬虫框架Scrapy学习笔记

Python爬虫框架Scrapy学习笔记 糖宝Python 2019-03-31 18:15 scrapy.png 本文主要内容针对Scrapy有初步了解的同学。结合作者的实际项目中遇到的一些问题,汇成本文。 之后会写一些具体的爬虫...

糖宝lsh
03/31
59
0
Python爬虫原理详解 简单易懂

什么是Python爬虫?Python爬虫原理是什么?Python爬虫代码是如何实现的?码笔记分享Python介绍及爬虫原理详解: 什么是Python爬虫? 我们可以把互联网看成是各种信息的站点及网络设备在一起组...

张扯淡
07/26
0
0
《权力的游戏》最终季上线!谁是你最喜爱的演员?这里有一份Python教程 | 附源码...

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/89369393...

AI科技大本营
04/17
0
0
Python爬取妹子,哇!太多了,看不过来了,我一个G的硬盘要满了

淘女郎爬虫,可动态抓取淘女郎的信息和照片。 需要额外安装的第三方库 加小编Python学习群:813542856可以获取各类Python学习资料哦! requests pip install requests pymongo pip install ...

浪里小白龙q
2018/11/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

golang-字符串-地址分析

demo package mainimport "fmt"func main() {str := "map.baidu.com"fmt.Println(&str, str)str = str[0:5]fmt.Println(&str, str)str = "abc"fmt.Println(&s......

李琼涛
46分钟前
4
0
Spring Boot WebFlux 增删改查完整实战 demo

03:WebFlux Web CRUD 实践 前言 上一篇基于功能性端点去创建一个简单服务,实现了 Hello 。这一篇用 Spring Boot WebFlux 的注解控制层技术创建一个 CRUD WebFlux 应用,让开发更方便。这里...

泥瓦匠BYSocket
今天
6
0
从0开始学FreeRTOS-(列表与列表项)-3

FreeRTOS列表&列表项的源码解读 第一次看列表与列表项的时候,感觉很像是链表,虽然我自己的链表也不太会,但是就是感觉很像。 在FreeRTOS中,列表与列表项使用得非常多,是FreeRTOS的一个数...

杰杰1号
今天
4
0
Java反射

Java 反射 反射是框架设计的灵魂(使用的前提条件:必须先得到代表的字节码的 Class,Class 类 用于表示.class 文件(字节码)) 一、反射的概述 定义:JAVA 反射机制是在运行状态中,对于任...

zzz1122334
今天
5
0
聊聊nacos的LocalConfigInfoProcessor

序 本文主要研究一下nacos的LocalConfigInfoProcessor LocalConfigInfoProcessor nacos-1.1.3/client/src/main/java/com/alibaba/nacos/client/config/impl/LocalConfigInfoProcessor.java p......

go4it
昨天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部