文档章节

python网络爬虫(一)准备工作

clgo
 clgo
发布于 2017/02/18 13:06
字数 434
阅读 10
收藏 1

爬取一个网站数据时我们首先要对一个网站的规模和结构进行了解。网站自身的robots.txt和Sitemap文件对我们了解一个网站非常有帮助。

1.估算网站大小:

可以使用搜索引擎估算一个网站的大小,在谷歌或百度上使用site关键词可以获取信息。例如使用site:www.oschina.net结果如下。 输入图片说明 在域名后面添加url路径会对页面进行过滤,只显示网站某些部分页面。当然,这种方法不是非常精确,只是给出一个参考。

2.识别网站使用的技术

我们可以使用builtwith模块识别目标网站使用了什么技术。 安装模块:

pip install builtwith

然后加载模块,下载该url进行分析:

>>> import builtwith
>>> builtwith.parse('http://www.oschina.net/')
{u'javascript-frameworks': [u'jQuery', u'Vue.js'], u'web-servers': [u'Tengine']}
>>> builtwith.parse('http://www.douban.com')
{u'javascript-frameworks': [u'jQuery'], u'tag-managers': [u'Google Tag Manager'], u'analytics': [u'Piwik']}


3.查询域名所有者

查询郁闷所有者可以使用多种方法,可以直接使用一些网站提供的服务,也可以使用Python的封装库直接查询:

pip install python-whois
>>> import whois
>>> print whois.whois('oschina.com')
{
  "updated_date": [
    "2017-01-06 00:00:00", 
    "2017-01-06 06:00:23"
  ], 
  "status": [
    "clientDeleteProhibited https://icann.org/epp#clientDeleteProhibited", 
    "clientTransferProhibited https://icann.org/epp#clientTransferProhibited", 
    "clientDeleteProhibited https://www.icann.org/epp#clientDeleteProhibited", 
    "clientTransferProhibited https://www.icann.org/epp#clientTransferProhibited"
  ], 
  "name": "zheng jin wei", 
  "dnssec": "unsigned", 
  "city": "bei jing", 
  "expiration_date": [
    "2018-07-25 00:00:00", 
    "2018-07-25 13:05:23"
  ], 
  "zipcode": "100000", 
  "domain_name": [
    "OSCHINA.COM", 
    "oschina.com"
  ], 
  "country": "CN", 
  "whois_server": "whois.ename.com", 
  "state": "bei jing", 
  "registrar": "eName Technology Co.,Ltd.", 
  "referral_url": "http://www.ename.net", 
  "address": "hai dian qu zhong guan cun nan da jie", 
  "name_servers": [
    "DNS1.IIDNS.COM", 
    "DNS2.IIDNS.COM", 
    "DNS3.IIDNS.COM", 
    "DNS4.IIDNS.COM", 
    "DNS5.IIDNS.COM", 
    "DNS6.IIDNS.COM", 
    "dns1.iidns.com", 
    "dns2.iidns.com", 
    "dns3.iidns.com", 
    "dns4.iidns.com", 
    "dns5.iidns.com", 
    "dns6.iidns.com"
  ], 
  "org": "zheng jin wei", 
  "creation_date": [
    "2007-07-25 00:00:00", 
    "2007-07-25 13:05:23"
  ], 
  "emails": [
    "abuse@ename.com", 
    "d_7665@163.com"
  ]
}

© 著作权归作者所有

clgo
粉丝 2
博文 100
码字总数 37222
作品 0
郑州
私信 提问
Python Scrapy 爬虫(一):环境搭建

  三年前的一天,我在灵隐寺求佛时,偶遇一高僧,法号智息。大师见我眉头紧皱,心事重重,于是便主动上前来开导我。大师充满智慧地告诉我了一句真理:“人生苦短,及时行乐。”   在大师...

雨林_a1d6
2018/05/24
0
0
5个python爬虫教材,让小白也有爬虫可写,含视频教程!

认识爬虫   网络爬虫,如果互联网是一张蜘蛛网,网络爬虫既是一个在此网上爬行的蜘蛛,爬了多少路程即获取到多少数据。 python写爬虫的优势   其实以上功能很多语言和工具都能做,但是用...

柯西带你学编程
2018/06/12
0
0
用爬虫和Flask打造属于自己的电影网站,完整教程送上!

  也许你曾经为了一部电影找遍全网却没发现任何有用的资源,也许你曾经被披着电影外衣的网站忽悠进去而染上木马病毒。一部小小的电影搞得你心力交瘁,怀疑人生。不过,作为一名合格的程序员...

菜鸟学Python
2018/07/28
0
0
涨!涨!涨!2018年Python 工程师薪资再次刷出新高度

闻名的TIOBE排行榜刚刚发布最新的2018年2月编程言语排名榜。TIOBE编程社区索引是编程言语评价的一个指标,该指数每月更新一次。小伙伴们赶忙看看下面的排名情况吧! TIOBE编程社区指数是流行...

python进阶者
2018/03/01
0
0
2018Python网络爬虫与文本挖掘技术培训班

各科研院所单位: 随着互联网的发展,网络信息呈现指数式增长,要在短时间内获取大量信息,网络爬虫无疑是一种最适合的方法。通过爬虫获取的海量信息,我们可以对其进行进一步的分析:市场预...

朱苗
2018/06/07
283
0

没有更多内容

加载失败,请刷新页面

加载更多

DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
21分钟前
1
0
数据库中间件MyCat

什么是MyCat? 查看官网的介绍是这样说的 一个彻底开源的,面向企业应用开发的大数据库集群 支持事务、ACID、可以替代MySQL的加强版数据库 一个可以视为MySQL集群的企业级数据库,用来替代昂贵...

沉浮_
今天
4
0
解决Mac下VSCode打开zsh乱码

1.乱码问题 iTerm2终端使用Zsh,并且配置Zsh主题,该主题主题需要安装字体来支持箭头效果,在iTerm2中设置这个字体,但是VSCode里这个箭头还是显示乱码。 iTerm2展示如下: VSCode展示如下: 2...

HelloDeveloper
今天
6
0
常用物流快递单号查询接口种类及对接方法

目前快递查询接口有两种方式可以对接,一是和顺丰、圆通、中通、天天、韵达、德邦这些快递公司一一对接接口,二是和快递鸟这样第三方集成接口一次性对接多家常用快递。第一种耗费时间长,但是...

程序的小猿
今天
4
0
Python机器学习之数据探索可视化库yellowbrick

背景介绍 从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维。陆续使用过plotly、seaborn,...

yeayee
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部