文档章节

爬虫搜索基础篇(二)

张安懿
 张安懿
发布于 2015/11/19 09:22
字数 650
阅读 16
收藏 0

2.结构化数据

JSON字符串的数据是最好处理的,因为只需要解析之后就可以使用了,结构化数据基本都是这个类型。

二.内容

APP手机端的蓬勃兴起,在一定程度上改变了人们获取信息的习惯,以往都是打开电脑,在浏览器上面搜索自己需要的知识。现在只要有手机,有WIFI,搜索变得简单,方便的多了。爬虫除了检索网页上的内容之外,也会涉及到移动端的抓取请求,这里要分为两部分说明。

网页

很多新人都习惯性地认为,我们在网页上看到的就是全部内容,其实并不仅仅局限于网页代码里面的包含的信息,新人在这一块可能有碰到很多问题,比如:网页代码

如果是直接调用本地浏览器、要么就是抓取一些包含了JS代码的引擎,这两种做法在处理大量数据抓取是非常低效的,到底呈现在网页上的内容是如何实现的呢?主要分为以下几点:

.网页包含的内容

网页上的内容有一些是固定不变的,有一些内容是动态的,必须通过模板渲染生成,蜘蛛在获取这类信息的时候,只需要搜索特定的HTML标签即可得到,非常简单。

.JS代码的内容

在处理含有js代码的网页时,很容易检索到空内容。这是因为所有的内容不仅是html、同时还有js字符串,如果只处理html代码,那是无法得到信息的。这种情况下必须用正则表达式找到包含内容的js代码串,才能得到实质的信息,不能单一的解析html。

.Ajax异步的内容

下图是chrome浏览器,在页面以分页形式展现的时候,亦或是无刷新的情况下,出现以下情况就很正常。那我们该如何分析呢?这里简要说明:

chrome浏览器 

首先我们要学会观察数据,在页面刷新的时候,数据在哪一步被加载进来的,如果是没有意义的网页,就不需要理会了。如果一旦找到核心异步请求的时候,直接抓取就行了。

    刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器

    © 著作权归作者所有

    共有 人打赏支持
    张安懿
    粉丝 1
    博文 28
    码字总数 18781
    作品 0
    南昌
    scrapy初探之实现爬取小说

    一、前言 上文说明了scrapy框架的基础知识,本篇实现了爬取第九中文网的免费小说。 二、scrapy实例创建 1、创建项目 2、定义要爬取的字段(item.py)

    元婴期
    06/04
    0
    0
    Python3爬虫视频学习教程

    大家好哈,现在呢静觅博客已经两年多啦,可能大家过来更多看到的是爬虫方面的博文,首先非常感谢大家的支持,希望我的博文对大家有帮助! 最近,主要的任务就是开发性感美女图片大全,使用p...

    yangjiyue0520
    2017/11/18
    0
    0
    爬虫系列的总结

    图片来自 unsplash 时光荏苒,四个月时间如流沙般从手心中流逝。这四个月自己算是收获颇多。因为在张哥的影响下,自己渐渐喜欢上写作。自己将所学的爬虫知识、学习心得以及如何学习分享出来。...

    猴哥Yuri
    2017/10/27
    0
    0
    精通Node爬虫-01-给门外汉说明白什么是爬虫

    记得我刚刚入职不久,我就接到一个爬虫任务。当时负责设计的同事就问我到底什么是爬虫,当时我的解释是:“程序模仿人访问网页数据的行为,获取想要的数据。”这个解释是没问题的,但是门外汉...

    布宝
    05/21
    0
    0
    Python 数据挖掘学习 一 结巴分词

    近期,想对古典小说进行索引,和知识挖掘,所以研究了下python数据挖掘方面的知识 Python安装 python学习 一 python语法,及变量类型 python学习 二 爬一个图片网站上 python学习 二 02 爬一...

    shuilan0066
    01/22
    0
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    Java的快速失败和安全失败

    一:快速失败(fail—fast) 在用迭代器遍历一个集合对象时,如果遍历过程中对集合对象的内容进行了修改(增加、删除、修改),则会抛出Concurrent Modification Exception。 原理:迭代器在...

    狼王黄师傅
    17分钟前
    5
    0
    Echarts X轴Y轴配置参数详情

    mytextStyle={ color:"#333", //文字颜色 fontStyle:"normal", //italic斜体 oblique倾斜 fontWeight:"normal", //文字粗细bold bolder lighter 100 | 200 | 300 | 400... fontFamily:"sans......

    wqzbxh
    19分钟前
    1
    0
    解决kettle使用JDBC读取Oracle速度慢的问题

    jdbc连接添加如下信息: defaultRowPrefetch=20000

    了凡川
    23分钟前
    1
    0
    Linux学习-1015

    8.10 shell特殊符号cut命令 8.11 sort_wc_uniq命令 8.12 tee_tr_split命令 8.13 shell特殊符号下 相关测验题目:题目:http://ask.apelearn.com/question/5437 扩展 扩展 1. source exec 区别...

    wxy丶
    24分钟前
    2
    0
    Spring Boot核心注解讲解

    Spring Boot核心注解讲解 Spring Boot最大的特点是无需XML配置文件,能自动扫描包路径装载并注入对象,并能做到根据classpath下的jar包自动配置。 所以Spring Boot最核心的3个注解就是: 1,...

    DemonsI
    30分钟前
    2
    0

    没有更多内容

    加载失败,请刷新页面

    加载更多

    返回顶部
    顶部