爬虫搜索基础篇(三)
爬虫搜索基础篇(三)
张安懿 发表于2年前
爬虫搜索基础篇(三)
  • 发表于 2年前
  • 阅读 10
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 学生专属云服务套餐 10元起购>>>   

摘要: 第三篇主要是讲解如何正确地发送网络请求

2.App内容

现在的网络资源同时可以在电脑和手机上搜索到,尤其是App的盛行,更加方便了爬虫的搜索。因为只需要抓取一下API就行。如果是解构文本信息,又同时可以在电脑和手机端上截取,抓取APP是最佳选择。

抓包主要运用于获取App数据,把PC和手机设置同一个局域网内,在电脑上安装好抓包软件,把ip地址记录下来,在手机的网络地址里设置代理,再打开手机的App进行操作,如果有数据发送请求,就会被抓包软件截取记录。

三.了解网络请求

如何发送正确的请求是很重要的,这里面包括如何正确避免网页的限制、如何正确地接受数据,如果请求发送错误,是无法完成操作的。这里要详细的说一下请求的操作和模拟请求。

其实爬虫并不神秘深奥,它就是一次次地HTTP请求,无论是网页还是App,只要找到合适的链接或者API,丢一个请求包过去,得到的返回包就是它说截取到的数据了,综合来说有一下几点:

 HTTP请求

抓包最主要是把URL搞明白才行,发请求过去,找到Headers里面的内容,这里是问题出的最多的地方,一般来说用户代理, 推荐信息, 浏览器缓存和身份验证是最常限制的几个字段。

请求的内容一般都是把主键值进行urlencode,很多人发现返回的数据为什么是空的,如果URL和请求方法都没错的话,这里面的原因主要有以下几个方面:

主键值 

在请求分析的时候,观察第五个返回有没有被限制或者重定向,主要是把1-4点和模拟请求吃透彻。

    刚学的想上手试试吗?在线编程,码农谷智能开发在线编辑器

    共有 人打赏支持
    粉丝 2
    博文 28
    码字总数 18781
    ×
    张安懿
    如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
    * 金额(元)
    ¥1 ¥5 ¥10 ¥20 其他金额
    打赏人
    留言
    * 支付类型
    微信扫码支付
    打赏金额:
    已支付成功
    打赏金额: