文档章节

使用httpcliet抓取网络数据的两套方案

change_solider
 change_solider
发布于 2014/06/14 11:06
字数 484
阅读 50
收藏 0
点赞 0
评论 3
使用httpcliet抓取网络数据的两套方案

简要说明:
需要进行用户登陆的抓取网络数据解决方案。
用户的许多操作都必须是登陆后才能进行的,
第一种指,登陆后,可以做任何操作,但连接不能断
第二种指,每次做任何操作,先登陆 ,再操作,操作完成之后,关闭连接。


第一种方式:维持长连接
1.使用session保存一个httpclient对象,httpclient维护客户端与server连接
2.用户只用验证一次,即可做所有的操作。
3.server可能会维持大量连接
4.session 30分钟没使用,会自动断开连接
5.httpclient在全局有效。



第二种方式:不维持长连接
1.每次抓取数据操作,使用一个httpclient,使用完毕后,关闭httpclient.
2.server不会维持大量连接
3.每次用户操作都需要进行用户验证,比如获得课表这一操作,需要先登陆用户,再得到课表。
4.每次操作后,需要关闭httpclient.
5.httpclient在一次操作中有效。

例如:
抓取教务系统数据:
第一种方式是:先登陆上教务系统 ,然后一直保持着和教务系统的长连接,直到30分钟没有操作,连接自动关闭,在保持连接的时候,用户可以任意的读取教务系统中的数据,比如课表,成绩,个人信息。
第二种方式是:用户想用看课表,好的,用户需要提供用户名,密码,以及看哪个课表。。server登陆上教务系统,获得了与教务系统的连接,得到课表后,server断开与教务系统的连接,server将请求到的数据返回给client.

© 著作权归作者所有

共有 人打赏支持
change_solider
粉丝 20
博文 7
码字总数 4656
作品 1
朝阳
程序员
加载中

评论(3)

change_solider
change_solider

引用来自“change_solider”的评论

求大神指教。。

引用来自“梅三公子”的评论

what
我又学了几天httpclient,发现之前的理解有点粗浅,许多的理解也都错了。。
土鳖的弟弟
土鳖的弟弟

引用来自“change_solider”的评论

求大神指教。。
what
change_solider
change_solider
求大神指教。。
vscrawler 0.2.2 发布,一个适合应对爬虫封堵的抓取框架

vscrawler是一个适合应对爬虫封堵的抓取框架。 当前发布0.2.2版本,在0.2.2版中,我重新设计了资源管理队列,用来处理爬虫所需要的基础资源(账号、设备号,token)的分发、轮询、评分、封禁...

virjar
01/09
783
4
全程干货 | 了解爬虫技术原理,看这篇就够了

爬虫系统的诞生 蜘蛛爬虫 通用搜索引擎的处理对象是互联网网页,目前互联网网页的数量已达百亿,所以搜索引擎首先面临的问题是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到...

努力拼搏的80后
01/10
0
0
802.11无线网络部署方案对比分析

802.11无线网络部署方案对比分析 目前随着802.11无线网络的快速发展,较大规模的项目,无数AP数量将会比较多,配置、管理及维护问题将会日益突出,另外,像WiFi电话等对无线漫游、信号强度、...

冰雪寒
06/26
0
0
Ubuntu 网络管理器显示“设备未托管”的解决办法

Ubuntu 网络管理器显示“设备未托管”的解决办法 Ubuntu 13.10的网络管理器不能用ADSL拨号,于是想用Wicd来替代默认的网络管理器,但Wicd令我很失望,居然不能发现无线网络。 无奈换回了默认...

Error_W
2013/12/12
0
0
MysqlProtocolAnalyzer一个Java实现的MySql协议解析库

MysqlProtocolAnalyzer MysqlProtocolAnalyzer 是一个对Mysql的通讯协议的包进行解析的库,纯java编写,输入文件可以是任意的16进制的网络数据包文本文件,当然需要一定的预处理才能使用。本...

zhujunxxxxx
2015/11/14
0
0
HTTPS抓包与手机抓包,看这一篇就够了

前言 关于抓包的话题我之前也写过,这次主要针对HTTPS与手机抓包。最近这方面工作做的不少,一边记录一边分享。 正文 1 HTTPS抓包 对于HTTPS的抓包在之前我的文章中也写到过,关注微信公众号...

Mocha_Lee
2017/11/16
0
0
Network Manager显示设备未托管的解决办法

Linux Deepin 11.12,在KDE下使用pppoeconf后发现gnome3中Network Manager显示“设备未托管”,用pppoeconf联网查找资料: -------------------------------------------- 修改文件: /etc/N...

microhard
2012/02/12
0
0
网络爬虫基本原理以及Jsoup基本使用方法

1.网络爬虫基本原理 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的...

谢思华
2015/06/10
0
0
【开源访谈】 Spiderman作者赖伟威访谈实录

【作者简介】 赖伟威 毕业刚满一年的Java Coder,立志做可靠的系统架构师。大学期间与几位志同道合的同学创办CFuture工作室。现在深圳打拼中。 【软件简介】 Spiderman 是一个基于微内核+插件...

丫头潘潘
2013/06/26
2.9K
12
悠然乱弹:WebMagic VS TinySpider

上次@黄勇 提到与@黄亿华 WebMagic比较的问题。我在后面简单回复了一下下,现系统整理一下,不一定正确。 两者都是可以用于网页数据抓取,都有良好的扩展性及架构设计,但是由于定位稍有差异...

悠悠然然
2014/03/04
0
5

没有更多内容

加载失败,请刷新页面

加载更多

下一页

前端基础

1. get请求传参长度的误区 误区:我们经常说get请求参数的大小存在限制,而post请求的参数大小是无限制的。 实际上HTTP 协议从未规定 GET/POST 的请求长度限制是多少。对get请求参数的限制是...

wenxingjun
今天
0
0
Android 复制和粘贴功能

做了一回搬运工,原文地址:https://blog.csdn.net/kennethyo/article/details/76602765 Android 复制和粘贴功能,需要调用系统服务ClipboardManager来实现。 ClipboardManager mClipboardM...

她叫我小渝
今天
0
0
拦截SQLSERVER的SSL加密通道替换传输过程中的用户名密码实现运维审计(一)

工作准备 •一台SQLSERVER 2005/SQLSERVER 2008服务 •SQLSERVER jdbc驱动程序 •Java开发环境eclipse + jdk1.8 •java反编译工具JD-Core 反编译JDBC分析SQLSERVER客户端与服务器通信原理 SQ...

紅顏為君笑
今天
6
0
jQuery零基础入门——(六)修改DOM结构

《jQuery零基础入门》系列博文是在廖雪峰老师的博文基础上,可能补充了个人的理解和日常遇到的点,用我的理解表述出来,主干出处来自廖雪峰老师的技术分享。 在《零基础入门JavaScript》的时...

JandenMa
今天
0
0
linux mint 1.9 qq 安装

转: https://www.jianshu.com/p/cdc3d03c144d 1. 下载 qq 轻聊版,可在百度搜索后下载 QQ7.9Light.exe 2. 去wine的官网(https://wiki.winehq.org/Ubuntu) 安装 wine . 提醒网页可以切换成中...

Canaan_
今天
0
0
PHP后台运行命令并管理运行程序

php后台运行命令并管理后台运行程序 class ProcessModel{ private $pid; private $command; private $resultToFile = ''; public function __construct($cl=false){......

colin_86
今天
1
0
数据结构与算法4

在此程序中,HighArray类中的find()方法用数据项的值作为参数传递,它的返回值决定是否找到此数据项。 insert()方法向数组下一个空位置放置一个新的数据项。一个名为nElems的字段跟踪记录着...

沉迷于编程的小菜菜
今天
1
1
fiddler安装和基本使用以及代理设置

项目需求 由于开发过程中客户端和服务器数据交互非常频繁,有时候服务端需要知道客户端调用接口传了哪些参数过来,这个时候就需要一个工具可以监听这些接口请求参数,已经接口的响应的数据,这种...

银装素裹
今天
0
0
Python分析《我不是药神》豆瓣评论

读取 Mongo 中的短评数据,进行中文分词 对分词结果取 Top50 生成词云 生成词云效果 看来网上关于 我不是药神 vs 达拉斯 的争论很热啊。关于词频统计就这些,代码中也会完成一些其它的分析任...

猫咪编程
今天
0
0
虚拟机怎么安装vmware tools

https://blog.csdn.net/tjcwt2011/article/details/72638977

AndyZhouX
昨天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部