文档章节

dungproxy

virjar
 virjar
发布于 2017/02/13 22:55
字数 437
阅读 54
收藏 1
点赞 0
评论 0

dungpxoy设计的目的就是为了突破爬虫目标网站的封禁策略的。因为httpclient是根据浏览器标准来实现的一个框架,很多时候默认策略容易被目标网站发现。dungproxy则实现以下方案。

提供代理服务

dungproxy本身提供了一个server,用来收集互联网上海量的代理IP。并通过我们独特的算法对其清洗打分。我们使用历史数据对当前IP可用性推测的原理来动态调整IP探测频率,使用快速降权的策略,使得server维护了一个高度活跃的可用IP池。

提供透明客户端

dungproxy有一个client,用来在最终用户机器上面实现IP资源池。client使得IP可用性的活跃保持在秒级,同时经过我们独立设计的分值计算模型,分值顺序惩罚模型,能够高效的保证IP池的优质IP被调度,切IP始终会切换。

dungproxy对httpclient有较为深度的定制,包括默认ua的织入(同时还提供了一个符合浏览器规范的User-Agent生成器),代理IP池的织入,cookie空间隔离等策略。

dungproxy定位为代理IP池,它可以对接各种IP,然后基于我们设计的smartProxyQueue资源切换模型来根据IP质量调度IP使用频率。IP根据使用效果来竞争代理IP作用权.

dungproxy目前已经在部分团队哪里得到了实践的验证,他使得在海量免费IP资源上面实现稳定的代理服务变成了可能。

项目地址:https://git.oschina.net/virjar/proxyipcenter

© 著作权归作者所有

共有 人打赏支持
virjar
粉丝 3
博文 2
码字总数 1162
作品 3
成都
代理IP池--DungProxy

DungProxy是一个代理IP服务,他包括一个代理IP资源server端和一系列适配中心IP资源得客户端。server负责代理IP资源的收集维护。client则是一系列方便用户使用得API,他屏蔽了代理IP下载、代理I...

virjar ⋅ 2017/02/18 ⋅ 3

DungProxy 0.0.6 发布,代理 IP 池

dungproxy是一个代理IP池,通过一种顺序惩罚算法实现灵敏的IP切换和IP评分。适用于模拟登录,爬虫,抓取等业务。同时dungproxy提供一个免费的代理IP源,dungproxy-client默认情况下会自动接入...

virjar ⋅ 2017/05/20 ⋅ 5

virjar/vscrawler

vscrawler vscrawler是一个更加适合抓取的爬虫框架,他不是教科书似的爬虫,准确说他不是爬虫,没有广度优先遍历这些说法,他所面临的网站URL不是网络里面的网络拓扑图而是一个个目标明确的抓...

virjar ⋅ 2017/06/14 ⋅ 0

vscrawler 0.2.1发布,适合用作抓取的爬虫框架

VSCrawler是一个适合用作抓取的爬虫框架,在更多场景倾向于功能扩展性而牺牲使用简便性。这让VSCrawler非常强大,让他可以灵活的应对目标网站的反爬虫策略。 vscrawler有挺多特点 1. 多用户登...

virjar ⋅ 2017/12/16 ⋅ 8

适合抓取封堵的爬虫框架 - vscrawler

VSCrawler是一个适合用作抓取的爬虫框架,在更多场景倾向于功能扩展性而牺牲使用简便性。这让VSCrawler非常强大,让他可以灵活的应对目标网站的反爬虫策略。为了方便描述,文档中可能使用VS替...

virjar ⋅ 2017/12/10 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多
在java中读取文件(也支持读取jar中的文件)

getClass().getResourceAsStream("文件名.格式"); 这个方法是用于获取当前类所在目录下的文件;需要将文件放到和当前类同一个包下面 比如我有个类在 com.test这个包下, 要读取一个test.jpg的图...

太黑_thj ⋅ 53分钟前 ⋅ 0

CentOS 7 源码编译安装 MySQL 5.7记录

没事瞎折腾,本来可以yum安装,却偏偏去要编译源码。 1. 安装依赖包 1). 安装cmake等依赖 # yum install cmake ncurses ncurses-devel bison bison-devel 2). 安装boost 1.59.0 # wget htt...

admin_qing ⋅ 55分钟前 ⋅ 0

tcp/ip详解-链路层

简介 设计链路层的目的: 为IP模块发送和接收IP数据报 为ARP模块发送ARP请求和接收ARP应答 为RARP模块发送RARP请求和接收RARP应答 TCP/IP支持多种链路层协议,如以太网、令牌环往、FDDI、RS-...

loda0128 ⋅ 今天 ⋅ 0

spring.net aop代码例子

https://www.cnblogs.com/haogj/archive/2011/10/12/2207916.html

whoisliang ⋅ 今天 ⋅ 0

发送短信如何限制1小时内最多发送11条短信

发送短信如何限制1小时内最多发送11条短信 场景: 发送短信属于付费业务,有时为了防止短信攻击,需要限制发送短信的频率,例如在1个小时之内最多发送11条短信. 如何实现呢? 思路有两个 截至到当...

黄威 ⋅ 昨天 ⋅ 0

mysql5.7系列修改root默认密码

操作系统为centos7 64 1、修改 /etc/my.cnf,在 [mysqld] 小节下添加一行:skip-grant-tables=1 这一行配置让 mysqld 启动时不对密码进行验证 2、重启 mysqld 服务:systemctl restart mysql...

sskill ⋅ 昨天 ⋅ 0

Intellij IDEA神器常用技巧六-Debug详解

在调试代码的时候,你的项目得debug模式启动,也就是点那个绿色的甲虫启动服务器,然后,就可以在代码里面断点调试啦。下面不要在意,这个快捷键具体是啥,因为,这个keymap是可以自己配置的...

Mkeeper ⋅ 昨天 ⋅ 0

zip压缩工具、tar打包、打包并压缩

zip 支持压缩目录 1.在/tmp/目录下创建目录(study_zip)及文件 root@yolks1 study_zip]# !treetree 11└── 2 └── 3 └── test_zip.txt2 directories, 1 file 2.yum...

蛋黄Yolks ⋅ 昨天 ⋅ 0

聊聊HystrixThreadPool

序 本文主要研究一下HystrixThreadPool HystrixThreadPool hystrix-core-1.5.12-sources.jar!/com/netflix/hystrix/HystrixThreadPool.java /** * ThreadPool used to executed {@link Hys......

go4it ⋅ 昨天 ⋅ 0

容器之上传镜像到Docker hub

Docker hub在国内可以访问,首先要创建一个账号,这个后面会用到,我是用126邮箱注册的。 1. docker login List-1 Username不能使用你注册的邮箱,要用使用注册时用的username;要输入密码 ...

汉斯-冯-拉特 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部