文档章节

dungproxy

virjar
 virjar
发布于 2017/02/13 22:55
字数 437
阅读 68
收藏 1

dungpxoy设计的目的就是为了突破爬虫目标网站的封禁策略的。因为httpclient是根据浏览器标准来实现的一个框架,很多时候默认策略容易被目标网站发现。dungproxy则实现以下方案。

提供代理服务

dungproxy本身提供了一个server,用来收集互联网上海量的代理IP。并通过我们独特的算法对其清洗打分。我们使用历史数据对当前IP可用性推测的原理来动态调整IP探测频率,使用快速降权的策略,使得server维护了一个高度活跃的可用IP池。

提供透明客户端

dungproxy有一个client,用来在最终用户机器上面实现IP资源池。client使得IP可用性的活跃保持在秒级,同时经过我们独立设计的分值计算模型,分值顺序惩罚模型,能够高效的保证IP池的优质IP被调度,切IP始终会切换。

dungproxy对httpclient有较为深度的定制,包括默认ua的织入(同时还提供了一个符合浏览器规范的User-Agent生成器),代理IP池的织入,cookie空间隔离等策略。

dungproxy定位为代理IP池,它可以对接各种IP,然后基于我们设计的smartProxyQueue资源切换模型来根据IP质量调度IP使用频率。IP根据使用效果来竞争代理IP作用权.

dungproxy目前已经在部分团队哪里得到了实践的验证,他使得在海量免费IP资源上面实现稳定的代理服务变成了可能。

项目地址:https://git.oschina.net/virjar/proxyipcenter

© 著作权归作者所有

共有 人打赏支持
virjar
粉丝 3
博文 2
码字总数 1162
作品 3
成都
私信 提问
DungProxy 0.0.6 发布,代理 IP 池

dungproxy是一个代理IP池,通过一种顺序惩罚算法实现灵敏的IP切换和IP评分。适用于模拟登录,爬虫,抓取等业务。同时dungproxy提供一个免费的代理IP源,dungproxy-client默认情况下会自动接入...

virjar
2017/05/20
802
5
vscrawler 0.2.1发布,适合用作抓取的爬虫框架

VSCrawler是一个适合用作抓取的爬虫框架,在更多场景倾向于功能扩展性而牺牲使用简便性。这让VSCrawler非常强大,让他可以灵活的应对目标网站的反爬虫策略。 vscrawler有挺多特点 1. 多用户登...

virjar
2017/12/16
853
8
代理IP池--DungProxy

DungProxy是一个代理IP服务,他包括一个代理IP资源server端和一系列适配中心IP资源得客户端。server负责代理IP资源的收集维护。client则是一系列方便用户使用得API,他屏蔽了代理IP下载、代理I...

virjar
2017/02/18
1K
3
virjar/vscrawler

vscrawler vscrawler是一个更加适合抓取的爬虫框架,他不是教科书似的爬虫,准确说他不是爬虫,没有广度优先遍历这些说法,他所面临的网站URL不是网络里面的网络拓扑图而是一个个目标明确的抓...

virjar
2017/06/14
0
0
适合抓取封堵的爬虫框架 - vscrawler

VSCrawler是一个适合用作抓取的爬虫框架,在更多场景倾向于功能扩展性而牺牲使用简便性。这让VSCrawler非常强大,让他可以灵活的应对目标网站的反爬虫策略。为了方便描述,文档中可能使用VS替...

virjar
2017/12/10
304
0

没有更多内容

加载失败,请刷新页面

加载更多

Kafka+Flink 实现准实时异常检测系统

1.背景介绍 异常检测可以定义为“基于行动者(人或机器)的行为是否正常作出决策”,这项技术可以应用于非常多的行业中,比如金融场景中做交易检测、贷款检测;工业场景中做生产线预警;安防...

架构师springboot
14分钟前
1
0
DecimalFormat 类基本使用

/* * DecimalFormat 类主要靠 # 和 0 两种占位符号来指定数字长度 * 0 表示如果位数不足则以 0 填充 * # 表示只要有可能就把数字拉上这个位置 * */ public static void main(String[] args){...

嘴角轻扬30
31分钟前
3
0
This APT has Super Cow Powers.

在Debian/Ubuntu上,apt包管理器内嵌着一个彩蛋. 如果你在命令行界面输入 apt help 在最后一行能找到This APT has Super Cow Powers. 说明该apt具有超级牛力 牛力是个什么梗? 则说明你的系统...

taadis
49分钟前
2
0
起薪2万的爬虫工程师,Python需要学到什么程度才可以就业?

爬虫工程师的的薪资为20K起,当然,因为大数据,薪资也将一路上扬。那么,Python需要学到什么程度呢?今天我们来看看3位前辈的回答。 1、前段时间快要毕业,而我又不想找自己的老本行Java开发...

糖宝lsh
57分钟前
6
0
携手开发者共建云生态 首届腾讯云+社区开发者大会在京举办

本文由云+社区发表 北京时间12月15日,由腾讯云主办,极客邦科技、微信、腾讯TEG协办的首届腾讯云+社区开发者大会在北京朝阳悠唐皇冠假日酒店举办。在会上,腾讯云发布了重磅产品开发者平台以...

腾讯云加社区
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部