文档章节

来自印第安纳大学的2.5TB的Click数据集,包含535亿余次HTTP请求

云栖运营小编
 云栖运营小编
发布于 2017/01/19 17:23
字数 1203
阅读 12
收藏 0

时至今日,对于任何人来说,借助云服务或者开源软件,技术已不能成为研究大数据的门槛,往往困扰大家更进一步的是真实数据的缺乏。而INDIANA UNIVERSITY BLOOMINGTON近日公布的一组数据集或许能帮助一定领域的同事。

以下为译文

为促进网络流量结构和动态变化研究的进展,我们团队开发了一个大型数据集Click Dataset,其内包含印第安纳大学用户贡献的535亿余次HTTP请求。不同于查看服务器日志和浏览器工具的收集方式,我们直接从网上收集匿名请求,这样做既能检查大量数据,同referrer外,Click数据集提供了许多有价值的referrer信息,使用者可以藉由这些信息重构出用户访问网络图的子图。这样,我们就对用户的浏览行为有了更深的认识,可以设计出更真实的流量模型。Click数据集还有希望应用于改进网络、网站和服务器软件设计;精确预测流量趋势;依据激励用户的机制对网站归类;改进搜索结果分级算法等领域。

我们获取这些数据方法是先复制流经印第安纳大学边界路由器的流量,再对得到的镜像文件使用Berkeley Packet Filter处理。该过滤器过滤出所有流向TCP80端口的流量。而在长期收集的过程中,通过pcap library来集中收集到的包,并用正则表达式判断其有效载荷是否包含HTTP GET请求。如果包中确实包含此请求,收集系统将写下一条记录,记录包括以下内容:

  • 时间戳
  • 请求的URL
  • referrer的URL
  • 用户代理(浏览器或bot)的布尔类型
  • 表示该请求产生于IU(Indiana University,下同)内部或外部的布尔标识

补充说明:

  1. IU外部产生的数据只包含校外访问校内网的请求,而IU内部产生的数据只包含校内用户对外网资源的请求(校内用户约十万)。值得一提的是,这两组请求的取样误差差异很大。
  2. 来路不明的流量会被拦截:缺少MAC、IP地址及其它唯一标识的流量会被记录。
  3. 收集过程不会试图对request流重组,也不会分析服务器应答。

在收集过程中,该系统日处理6000余万条请求,日生成原始数据约30G。这些数据收集于2006年9月至2010年5月期间,其中275天的数据丢失。数据集分两部分:

  1. 原始数据:约250亿条请求,其中只有referrer的主机名被保留下来。数据收集于2006年9月26日至2008年3月3日,共98天数据丢失,其中包括2007年6月整月的数据。这部分数据压缩后约占0.85TB。
  2. 原始URL:约286亿条请求,且referrer的完整URL被保留下来。数据收集于2008年3月3日至2010年5月31日,共179天数据丢失,其中包括2008年12月,2009年2月和11月整月数据。这部分数据压缩后约占1.5TB。

Click数据集中的数据以小时为单位存储在不同文件。所有文件的起始行都有一串可被忽略的标识。格式如下:

XXXXADreferrer
host
path

这里的XXXX为时间戳(采用32位Unix以秒计时的新纪元时间,按小端字节排序),A是指用户代理标识(“B”代表浏览器,“?”代表bots或其它),D是流向标识(“I”代表流入IU的流量,“O”代表流出IU的流量),referrer是指引用页的主机名或URL(以换行符结尾),host是指目标主机名(以换行符结尾),最后,path是指目标路径(以换行符结尾)。欲了解更多详情,请见下文。

 

常见问题

我该如何声明自己使用了这些数据?

  • 这些数据由Mark Meiss在印第安纳大学的支持下收集。我们为这些数据的收集和公开化付出了诸多努力。如果你使用了这些数据,请在你的发表文章中引述下文。

阅读全文直接点击:http://click.aliyun.com/m/9552/

© 著作权归作者所有

云栖运营小编
粉丝 7
博文 98
码字总数 52676
作品 0
朝阳
运营/编辑
私信 提问
资源 | 机器学习高质量数据集大合辑(附链接)

在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢?我们给大家推荐一份高质量的数据集,这些数...

技术小能手
2018/11/26
0
0
哪个黑客那么大胆?敢搞 IPV6 和政府网站 | 报告

“每逢节假日搞事情”这个定律可能要有“松动”的迹象了。 2 月 18 日,雷锋网编辑从知道创宇发布的 2018 年度 DDoS 攻击和 Web 攻击数据里发现了一些新信息点。其中,有一段分析这样写道:“...

李勤
02/18
0
0
ONF 开源白皮书:SDN 解决方案案例——Carrier/WAN SDN

译者简介:罗旭:湖南师范大学研究生 3.1 运行中的商用部署传输SDN平台 韩国电信公司展示了其传输SDN项目,该项目于2015年11月开始建设,计划2016年1月开始部署。该项目指出了运营商在管理复...

oschina
2016/04/28
2.3K
0
技术揭秘12306改造(一):尖峰日PV值297亿下可每秒出票1032张

注:本文首发于CSDN,转载请标明出处。 【编者按】12306网站曾被认为是“全球最忙碌的网站”,在应对高并发访问处理方面,曾备受网民诟病。 2015年铁路客票春运购票高峰期已过,并且12306网站...

看看这天
2015/04/03
23
1
北京涛思数据获得 Pre A 轮融资,专注时序空间大数据领域

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/csdnnews/article/details/87603725 北京涛思数据科技有限公司(TAOS Data)宣布完成Pre A轮融资,参与此轮投...

CSDN资讯
02/18
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周六乱弹 —— 早上儿子问我他是怎么来的

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @凉小生 :#今日歌曲推荐# 少点戾气,愿你和这个世界温柔以待。中岛美嘉的单曲《僕が死のうと思ったのは (曾经我也想过一了百了)》 《僕が死の...

小小编辑
今天
2.4K
15
Excption与Error包结构,OOM 你遇到过哪些情况,SOF 你遇到过哪些情况

Throwable 是 Java 中所有错误与异常的超类,Throwable 包含两个子类,Error 与 Exception 。用于指示发生了异常情况。 Java 抛出的 Throwable 可以分成三种类型。 被检查异常(checked Exc...

Garphy
今天
41
0
计算机实现原理专题--二进制减法器(二)

在计算机实现原理专题--二进制减法器(一)中说明了基本原理,现准备说明如何来实现。 首先第一步255-b运算相当于对b进行按位取反,因此可将8个非门组成如下图的形式: 由于每次做减法时,我...

FAT_mt
昨天
40
0
好程序员大数据学习路线分享函数+map映射+元祖

好程序员大数据学习路线分享函数+map映射+元祖,大数据各个平台上的语言实现 hadoop 由java实现,2003年至今,三大块:数据处理,数据存储,数据计算 存储: hbase --> 数据成表 处理: hive --> 数...

好程序员官方
昨天
61
0
tabel 中含有复选框的列 数据理解

1、el-ui中实现某一列为复选框 实现多选非常简单: 手动添加一个el-table-column,设type属性为selction即可; 2、@selection-change事件:选项发生勾选状态变化时触发该事件 <el-table @sel...

everthing
昨天
21
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部