文档章节

第三届易观算法大赛 -- OLAP Session分析(5万奖金)

DolphinScheduler
 DolphinScheduler
发布于 09/11 19:54
字数 1871
阅读 37
收藏 0
Ola

                                                         OLAP Session分析

  • 赛题背景

  Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属性的,根据不同的切割规则,可以生成不同长度的 Session。
对于 Session 的理解以及相关指标的计算,其中最重要的两块就是:
(1)Session 应该包含哪些行为事件
(2)Session 如何切割:需设定切割时长,即相邻事件间的时间间隔超出此时长则进行切割,基于动态切割规则计算一系列         session相关指标。需要支持动态切割规则、超时、跨天、跨平台、指定开始事件、指定结束事件等。

  • 参赛对象

  OLAP Session分析大赛将分商业组及开源组,将分别为互联网/科技公司相关技术团队,以及OLA[技术从业人员和技术爱好者提供竞技交流的平台。

  • 时间安排

   8月20日 - 9月15日,初赛报名,参赛选手在Demo环境下程序调试
   9月15日 - 9月25日,参赛者在服务器环境下进行环境测试
   9月25日 - 10月15日,正式环境比赛
 10月15日 - 10月20日,参赛者提交算法文档,答辩
 10月25日,易观A10数据智能生态大会颁奖及排名公布

  • 赛题介绍

   通常我们把用户一系列连续的行为,看作一次访问,也称之为session。基于会话的分析,即为session查询分析。
   Session查询分析中最重要的两块分别是:
   1、 session如何分割。
   例如,用户访问您的网站,打开了一个网页,有事离开了电脑。几个小时候回来后继续访问,用户的session访问次数应该算作几 次? 又比如,用户在pc端添加了购物车,在手机端完成了支付,又应该算作几次。


  2、 session指标的定义,session分析常见的分析指标有,session访问次数,访问深度、访问时长、跳出率等等

  Session分割规则介绍:Session的划分规则分为2类

1、 默认session,即SDK采集数据源时,已经根据一些规则,将用户行为划分为多个session,通过”$session_id”来区分
2、 动态切割,用户可以根据前后2条连续行为的一些属性判断来确认是否切割session。本次大赛需要支持以下动态切割规则,其中超时和跨天为默认条件,其他为可选条件:
    ü 超时:即前后2条行为发生时间间隔超过某个阈值。如,30分钟
    ü 跨天:即前后2条行为发生的时间不在同一天中
    ü 指定开始事件:即当用户发生指定行为时,开始一个新的会话。如 ,登陆
    ü 指定结束事件:即当用户发生指定行为时,结束会话。如,结束事件
    ü 跨平台:即前后2次行为在不同平台发生的。如,上一条行为JS,下一条iOS

 Session常见指标定义

ü 访问用户数(UV)=访问用户的去重数
ü 访问次数=指用户访问应用的总次数,即会话(Session)数
ü 浏览量(PV)=指用户浏览Web/H5页面的总次数,同一个页面访问多次会被重复计
ü 人均访问次数=访问次数/访问用户数(UV)
ü 人均页面浏览量=浏览量(PV)/访问用户数(UV)
ü 人均访问时长=Session时长之和/访问用户数(UV)
ü 单次访问页面浏览量=平均每次访问浏览页面的次数,单次访问页面浏览量=浏览量(PV)/访问次数
ü 单次访问时长=平均每次访问的时长,单次访问时长=总访问时长/会话数
ü 单次访问事件数=平均每次访问的事件数量(包括浏览页面和点击事件),单次访问事件数=总访问事件数/会话数
ü 跳出率=访问了一个页面的Session数/总的Session数。用户进入着陆页就离开用户来到网站后,除了浏览LandingPage之外,没有发生其他任何操作就离开了网站,被视为跳出。用来衡量Landingpage的质量。

 分析中其他概念

ü Session属性,一般取会话的首事件的某个属性,作为整个会话的属性
ü 着陆页,落地页、引导页,即会话首页面的url。
ü 时长:我们以会话内下一个事件发生时间作为上个事件的结束时间。会话的退出事件是时长为0。单位为毫秒

 

  • 赛题任务

      参赛者根据我们提供的用户行为数据,准确计算出各种场景的下的会话相关指标值。
      计算场景举例:
      1、 使用默认session,计算出20190501-20190510,每天的会话次数、人均访问时长、退出率
      2、 使用超时时间30分钟+跨天的session切割规则,计算出20190501-20190510,每天的会话次数、跳出率。且以 着陆页进行分组。
      3、 使用超时时间30分钟+跨天+指定开始事件,的session切割规则计算出20190501-20190510,每天包含某个页面行为的会话 总数,人均访问深度。

  • 数据介绍

  数据为文本文件格式,具体包含字段有: 分隔符为 tab
(1)用户ID,Long类型
(2)时间戳, 毫秒级别,Long类型
(3)事件code,字符串类型,本次默认全部为"$pageview",页面浏览事件
(4)url,字符串类型,页面的url
(5)平台, 字符串类型
(6)来源, 字符串类型,流量来源
(7) 城市,字符串类型
(8)品牌,字符串类型
(9)购买数量,Int类型
(10) 价格,Double类型
(11) 日期,字符串类型
测试数据总条数7千万左右,日期范围:2019/01/01到2019/01/07。
比赛数据总条数5亿左右,日期范围:2019/05/01到2019/05/15

  • 提交格式:

  所有题目,默认按日期分组计算,其他维度已经指标根据题目要求计算如:
  维度,周期,uv,pv,人均时长等
  url1,20190501,300,800,4545
  url1,20190502,200,500,4444-

  • 数据下载链接

   云盘地址:https://pan.baidu.com/s/1HW_8vauDoq6PZnTlUQAc5Q 密码: 8nmm

  • 提交内容

(1)算法说明文档或PPT

(2)算法源代码

(3)测试数据的预测结果(可重复提交,但每天只能提交一次,最终结果取最优的一次)
   提交地址:dailidong@analysys.com.cn

  • 评分方式

   计算结果正常的情况下,对用时进行排名,用时少者获胜。

  • 参赛指导

     数据准确性和算法的要求,需提前说清楚,报名后,会有大赛小助手拉您入群,群内有专门的技术人员进行解答

     联系人:Cari 手机&微信:13011177753 邮件:zhangyue@analysys.com.cn

    

即刻报名  

© 著作权归作者所有

DolphinScheduler
粉丝 34
博文 19
码字总数 36878
作品 1
东城
架构师
私信 提问
数字让灵感绽放,2019第3届易观算法大赛来了

由易观携手CSDN联合主办的第三届易观算法大赛于2019年8月至10月举行。本届大赛致力于挖掘从事大数据行业的算法天才,通过开放海量的真实数据,用最前沿热门的业界问题,激发算法创新,释放数...

hollyed
08/22
5
0
如何做PV,UV流量预测,这一届算法大赛,参加一下?

伴随着5G、物联网与大数据形成的后互联网格局的逐步形成,日益多样化的用户触点、庞杂的行为数据和沉重的业务体量也给我们的数据资产管理带来了不容忽视的挑战。 为了建立更加精准的数据挖掘...

AI科技大本营
09/02
0
0
易观 OLAP 大赛揭晓 PingCAP 斩获商业组桂冠

28 日,在 2017 易观 A10 大数据应用峰会上,针对“有序漏斗”难题进行行业攻坚的“2017 易观 OLAP 算法大赛”公布了最终结果。PingCAP 参赛组以超过原始基准测试近 30 倍的成绩,获得了商业...

PingCAP
2017/10/31
0
0
如何实现海量数据下有序漏斗秒查

近期易观公司举办了一个OLAP大赛,我们队伍非常荣幸地获得了第一名,成为本次比赛最大黑马。此篇文章主要分享一下我们是如何解决有序漏斗秒查问题的 比赛地址:2017易观OLAP算法大赛 参赛情况...

大数据之路
2013/03/30
2.6K
4
易观 OLAP 大赛揭晓 PingCAP 斩获商业组桂冠

28 日,在 2017 易观 A10 大数据应用峰会上,针对“有序漏斗”难题进行行业攻坚的“2017 易观 OLAP 算法大赛”公布了最终结果。PingCAP 参赛组以超过原始基准测试近 30 倍的成绩,获得了商业...

TiDB
2017/10/30
52
0

没有更多内容

加载失败,请刷新页面

加载更多

nginx+tomcat配置https

1、nginx配置https和【proxy_set_header X-Forwarded-Proto $scheme;】 2、java代码: String basePath = request.getScheme() + "://" + request.getServerName() + ":" + request.getServe......

perofu
27分钟前
4
0
必看的Linux系统新手进阶老手心得

不知道从什么时候起,linux这个话题变得越来越普及,成为大家经常讨论的话题。无论在网络上还是实际生活中,竟然很多人都在纠结学习linux的问题。网络上给的答案千千万万,而却还有很多人踌躇...

Linux就该这么学
31分钟前
4
0
Spring Boot 配置元数据指南

1. 概览 在编写 Spring Boot 应用程序时,将配置属性映射到 Java bean 上是非常有用的。但是,记录这些属性的最好方法是什么呢? 在本教程中,我们将探讨 Spring Boot Configuration Proces...

liululee
34分钟前
3
0
foreach查找子类

$list = $menu_model -> menu_list();$parent_list = [];foreach ($list as $v){ if ($v['pid'] == 0) { $parent = $v; foreach ($list as $v1) ......

小小小壮
46分钟前
3
0
基于 HTML5 Canvas 实现的 TP-LINK 电信拓扑设备面板

前言 今天我们以真实的 TP-LINK 设备面板为模型,完成设备面板的搭建,和指示灯的闪烁和图元流动。 先来目睹下最终的实现效果:http://www.hightopo.com/demo/blog_tplink_20170511/index.h...

htdaydayup
52分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部