文档章节

互联网日志的种类、存储和计算

FansUnion
 FansUnion
发布于 2015/05/03 01:25
字数 1121
阅读 24
收藏 0

最近几年,经常听到数据挖掘这个词。

不过,我仔细看了下,发现这个词还是挺模糊的。

挖掘

这个词,应该指从数据中发现有价值的信息。

比如从搜索词中,发现网民的关注点,进而指导广告投放、产品推荐,生产用户需要的产品。

数据

根据我有限的阅历来看,数据最常见的形式就是日志,各种各样的日志。

限于从业经验有限,本文只是简要介绍下日志的种类、存储和计算,仅供参考。

日志的种类

1.浏览日志

a.广告曝光日志

  一个广告的一次曝光,会产生一条曝光日志。

  日志格式:广告位ID、媒体、频道、曝光时间、IP、来源、操作系统、浏览器、用户ID等。

  注:可以用监测点ID来代替媒体和频道等更多信息。

b.网页访问日志

  网页被一个用户访问一次,产生一条访问日志。

  日志格式:网页URL、用户ID、访问时间、来源、操作系统、浏览器等。

2.行为日志

a.广告点击日志

日志格式:广告位ID、媒体、频道、点击时间、IP、来源、操作系统、浏览器、用户ID等。

b.内容点击日志

 用户点击了站内的链接,记录这个日志,可以得出用户的喜好。

日志格式: 与网页访问和广告点击日志类似。

c.分享日志

 用户分享了文章或者文章的一部分。

d.收藏

用户收藏了商品、文章、代码等。

e.搜索

  百度肯定记录了用户的搜索记录。

 优酷等视频网站、新浪等媒体网站也有吧。

 更多日志,不再一一列举。

日志的存储

百度、优酷等大型互联网网站,肯定有很多服务器。

日志也会存储到多台服务器上。

日志可以存储到文件中,一条日志一个文件,或者多个日志共用一个文件。

至于怎样更合理,我还没有啥实际经验。

两个疑问

1.日志数据作为互联网公司的重要资产,是否会统一存储起来呢?

我觉得最终会统一存放到数据仓库中,一台机器显然是不够的,会有很多台。

2.这些日志数据有必要备份么?

 我觉得有必要。

日志的计算

1.实时计算

  来一条日志,或者一定量的日志,就计算。

  然后,把多态服务器上的计算结果累加,得出最终的结果。

  现在,很多客户都要求“实时数据”。比如,广告投放15分钟之后,就可以看到监测数据了。

 实时计算能力已经成为一个技术公司的核心竞争力了。

2.非实时计算

  等所有相关数据都出来了,然后再统一计算。

  这种方式,准确度会更高。

云存储

有的技术公司,有自己私有的云存储技术,不对外提供。

有的技术公司,不但有私有的云存储技术,还对外提供服务。比如百度、金山、QQ等都有免费提供给用户的云存储服务。

公司内部与向外提供还是有区别的。比如象访问和点击日志这种,文件比较小。而对外提供的,文件可能比较大。

场景和需求的不同,也就决定了云存储技术还是会分化成好几种。

云计算

我一直没有搞清楚“云计算”和“分布式计算”有啥区别,总感觉“云”就是一个模糊的让人“云山雾绕”的概念。

姑且就认为云计算=分布式计算。

我的理解,云计算就是把一个复杂的计算问题,拆分成了可以单独计算的多个部分,然后把多个计算结果进行合并。

(上周末看了《云计算-大数据时代的系统工程》这本书,对云计算有了更清晰的认识。)

友情提示

本人从业时间有限,经验有限,因此本文仅供参考。

本人正在努力学习和研究当中。

欢迎提出建设性的意见和建议。

原文链接:http://blog.fansunion.cn/articles/3445(小雷博客-blog.fansunion.cn)

© 著作权归作者所有

FansUnion
粉丝 60
博文 858
码字总数 825464
作品 0
丰台
高级程序员
私信 提问
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。 先大概列一下互联网行业数据仓库、数据平台的用途: 整合公司所有业务数据,建立统一...

aibati2008
2016/07/01
50
0
大数据5V特点 --- 5Vs of Big Data

IBM提出了大数据”5V”特点: 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 二、Variety:种类和来源...

董黎明
2018/08/29
0
0
传统运维面临的问题

前言:IT监控运维系统,起源于各设备厂家的网元网管等监控工具,伴随着信息化的发展而升级换代,经历了大数据、虚拟化、云计算等技术革命的考验逐渐完善成熟。IT监控运维系统从最开始的解决故...

勤智运维
2017/08/23
0
0
七牛云荣获「2018 年度中国大数据日志管理最佳产品奖」

8 月 2 日- 3 日,2018(第三届)中国大数据产业生态大会在京举行,作为专业聚焦大数据产业生态的盛会,「中国大数据产业生态大会」历来以专业、开放、权威、国际化而著称,已成为业内大数据...

七牛云
2018/08/07
0
0
七牛云荣获「2018 中国大数据硬独角兽」称号

9 月 1 日,由南京市鼓楼区人民政府主办、鼓楼高新区管委会、鼓楼区发改局(经信局)、创业黑马、i 黑马旗下企业服务垂直媒体 B2B 圈联合承办的「中国独角兽(秋季)峰会」在南京隆重举行。会...

七牛云
2018/09/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

定制专属二维码思路——实现【微信,QQ】扫码登录

效果演示 1.先在natapp实现外网映射(https://natapp.cn) 2.natapp.exe 3.生成token链接(先开启redis) //生成二维码token链接(生成二维码)http://p5gc9b.natappfree.cc/generateCode //...

须臾之余
6分钟前
2
0
android studio 使用CMAKE

原文地址 前言 之前,每次需要边写C++代码的时候,我的内心都是拒绝的。 1. 它没有代码提示!!!这意味着我们必须自己手动敲出所有的代码,对于一个新手来说,要一个字母都不错且大小写也要...

shzwork
8分钟前
0
0
volatile/CAS/atomicInteger/BlockQueue/线程交互/原子引用

import java.util.concurrent.ArrayBlockingQueue; import java.util.concurrent.BlockingQueue; import java.util.concurrent.TimeUnit; import java.util.concurrent.atomic.AtomicInteger......

一只小青蛙
9分钟前
0
0
apache隐藏版本信息及设置网页缓存

实战:源码编译安装apache及调优技巧 实战环境: 生产环境中,部署了apache之后,我们应该从安全还是性能角度,在apache服务上线之前,对其做诸多的优化调试才行。 技巧1: 安装apache屏蔽a...

寰宇01
12分钟前
0
0
C 语言 二级指针操作文件 柔性数组使用

#include <stdio.h>#include <stdlib.h>#include <string.h>typedef struct _info* pInfo;struct _info{int line;int len;char data[0];}info;int getFil......

小张525
52分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部