文档章节

互联网日志的种类、存储和计算

FansUnion
 FansUnion
发布于 2015/10/22 10:29
字数 1144
阅读 16
收藏 1
点赞 0
评论 0

最近几年,经常听到数据挖掘这个词。

不过,我仔细看了下,发现这个词还是挺模糊的。

挖掘

这个词,应该指从数据中发现有价值的信息。

比如从搜索词中,发现网民的关注点,进而指导广告投放、产品推荐,生产用户需要的产品。

数据

根据我有限的阅历来看,数据最常见的形式就是日志,各种各样的日志。

限于从业经验有限,本文只是简要介绍下日志的种类、存储和计算,仅供参考。

日志的种类

1.浏览日志

a.广告曝光日志

  一个广告的一次曝光,会产生一条曝光日志。

  日志格式:广告位ID、媒体、频道、曝光时间、IP、来源、操作系统、浏览器、用户ID等。

  注:可以用监测点ID来代替媒体和频道等更多信息。

b.网页访问日志

  网页被一个用户访问一次,产生一条访问日志。

  日志格式:网页URL、用户ID、访问时间、来源、操作系统、浏览器等。

2.行为日志

a.广告点击日志

日志格式:广告位ID、媒体、频道、点击时间、IP、来源、操作系统、浏览器、用户ID等。

b.内容点击日志

 用户点击了站内的链接,记录这个日志,可以得出用户的喜好。

日志格式: 与网页访问和广告点击日志类似。

c.分享日志

 用户分享了文章或者文章的一部分。

d.收藏

用户收藏了商品、文章、代码等。

e.搜索

  百度肯定记录了用户的搜索记录。

 优酷等视频网站、新浪等媒体网站也有吧。

 更多日志,不再一一列举。

日志的存储

百度、优酷等大型互联网网站,肯定有很多服务器。

日志也会存储到多台服务器上。

日志可以存储到文件中,一条日志一个文件,或者多个日志共用一个文件。

至于怎样更合理,我还没有啥实际经验。

两个疑问

1.日志数据作为互联网公司的重要资产,是否会统一存储起来呢?

我觉得最终会统一存放到数据仓库中,一台机器显然是不够的,会有很多台。

2.这些日志数据有必要备份么?

 我觉得有必要。

日志的计算

1.实时计算

  来一条日志,或者一定量的日志,就计算。

  然后,把多态服务器上的计算结果累加,得出最终的结果。

  现在,很多客户都要求“实时数据”。比如,广告投放15分钟之后,就可以看到监测数据了。

 实时计算能力已经成为一个技术公司的核心竞争力了。

2.非实时计算

  等所有相关数据都出来了,然后再统一计算。

  这种方式,准确度会更高。

云存储

有的技术公司,有自己私有的云存储技术,不对外提供。

有的技术公司,不但有私有的云存储技术,还对外提供服务。比如百度、金山、QQ等都有免费提供给用户的云存储服务。

公司内部与向外提供还是有区别的。比如象访问和点击日志这种,文件比较小。而对外提供的,文件可能比较大。

场景和需求的不同,也就决定了云存储技术还是会分化成好几种。

云计算

我一直没有搞清楚“云计算”和“分布式计算”有啥区别,总感觉“云”就是一个模糊的让人“云山雾绕”的概念。

姑且就认为云计算=分布式计算。

我的理解,云计算就是把一个复杂的计算问题,拆分成了可以单独计算的多个部分,然后把多个计算结果进行合并。

(上周末看了《云计算-大数据时代的系统工程》这本书,对云计算有了更清晰的认识。)

友情提示

本人从业时间有限,经验有限,因此本文仅供参考。

本人正在努力学习和研究当中。

欢迎提出建设性的意见和建议。

原文链接:http://blog.fansunion.cn/articles/3445(小雷博客-blog.fansunion.cn)

版权声明:本文为博主原创文章,未经博主允许不得转载。

© 著作权归作者所有

共有 人打赏支持
FansUnion
粉丝 56
博文 857
码字总数 825464
作品 0
丰台
高级程序员

暂无相关文章

JavaScript零基础入门——(十)JavaScript的DOM基础

JavaScript零基础入门——(十)JavaScript的DOM基础 欢迎大家回到我们的JavaScript零基础入门,上一节课,我们了解了JavaScript中的函数,这一节课,我们来了解一下JavaScript的DOM。 第一节...

JandenMa ⋅ 54分钟前 ⋅ 0

Spring mvc DispatchServlet 实现原理

在Spring中, ContextLoaderListener只是辅助类,在web 容器启动的时候查找并创建WebApplicationContext对象,通过该对象进行加载spring的配置文件。而真正的逻辑实现其实是在DispatcherSer...

轨迹_ ⋅ 今天 ⋅ 0

Weex起步

本教程假设你已经在你的本地环境安装了node 其实weex起步教程在 https://github.com/lilugirl/incubator-weex 项目说明文件中都已经有了,但为了有些同学看到英文秒变文盲,所以这里我重新写...

lilugirl ⋅ 今天 ⋅ 0

Jenkins实践1 之安装

1 下载 http://mirrors.jenkins.io/war/latest/jenkins.war 2 启动 java -jar jenkins.war 前提:安装jdk并配置环境变量 启动结果节选: ************************************************......

晨猫 ⋅ 今天 ⋅ 0

组合数学 1-2000 中,能被6或10整除的数的个数

1--2000 中,能被6或10整除的数的个数 利用集合的性质 能被6整除的个数 2000/6 = 333 能被10整除的个数 2000/10 = 200 能被6和10整除的个数 2000/30 = 66 能被6或10整除的个数 333+200-66 =...

阿豪boy ⋅ 今天 ⋅ 0

一篇文章学懂Shell脚本

Shell脚本,就是利用Shell的命令解释的功能,对一个纯文本的文件进行解析,然后执行这些功能,也可以说Shell脚本就是一系列命令的集合。 Shell可以直接使用在win/Unix/Linux上面,并且可以调用...

Jake_xun ⋅ 今天 ⋅ 0

大数据工程师需要精通算法吗,要达到一个什么程度呢?

机器学习是人工智能的一个重要分支,而机器学习下最重要的就是算法,本文讲述归纳了入门级的几个机器学习算法,加大数据学习群:716581014一起加入AI技术大本营。 1、监督学习算法 这个算法由...

董黎明 ⋅ 今天 ⋅ 0

Kylin 对维度表的的要求

1.要具有数据一致性,主键值必须是唯一的;Kylin 会进行检查,如果有两行的主键值相同则会报错。 2.维度表越小越好,因为 Kylin 会将维度表加载到内存中供查询;过大的表不适合作为维度表,默...

无精疯 ⋅ 今天 ⋅ 0

58到家数据库30条军规解读

军规适用场景:并发量大、数据量大的互联网业务 军规:介绍内容 解读:讲解原因,解读比军规更重要 一、基础规范 (1)必须使用InnoDB存储引擎 解读:支持事务、行级锁、并发性能更好、CPU及...

kim_o ⋅ 今天 ⋅ 0

代码注释中顺序更改 文件读写换行

`package ssh; import com.xxx.common.log.LogFactory; import com.xxx.common.log.LoggerUtil; import org.apache.commons.lang3.StringUtils; import java.io.*; public class DirErgodic ......

林伟琨 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部