文档章节

日志分析(php+nosql+rsync+crontable)

Foyon
 Foyon
发布于 2013/03/23 09:35
字数 881
阅读 334
收藏 2

最近一段时间做过一些日志处理,整理下思绪,分享下。

转载请注明文章来源!

是不是常常要分析用户的行为?是不是常常遇到多台服务器上传的日志一起分析?是不是对数据统计的间隔时间要求很短?还有木有因为日志文件过大,而需要分块处理?

1、说明一点在日志写入的时候必须按照一种严格的格式,这样在做解析的时候,才好切割。比如 gameid:123  gameid:2333。切割统一标准就行。

2、在生成日志的文件名的时候也要按照一定规则,在分析的时候,正则表达式好匹配,如 服务器hostname_date.log  这样在匹配的时候 只需要 glob(*—date.log); //glob 见php函数手册,寻找与模式匹配的文件路径。

3、为什么要用nosql?其实工程师不是仅仅局限于知道怎么实现,而是要多思考什么样的业务用什么样的工具来解决。非关系型数据很适合这种,日志中常常加入新的行为,你用key-value的方式,不需要日志新增了要分析的行为,你就得手动改变你程序的配置,这样我个人觉得不是太好。~假如用mysql,你纵向设计数据库,

结构: id gameid count createtime

          1   1001    3000  2013-03-23  12:22:21

          2   1002   2222   2013-03-23  12:22:21

        ………………

这样设计的话那么不会因为新增gameid来修改数据表,这样有什么坏处?那就是每次插入数据很多,假如30秒插入一次,一次插入30个游戏的统计值,那么一天的增量  2*30*60*24 = 86400 条数据,这样显然不合理。

那么横向设计,一次插入一条数据。

id gameid_1001 gameid_1002 gameid_1003 …… createtime 

1  3000             2222             40000               2013-03-23 09:08:56

2  4000             1800             4000                2013-03-23 09:09:20

……

 这样的坏处是 每次新增了游戏ID 那么就得改变数据表结构,加字段,当然你牛逼点的可以全部用程序来实现,但是这样我觉得不太好。

mongo中有这个内嵌文档,很爽。推荐使用hadoop

存储结构如下

        +{

            "_id":3e3ess3sazxcdsdsfdf,

            "createtime":"2013-03-23 09:13:02",

            "data":{

                    "gameid_1001": 2000,

                    "gameid_1002": 3000,

                    ……

                      }


        }

一次只插入一条数据,新增游戏类型不需要做任何改变,perfect~

4、为什么要用rsync?将多台服务器的日志同步到一个目录下,一起处理,比较方便。

5、需要用到的几个函数,glob, fopen,fget,isset,explode

程序最好不要写得很死板,

 批量读入日志文件

$sLogfileName = '/path/../*_date.log';

$aLogfileName = glop($sLogfileName); // 匹配要处理的日志文件,读入数组中。

……

fopen();

while() //用while循环,处理完文件中的一行数据再去文件中取,如果用foreach一次读入数组,内存会溢出。

{

……

}

……

$aCountResult = array();

$iNum = 100;

if(isset($aCountResult[$iGameId]))

        $aCountResult[$iGameId] = (int)$aCountResult[$iGameId] + $iNum;

else

        $aCountResult[$iGameId] = $iNum;

……

统计完插入。。

然后加入计划程序中,ok。。

主要还是不同的业务用不同的方法解决。

@update 2013-3-25 21:31:45

在日志分析中 \n 是一个很重要的切割符,避免防止内存溢出,不要以 \n

EOF 作为切割符,同事要严格按照日志标准格式写入,这样在解析的时候比较好解析。用fgets方式获取,不能一次读入内存中。


© 著作权归作者所有

Foyon
粉丝 4
博文 8
码字总数 7357
作品 0
海淀
程序员
私信 提问
游戏日志分析(5):数据库与日志关联分析

系列文章: 游戏日志分析(1):概览 游戏日志分析(2):全方位数据采集 游戏日志分析(3):程序日志规范与埋点 游戏日志分析(4):线上问题定位与排查 游戏日志分析(5):数据库与日志关...

云雷
2018/05/22
0
0
功能发布 | 大数据驱动业务决策,CDN实时日志重磅上线

背景 CDN是非常重要的互联网基础设施,用户可以通过CDN,快速的访问网络中各种图片,视频等资源。在访问过程中,CDN会产生大量的日志数据,而随着如今越来越复杂的网络环境变化,和业务的迅速...

樰篱
2018/11/08
0
0
seci-log 1.07 发布 增加资产发现和远程日志分析

日志分析软件 seci-log 1.07发布,增加了资产,端口扫描,并把发现的资产自动添加到资产库中,支持远程日志采集分析。上篇文章 http://www.oschina.net/news/63425/seci-log-1-06 ,有兴趣可...

赛克蓝德
2015/07/01
1K
2
httpd服务之部署AWStats日志分析系统

AWStats是使用Perl语言开发的一款开源日志分析系统,不仅可以用来分析Apache网站日志,也可以用来分析Samba、Vsftpd、IIS等服务的日志信息。结合crond等任务计划服务,可以对不断增长的日志内...

杨书凡
2017/12/09
0
0
日志服务可视化重磅升级!专属你的炫酷仪表盘

前言 日志无处不在,它作为记录世间万物变化的载体,在运维、研发、运营、安全、BI、审计等领域有着广泛的应用场景。伴随着不断发展的业务,日志的可视化分析需求越来越猛烈,直接清晰的可视...

沐自
01/30
0
0

没有更多内容

加载失败,请刷新页面

加载更多

不写代码即可快速开发应用,JEPaaS助力企业数字化创新

在企业实现信息化和数字化的过程中,通常有三种方式可以满足企业的大量软件系统需求:一是可以采购如ERP和CRM等的标准化软件产品,二是企业内部自己开发,还有一种是可以通过外包的方式去进行...

JEPaaS云平台
14分钟前
2
0
微信小程序数据 java 解密版

微信小程序的数据,解密方法,官方居然没得 java版的解密demo, 木有java 木有java 木有java 。 简直反人类。 翻阅多位大神的博客,于是乎,写一篇 简要教程: 1. 加入pom.xml <dependency> ...

MrBoyce
16分钟前
1
0
35岁大龄程序员的职业生涯发展之道-大龄码农如何避免被裁员-IT人工职能IOT网联网算法各种高精尖技术情况下大龄程序员如何跟上节奏不被淘汰-程序员迷茫如何自我革新-软件设计在大陆的生命活力

这是一篇从“人”(而非技术也非管理)的角度,聚焦于自身职业发展方方面面的文章,包括职业、学习、生产力、影响力等。 1. 拥有商业心态 你所能犯的最大错误就是相信自己是在为别人工作,职业...

letwang
30分钟前
2
0
Spring Aware 到底是什么?

通过如下前序两篇文章: Spring Bean 生命周期之“我从哪里来”? Spring Bean 生命周期之“我要到哪里去”? 我们了解了 Spring Bean 的生命周期核心内容,bean 是如何被初始化变为 Ready fo...

tan日拱一兵
54分钟前
6
0
Android 调用第三方浏览器打开网址或下载文件

/** * 调用第三方浏览器打开 * @param context * @param url 要浏览的资源地址 */ public static void openBrowser(Context context,String url){ final Intent intent = new Intent(); int......

丁佳辉
59分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部