文档章节

自定义filter 绕过logstash的date插件处理UTC时间

二两豆腐
 二两豆腐
发布于 2016/09/30 14:40
字数 993
阅读 985
收藏 2
点赞 1
评论 0

马上十一了,吾等无心工作,一心只想尽快的为祖国母亲庆生,等待之余放出来一个我解决logstash日期filter的实践。
使用logstash  @timestamp 取出来的日志格式为UTC时间,也就是说比中国的用户早了8个小时,这样导致我们在查询的时候的时候不能按照我们我们自己时间进行查询,还得做把这个时间减去8个小时。带来了很大的不便,尝试了设定时区依然无法更改这个日期,所以只能自己通过其他方式diy了。    

既然这样,采用不使用它的@timestamp的方法,那就自己新增字段,曲线救国。

nginx的日志配置格式为:

 log_format access ‘$remote_addr – $remote_user [$time_local] "$request" "$status $body_bytes_sent "$http_referer" '"$http_user_agent" $http_x_forwarded_for';


首先放出来一条常见的nginx日志记录
 

127.0.0.1 - - [30/Sep/2016:14:18:33 +0800] "GET / HTTP/1.1" 200 396 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"

看到了吧,30/Sep/2016:14:18:33 +0800  这一段就是访问的真正时间,也就是$time_local 这个字段匹配出来的,这个格式是ISO8601格式,但是我们常用的是yyyy-MM-dd格式的,nginx的日志格式又没法变更,如果想变更的话,只能修改nginx的源码,重新打包nginx安装,比较麻烦。既然这样,我们就手工的去解析这个字符串,然后组装成我们需要的格式,再进行输出出去。

首先增加三个字段,年月日均指向%{timestamp},

add_field => {"access_year" => "%{timestamp}"}
add_field => {"access_month" => "%{timestamp}"}
add_field => {"access_day" => "%{timestamp}"}


这三个字段可以在任何的filter中,但是要在grok filter下面,例如我放在了urldecode中,如下

urldecode {
        add_field => {"access_year" => "%{timestamp}"}
                add_field => {"access_month" => "%{timestamp}"}
                add_field => {"access_day" => "%{timestamp}"}
        all_fields => true
    }

然后通过定义正则表达式,分别把年月日匹配出来

mutate{
        
        gsub =>[
            "access_year","[\W\w]*/|:[\s\S]*",""
        ]
        gsub => [
             "access_month","[(\d+/)|(/\d+)]|:[\s\S]*",""   
        ]
        gsub =>[
             "access_day","/[\s\S]*|:[\s\S]*",""
            ]
    }

实际上以上正则表达式也就是字符串30/Sep/2016:14:18:33 +0800中的年月日匹配出来

匹配出年

匹配出月

匹配出日

但是这时候我们匹配出来的月份是用英文表示的而不是数字,可以通过translate来进行转换
 

translate{
        exact => true
        regex => true
        dictionary => [
            "Jan","01",
            "Feb","02",
            "Mar","03",
            "Apr","04",
            "May","05",
            "Jun","06",
            "Jul","07",
            "Aug","08",
            "Sep","09",
            "Oct","10",
            "Nov","11",
            "Dec","12"
        ]
        field => "access_month"
        destination => "access_month_temp"
    }

    最后就可以增加一个我们最终显示的字段,通过把以上临时字段进行任意的组装
 

   alter{
        add_field => {"access_date"=>"%{access_year}-%{access_month_temp}-%{access_day}"}

        remove_field=>["access_year","access_month","access_day","access_month_temp","bytes","ident","auth"]
        remove_tag=>["tags"]
    }

上述增加了一个access_date字段,这个字段出来的格式就是yyyy-MM-dd的,然后通过remove_fileld把中间的临时字段都给删除掉,这样通过logstash添加到redis或者mongodb中的access_date字段就是我们想要的格式了。这个格式可以根据我们的需求随便定义和拼装。
我使用的部分完整文件如下

input { stdin { }
        file {
                path => "/usr/local/nginx/logs/gateway_access.log"
        start_position => beginning
        }
}

filter{

     grok { #通过GROK来自动解析APACHE日志格式
         match => { "message" => "%{COMMONAPACHELOG}" }
    }
    #date{
    #   locale => "en"
    #   timezone => "Asia/Shanghai"
    #   match => [ "timestamp", "dd/MMM/yyyy:HH:mm:ss Z" ]
    #}
    kv {
        source => "request"
        field_split => "&?"
        value_split => "="
    }
    urldecode {
        add_field => {"access_year" => "%{timestamp}"}
                add_field => {"access_month" => "%{timestamp}"}
                add_field => {"access_day" => "%{timestamp}"}
        all_fields => true
    }
    mutate{
        
        gsub =>[
            "access_year","[\W\w]*/|:[\s\S]*",""
        ]
        gsub => [
             "access_month","[(\d+/)|(/\d+)]|:[\s\S]*",""   
        ]
        gsub =>[
             "access_day","/[\s\S]*|:[\s\S]*",""
            ]
    }
    translate{
        exact => true
        regex => true
        dictionary => [
            "Jan","01",
            "Feb","02",
            "Mar","03",
            "Apr","04",
            "May","05",
            "Jun","06",
            "Jul","07",
            "Aug","08",
            "Sep","09",
            "Oct","10",
            "Nov","11",
            "Dec","12"
        ]
        field => "access_month"
        destination => "access_month_temp"
    }
    alter{
        add_field => {"access_date"=>"%{access_year}-%{access_month_temp}-%{access_day}"}

        remove_field=>["access_year","access_month","access_day","access_month_temp","bytes","ident","auth"]
        remove_tag=>["tags"]
    }
}
output {
    stdout { codec => rubydebug }
    mongodb {
            collection => "pagelog"
            database => "statistics"
        uri => "mongodb://192.168.1.52:27017"
    }
}

 

 

© 著作权归作者所有

共有 人打赏支持
二两豆腐
粉丝 20
博文 90
码字总数 76681
作品 0
朝阳
高级程序员
[译]你应该了解的5个 Logstash Filter 插件

原文:5 Logstash Filter Plugins You Need to Know About 译者:neal1991 welcome to star my articles-translator , providing you advanced articles translation. Any suggestion, plea......

neal
2017/10/25
0
0
Logstash配置总结和实例

这里记录Logstash配置中注意的事项: 整个配置文件分为三部分:input,filter,output。参考这里的介绍 https://www.elastic.co/guide/en/logstash/current/configuration-file-structure.html...

shawnplaying
2016/05/05
9.5K
0
Logstash 讲解与实战应用

一、Logstash 介绍 Logstash 是一款强大的数据处理工具,它可以实现数据传输,格式处理,格式化输出,还有强大的插件功能,常用于日志处理。 官网地址:https://www.elastic.co/products/logs...

qw87112
06/28
0
0
Logstash学习笔记

image 欢迎访问我的博客查看原文:http://wangnan.tech 背景 先介绍下ELK stack Elasticsearch Elasticsearch 是基于 JSON 的分布式搜索和分析引擎,专为实现水平扩展、高可用和管理便捷性而...

wanna
2017/11/03
0
0
如何在ELK中解析各类日志文件

作为一个日志中心,它会收集各种各样的日志,可以用于问题排查,数据监控,统计分析等等。那么对于繁多的日志,它们都有各自的存储格式,我们如何来区分它们,对于不同的日志格式,我们又是如...

禁区铁铍人
2017/11/30
0
0
Logstash收集Tomcat集群日志的解决方案

场景描述:一个Web应用,前端设置了8个具有相同配置的Tomcat服务器,跑在Nginx反向代理后。每个Tomcat服务器运行在一个虚拟机上,要求能对Tomcat服务器的访问日志汇总存储并提供一定的分析能...

go2school
2016/05/30
2.9K
2
分布式日志收集之Logstash 笔记(一)

(一)logstash是什么? logstash是一种分布式日志收集框架,开发语言是JRuby,当然是为了与Java平台对接,不过与Ruby语法兼容良好,非常简洁强大,经常与ElasticSearch,Kibana配置,组成著...

九劫散仙
2015/11/05
0
0
手把手教你编写Logstash插件

使用过Logstash的朋友都知道,它强大的插件生态几乎覆盖了所有的开源框架。从基本的http、tcp、udp、file,到强大的kafa、redis、ganglia,还有丰富的解析工具,比如date、json、grok、kv等等...

青夜之衫
2017/12/04
0
0
[Logstash]使用详解

  Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件。   本文针对官方文档进行...

青夜之衫
2017/12/04
0
0
logstash 安装插件

bin/logstash-plugin install logstash-filter-mutate bin/logstash-plugin install logstash-filter-date bin/logstash-plugin install logstash-filter-grok bin/logstash-plugin install ......

酒瓶不倒
2016/09/06
83
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

CoreText进阶(七)-添加自定义View和对其

CoreText进阶(七)-添加自定义View和对其 效果  实现代码如下: - (void)viewDidLoad { [super viewDidLoad]; self.edgesForExtendedLayout = UIRectEdgeNone; self.view.bac......

aron1992
4分钟前
0
0
Python爬虫 爬取百合网的女人们和男人们

学Python也有段时间了,目前学到了Python的类。个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇。 据书上说...

p柯西
15分钟前
0
0
在Java中,你真的会日期转换吗

1.什么是SimpleDateFormat 在java doc对SimpleDateFormat的解释如下: SimpleDateFormatis a concrete class for formatting and parsing dates in a locale-sensitive manner. It allows fo......

Java小铺
24分钟前
0
0
Linux系统梳理---系统搭建(二):tomcat的安装和使用

上一章讲到JDK的安装使用,这一章主要记录下服务器tomcat的安装以及部署一个项目. 1.下载tomcat,这里下载的是apache-tomcat-8.5.32.tar.gz 2.创建文件夹,便于管理,和JDK一样,在usr目录下创建t...

勤奋的蚂蚁
35分钟前
0
0
ES15-聚合

1.Terms Aggregation 分组聚合 2.Filter Aggregation 过滤聚合

贾峰uk
36分钟前
0
0
【2018.07.19学习笔记】【linux高级知识 20.27-20.30】

20.27 分发系统介绍 20.28 expect脚本远程登录 20.29 expect脚本远程执行命令 20.30 expect脚本传递参数

lgsxp
38分钟前
0
0
10.32/10.33 rsync通过服务同步~10.35 screen工具

通过服务的方式同步要编辑配置文件:[root@linux-xl ~]# vim /etc/rsyncd.confport=873log file=/var/log/rsync.logpid file=/var/run/rsyncd.pidaddress=192.168.43.21[tes...

洗香香
42分钟前
0
0
与女儿谈商业模式 (3):沃尔玛的成功模式

分类:与女儿谈商业模式 | 标签: 经济学 沃尔玛 陈志武 2007-05-10 09:09阅读(11279)评论(30) 与女儿谈商业模式 (3):沃尔玛的成功模式 陈志武 /文 沃尔玛(Wal-Mart)是另一个有意思的财...

祖冲之
48分钟前
0
0
网页加载速度优化方法总结

1、减少请求 最大的性能漏洞就是一个页面需要发起几十个网络请求来获取诸如样式表、脚本或者图片这样的资源,这个在相对低带宽和高延迟的移动设备连接上来说影响更严重。 2、整合资源 对开发...

Jack088
54分钟前
0
0
dubbo学习

https://blog.csdn.net/houshaolin/article/details/76408399

喵五郎
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部