文档章节

YDB多维检索与探索性分析

开心延年
 开心延年
发布于 2017/03/12 15:18
字数 1142
阅读 120
收藏 0

一、多维检索与探索性分析

1.IT运维日志、业务日志、交易流水日志的搜索与分析

通过方便灵活的日志搜索分析,帮助用户及时发现问题

l统一日志查询平台,程序故障定位平台

      开发与运维人员经常需要登录线上生产系统,通过grep、tail、more、cat等命令去生产系统里查找故障原因,排查效率很慢。且在生产系统运维人员因错误的使用调试命令导致生产系统宕机的情况路见不鲜。

      组建一个统一的日志查询管理平台非常重要,开发人员可以像使用百度那样在日志平台里快速的检索与分析日志,快速定位问题。日志分析与生产系统分离,即保障了生产系统的安全,也省去了登录服务器的操作,提高了运维的效率与质量。

      一个大型的系统,会有多种不同的业务子系统,这些系统的日志散落在不同的机器的每个角落。在统一日志查询平台可以跨越多个业务子系统进行日志的关联分析,对业务整体进行全局分析。

l交易流水搜索

       物流系统,网站,运营商,证券交易所,零售商每天有大量的销售,访问日志。会有客户投诉扣费不准确,或者账户资金丢失的问题,需要客服人员对这些日志进行分析、过滤、筛选 从而追踪真实的扣费细节,在那个环境支付出现了异常,如果账户被盗,资金最终流向了哪里,尽量减少用户的损失。

l核心功能根据关键词,ID、时间等快速定位日志

1.系统问题定位 排查系统故障

2.根据日志分析,系统性能与网络瓶颈

3.如果用户投诉可以通过交易号定位用户交易日志,定位哪个环节的支付出现异常

l数据量太大,检索成难题

       现如日志分析已经不是什么新鲜事,但是数据量特别庞大,普通的传统数据库已经承受不了这么大规模的日志存储,就更别提日志分析了。以笔者成有幸在在腾讯工作期间,研发并设计了腾讯的Hermes系统,Hermes当时每天存储的日增量为每天3600多亿(截止去年16年10月,为每天7000亿),总的数据存储量在万亿规模。

 

2.探索性即席分析之棱镜门大数据监听

棱镜计划(PRISM)是一项由美国国家安全局自2007年起开始实施的绝密电子监听计划。

根据斯诺登披露的文件,棱镜”监控的主要有10类信息:电邮、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间和社交网络资料的细节都被政府监控。通过棱镜项目,国安局甚至可以实时监控一个人正在进行的网络搜索内容

YDB可以为这其中的海量数据提供实时的存储以及即席的搜索服务。

因YDB的数据时效性较高,并且检索速度很快,该领域未来在工信部以及公安系统上会有较大的应用前景。

3.相似近似搜索与近似特征匹配

      有些时候,我们只想找到一篇跟当前指定文章类似的文章。可能中间相差几个字不一样无所谓,或者局部的字顺序前后颠倒也无所谓。这个时候可以体验下YDB提供的“近似文本匹配”功能,该功能比较适合大段的文章匹配,如专利相似度匹配、网络舆情相似匹配。

      有一种搜索是这样的搜索,我指定一系列的特征,如 高矮,胖瘦,年龄段,性别,时间等一系列目击者看到的嫌疑人特征,但是有可能有些目击者描述的不准确,所以不能进行精确匹配,如果能与大部分的匹配条件都相似,一两个条件没匹配上,但已经足以相似了,那么也要返回匹配结果。

© 著作权归作者所有

开心延年

开心延年

粉丝 16
博文 17
码字总数 67948
作品 1
东城
程序员
私信 提问
数据分析工具箱v1.2——交叉分类

将一个指标按单一维度进行分布统计,是探索性数据分析的一个基本、常用的方向,可以快速发现数据规律——不过可能会有遗漏维度之间关系的风险,因此多维交叉分析对于深层、细致的分析是有必要...

真依然很拉风
08/09
0
0
干货 | 数据挖掘必过的40道题,你都能答对吗...

1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题? A.关联规则发现 B.聚类 C.分类 D.自然语言处理 2.以下两种描述分别对应哪两种对分类算法的...

巡山巡到秋名山
2018/12/11
0
0
基于Tablestore的海量保险单查询平台

背景 随着人们风险意识的提高与普及,越来越多的人愿意为自己与家人投一份保险,保险行业的飞速发展也带来了许多问题:海量的保险单该如何存储?如何高效地对保险单进行检索?传统的解决方案...

hydrogen666
04/24
0
0
Python + Apache Kylin 让数据分析更加简单!

现如今,大数据、数据科学和机器学习不仅是技术圈的热门话题,也是当今社会的重要组成。数据就在每个人身边,同时每天正以惊人的速度快速增长,据福布斯报道:到 2025 年,每年将产生大约 17...

ApacheKylin
08/31
51
0
AMOS分析技术:测量模型分析;聊聊验证性因子分析(CFA)与探索性因子分析(EFA)的异同点

基础准备 草堂君在前面已经推送了很多篇关于AMOS软件的学习文章,这些文章都已经根据难易程度和学习顺序排好序,并制成了AMOS分析技术导航页,大家可以点击下方文章链接阅读,后面发布的文章...

d07qs2kxkh0kksxex
2017/12/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

可见性有序性,Happens-before来搞定

写在前面 上一篇文章并发 Bug 之源有三,请睁大眼睛看清它们 谈到了可见性/原子性/有序性三个问题,这些问题通常违背我们的直觉和思考模式,也就导致了很多并发 Bug 为了解决 CPU,内存,IO ...

tan日拱一兵
22分钟前
2
0
网络七层模型与TCP/UDP

为了使全球范围内不同的计算机厂家能够相互之间能够比较协调的进行通信,这个时候就有必要建立一种全球范围内的通用协议,以规范各个厂家之间的通信接口,这就是网络七层模型的由来。本文首先...

爱宝贝丶
25分钟前
2
0
Jenkins World 贡献者峰会及专家答疑展位

本文首发于:Jenkins 中文社区 原文链接 作者:Marky Jackson 译者:shunw Jenkins World 贡献者峰会及专家答疑展位 本文为 Jenkins World 贡献者峰会活动期间的记录 Jenkins 15周岁啦!Jen...

Jenkins中文社区
43分钟前
8
0
杂谈:面向微服务的体系结构评审中需要问的三个问题

面向微服务的体系结构如今风靡全球。这是因为更快的部署节奏和更低的成本是面向微服务的体系结构的基本承诺。 然而,对于大多数试水的公司来说,开发活动更多的是将现有的单块应用程序转换为...

liululee
58分钟前
7
0
OSChina 周二乱弹 —— 我等饭呢,你是不是来错食堂了?

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @ 自行车丢了:给主编推荐首歌 《クリスマスの夜》- 岡村孝子 手机党少年们想听歌,请使劲儿戳(这里) @烽火燎原 :国庆快来,我需要长假! ...

小小编辑
今天
681
11

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部