加载中
KUDU 介绍

前言 近两年,KUDU 在大数据平台的应用越来越广泛。在阿里、小米、网易等公司的大数据架构中,KUDU 都有着不可替代的地位。本文通过分析 KUDU 的设计, 试图解释为什么 KUDU 会被广泛应用于大...

2019/03/07 11:36
129
推荐系统36式笔记(一)

推荐系统:是一种信息过滤系统,预测用户(User)对物品(Item)的评分和偏好。 推荐系统的问题模式 分为评分预测和行为预测。 评分预测 假如用户消费完一个物品之后会给出一个打分,比如通常...

Kylin 与 Spark SQL相比,有哪些差异和优势

SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下: > MPP [1] 的基本思路是增加机器来并行计算,从而提高查询速度。比如扫描8亿记录...

自然语言处理入门(1)——文本相似度计算

文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。文本相似度常用的计算方法有TF-IDF、LSI、LDA等。 1.TF-IDF模型 TF-IDF(Term Frequency-Inverse Docume...

2019/02/28 12:19
68
关于人工智能产品经理的闲谈

以往的产品经理在设计产品时,会将大块时间分配到功能逻辑、流程推敲和页面设计上,而人工智能时代的产品比拼的不仅是前台功能和交互设计,还包括硬件运算架构、算法模型、有效训练数据等的综...

2018/08/19 22:17
20
订单管理系统设计思路

1.需求分析 订单管理系统,能保存订单和打印订单。 2.概要设计 主页面采用win10风格,结合Bootstrap,主要功能包括订单查询,产品管理,新建订单功能。 3.数据库设计 4.数据库创建 CREATE DAT...

2018/06/30 11:06
539
蓝绿发布的整个部署过程

蓝绿发布的意义 整个发布过程,用户没有感受到任何宕机或者服务重启。 蓝绿发布的过程 第0步:部署以前的配置 第1步: 把绿色集群的状态改为’备用’. 从负载均衡的池里把这些地址去掉,这样,绿...

2018/05/09 11:35
380
Nginx+Redis+Ehcache:大型高并发与高可用的三层缓存架构总结

摘要: 对于高并发架构,毫无疑问缓存是最重要的一环,对于大量的高并发,可以采用三层缓存架构来实现,nginx+redis+ehcache

2018/05/04 09:53
124
git、github、gitlib、gitlab分别是什么,有什么区别?

git 是一种版本控制系统,是一个命令,是一种工具。 gitlib 是用于实现git功能的开发库。gitlib 是 git 的 library,是一个库。 github 是一个基于git实现的在线代码仓库,包含一个网站界面,...

Git
2018/04/25 11:49
2K
数据库优化浅谈

数据库在大数据量情况下,我们应该如何去优化和管理,我分几方面来给大家介绍:从上到下,这里面给出的是一种优化收益的递减过程。也就是说,越向前端或者说我们在做设计的时候去做优化的话,...

2018/04/16 08:25
36
业务需求与设计实现浅谈

业务架构的关键是组织机构、业务功能、业务流程等。业务功能靠业务流程实现,业务流程由业务步骤组成。业务架构中,业务流程是关键。 应用架构中,功能和系统是关键。应用架构设计的过程,就...

架构感悟

通常说架构是一种能力,架构角色则是要求你在具体事务中行使某些行为,而架构师则是用来标识这些能力与行为的一个职务。 当一些人将个人成长定义为 “职业发展” 时,就表现为 “怎样成为架构...

Hadoop概览

2018/04/10 11:45
34
全面的Splunk应用日志分析介绍

Splunk 是一款顶级的日志分析软件,如果你经常用 grep、awk、sed、sort、uniq、tail、head 来分析日志,那么你需要 Splunk。能处理常规的日志格式,比如 apache、squid、系统日志、mail.log ...

2018/04/09 16:37
1.1K
数据分析第一步 | 做好数据埋点

做产品的同学在产品上线后经常离不开一个词,数据分析。那么要如何进行数据分析呢?不妨先问自己这么几个问题。 你要分析什么问题?是找问题还是验证? 关于这些问题你需要哪些数据? 这些数据从...

2017/07/01 11:40
114
产品经理如何做好数据埋点

在这一个大数据的时代,在这一个产品经理爱拍脑袋的时代,数据的重要性不言而喻,好的数据分析可以使我们的产品不偏离正确的轨道,做好数据分析的第一步就是做好数据埋点,那么怎么做好数据埋...

2017/07/01 11:33
121
分布式内存文件系统:Tachyon

Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将...

2016/04/13 16:41
99
服务器端文件分片合并的思考和实践

大文件的需求 文件上传是个很常见的需求。尽管HTTP是基于TCP上层的协议,但是HTTP协议本身并不适合处理超大的请求体,文件上传有很大的稳定性问题,如果中途断开了,将前功尽弃。为了改善用户...

2016/04/13 10:07
222
Nginx的负载均衡 - 加权轮询 (Weighted Round Robin) 下篇

上篇blog讲述了加权轮询算法的原理、以及负载均衡模块中使用的数据结构,接着我们来看看加权轮询算法的具体实现。 指令的解析函数 如果upstream配置块中没有指定使用哪种负载均衡算法,那么默...

2016/04/05 20:01
198
Nginx的负载均衡 - 加权轮询 (Weighted Round Robin) 上篇

算法介绍 来看一个简单的Nginx负载均衡配置。 http { upstream cluster { server a weight=5; server b weight=1; server c weight=1; } server { listen 80; location / { proxy_pass http:...

2016/04/05 19:55
975

没有更多内容

加载失败,请刷新页面

返回顶部
顶部