加载中
ElasticSearch读写一致性问题

ES写过程 1.ES会将document发送给coordinate node,节点根据document数据路由到指定的节点,改节点包含该primary shard 2.把文档存储写入到primary shard,如果设置了index.write.wait_for_ac...

2019/09/08 22:14
2.1K
JVM内存模型和JVM分析

1.JVM整体结构图 JVM虚拟机分为: 堆,栈,程序计数器,元空间,本地方法栈,(另外包括类装载子系统,执行引擎) 其中 堆,元空间是所有线程共享,栈,本地方方法栈,程序计数器是每个线程私有...

2019/09/02 00:18
649
Flink State和容错机制

1. Flink Barriers Flink分布式快照的核心元素是流barriers。 这些barriers被注入数据流并与记录一起作为数据流的一部分流动。 barriers永远不会超过记录,流量严格符合要求。 barriers将数据...

2019/03/17 22:50
1.2K
Flink Window

1.Flink窗口 Window Assigner分配器。 窗口可以是时间驱动的(Time Window,例如:每30秒钟),也可以是数据驱动的(Count Window,例如:每一百个元素)。 一种经典的窗口分类可以分成: 翻...

2018/12/17 00:38
1.1K
Hadoop 自定义组件

在一些特殊情况下,我们会自定义一些MapReduce中的组件来满足自己的需求,比如自定义的Partition就是很好的例子。 1.1 自定义InputFormat 在Hadoop系统中自带了一些常用的InputFormat,我们可...

2018/08/28 20:18
56
Hadoop Shuffle详解

每个任务最重要的一个过程就Shuffle过程,这个过程会把所有的数据进行洗牌整理,排序,如果数据量大,将会非常的耗时。如图1.1所示,是一个从map端输出数据到合并成一个文件的过程。 图1.1 M...

2018/08/28 20:01
1.2K
HBase原理和优化

1. HBase元数据 HBase 表的元数据存储于 hbase:meta表中,HBase默认会 创建meta表,它属于系统命名空间hbase下面的表,.META. 结构如下 通过这个表可以清晰的查找表的region对应的元数据信息...

2018/06/13 19:18
152
Hive进阶

数据倾斜 在Hive中执行SQL的时候,我执行关联,分组操作时,往往容易遇到数据倾斜的情况,比如常见的HQL会发生数据倾斜的状况。 大多数的解决思路是 a. map端聚合. b. 使用两阶段聚合,第一阶...

2018/04/01 16:15
490
用户画像系统

用户画像分析是当前互联网产品对用户进行数据分析常用的一个手段,比如推荐场景,常见的算法是协同过滤算法,基于用户相似度和基于物品相似度,但是这两种算法适用的场景往往比较有限。 1. 基...

2018/01/13 22:38
8.9K
Hive基础

Hive架构简介 下图是hive的架构图 命令执行 所有的命令和查询都会进入到Driver,通过这个模块进行解析编译,对需求的计算进行优化。然后按照指定的步骤执行(通常是启动多个MapReduce任务(J...

2017/10/31 23:27
354
Hadoop优化参数

HDFS参数调优 core-site.xml hadoop.tmp.dir 默认值: /tmp 说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每...

基于用户点击行为的新闻个性推荐

Personalized News Recommendation Based on Click Behavior

推荐系统

实时推荐系统的3种方式 http://www.jianshu.com/p/356656ce2901 用Kiji构建实时、个性化推荐系统 http://www.infoq.com/cn/articles/kiji...

2017/07/19 15:00
156
分类算法---朴素贝叶斯算法

朴素贝叶斯算法常见用于 文本分类,垃圾邮件分类,预测模型等

分类算法----逻辑回归预测

逻辑回归的用途 逻辑回归常用于预测疾病发生的概率,例如因变量是是否恶性肿瘤,自变量是肿瘤的大小、位置、硬度、患者性别、年龄、职业等等(很多文章里举了这个例子,但现代医学发达,可以...

Hadoop MapReduce流程

1.Hadoop MapReduce框架 hadoop1.x和hadoop2.x使用的的MapReduce模型是不同的,hadoop1.x使用的JobTrack和TaskTrack来分配任务和执行任务,而hadoop2.x是使用(yarn框架) 资源管理器Resourc...

2017/04/18 22:32
710
Boyer–Moore字符串匹配算法

字符串查找算法,最常见的是KMP,但是不是很常用,最常用的是Boyer–Moore算法,很多文本编辑器的查找算法都是基于Boyer–Moore算法来查找; Boyer–Moore算法快的原因在于可以迅速判断搜索字...

Flume 日志收集

最近研究了一下日志收集,用于简单的日志收集和查看。 flume两层agent配置如下链接 http://shiyanjun.cn/archives/1497.html 一、安装 我使用版本 apache-flume-1.7.0-bin 1.配置flume 修改a...

2017/04/01 18:11
6K
系统进程内存模型

32位进程虚拟地址空间 64位进程地址虚拟空间 32位机器上linux操作系统中的进程的地址空间大小是4G,其中0-3G是用户空间,3G-4G是内核空间。进程的地址空间存在于虚拟内存中。虚拟内存不能被禁...

2017/03/25 23:57
808
Kafka消息生成,消费,存储机制

Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,...

2017/02/28 09:21
1.2W

没有更多内容

加载失败,请刷新页面

返回顶部
顶部