加载中
ElasticSearch 索引设置总结

在使用ES时,我们常见的就是需要生成一个template来定义索引的设置,分词器,Mapping.本文将基于项目经验来总结一些常用的配置。 Index设置 index.refresh_interval 配置一个刷新时间,将ind...

ElasticSearch读写一致性问题

ES写过程 1.ES会将document发送给coordinate node,节点根据document数据路由到指定的节点,改节点包含该primary shard 2.把文档存储写入到primary shard,如果设置了index.write.wait_for_ac...

Flink State和容错机制

1. Flink Barriers Flink分布式快照的核心元素是流barriers。 这些barriers被注入数据流并与记录一起作为数据流的一部分流动。 barriers永远不会超过记录,流量严格符合要求。 barriers将数据...

Flink Window

1.Flink窗口 Window Assigner分配器。 窗口可以是时间驱动的(Time Window,例如:每30秒钟),也可以是数据驱动的(Count Window,例如:每一百个元素)。 一种经典的窗口分类可以分成: 翻...

Hadoop Shuffle详解

每个任务最重要的一个过程就Shuffle过程,这个过程会把所有的数据进行洗牌整理,排序,如果数据量大,将会非常的耗时。如图1.1所示,是一个从map端输出数据到合并成一个文件的过程。 图1.1 M...

Hive进阶

数据倾斜 在Hive中执行SQL的时候,我执行关联,分组操作时,往往容易遇到数据倾斜的情况,比如常见的HQL会发生数据倾斜的状况。 大多数的解决思路是 a. map端聚合. b. 使用两阶段聚合,第一阶...

Hadoop优化参数

HDFS参数调优 core-site.xml hadoop.tmp.dir 默认值: /tmp 说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每...

分类算法---朴素贝叶斯算法

朴素贝叶斯算法常见用于 文本分类,垃圾邮件分类,预测模型等

分类算法----逻辑回归预测

逻辑回归的用途 逻辑回归常用于预测疾病发生的概率,例如因变量是是否恶性肿瘤,自变量是肿瘤的大小、位置、硬度、患者性别、年龄、职业等等(很多文章里举了这个例子,但现代医学发达,可以...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部