加载中
Hadoop 自定义组件

在一些特殊情况下,我们会自定义一些MapReduce中的组件来满足自己的需求,比如自定义的Partition就是很好的例子。 1.1 自定义InputFormat 在Hadoop系统中自带了一些常用的InputFormat,我们可...

08/28 20:18
10
Hadoop Shuffle详解

每个任务最重要的一个过程就Shuffle过程,这个过程会把所有的数据进行洗牌整理,排序,如果数据量大,将会非常的耗时。如图1.1所示,是一个从map端输出数据到合并成一个文件的过程。 图1.1 M...

08/28 20:01
290
HBase原理和优化

1. HBase元数据 HBase 表的元数据存储于 hbase:meta表中,HBase默认会 创建meta表,它属于系统命名空间hbase下面的表,.META. 结构如下 通过这个表可以清晰的查找表的region对应的元数据信息...

06/13 19:18
45
Hive进阶

数据倾斜 在Hive中执行SQL的时候,我执行关联,分组操作时,往往容易遇到数据倾斜的情况,比如常见的HQL会发生数据倾斜的状况。 大多数的解决思路是 a. map端聚合. b. 使用两阶段聚合,第一阶...

04/01 16:15
187
用户画像系统

用户画像分析是当前互联网产品对用户进行数据分析常用的一个手段,比如推荐场景,常见的算法是协同过滤算法,基于用户相似度和基于物品相似度,但是这两种算法适用的场景往往比较有限。 1. 基...

01/13 22:38
765
Hive基础

Hive架构简介 下图是hive的架构图 命令执行 所有的命令和查询都会进入到Driver,通过这个模块进行解析编译,对需求的计算进行优化。然后按照指定的步骤执行(通常是启动多个MapReduce任务(J...

2017/10/31 23:27
88
Hadoop优化参数

HDFS参数调优 core-site.xml hadoop.tmp.dir 默认值: /tmp 说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每...

基于用户点击行为的新闻个性推荐

Personalized News Recommendation Based on Click Behavior

推荐系统

实时推荐系统的3种方式 http://www.jianshu.com/p/356656ce2901 用Kiji构建实时、个性化推荐系统 http://www.infoq.com/cn/articles/kiji...

2017/07/19 15:00
104
分类算法---朴素贝叶斯算法

朴素贝叶斯算法常见用于 文本分类,垃圾邮件分类,预测模型等

分类算法----逻辑回归预测

逻辑回归的用途 逻辑回归常用于预测疾病发生的概率,例如因变量是是否恶性肿瘤,自变量是肿瘤的大小、位置、硬度、患者性别、年龄、职业等等(很多文章里举了这个例子,但现代医学发达,可以...

ActiveMQ消息队列

active使用方法总结

2017/04/20 19:46
75
Hadoop MapReduce流程

1.Hadoop MapReduce框架 hadoop1.x和hadoop2.x使用的的MapReduce模型是不同的,hadoop1.x使用的JobTrack和TaskTrack来分配任务和执行任务,而hadoop2.x是使用(yarn框架) 资源管理器Resourc...

2017/04/18 22:32
183
Boyer–Moore字符串匹配算法

字符串查找算法,最常见的是KMP,但是不是很常用,最常用的是Boyer–Moore算法,很多文本编辑器的查找算法都是基于Boyer–Moore算法来查找; Boyer–Moore算法快的原因在于可以迅速判断搜索字...

系统进程内存模型

32位进程虚拟地址空间 64位进程地址虚拟空间 32位机器上linux操作系统中的进程的地址空间大小是4G,其中0-3G是用户空间,3G-4G是内核空间。进程的地址空间存在于虚拟内存中。虚拟内存不能被禁...

Kafka消息生成,消费,存储机制

Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,...

2017/02/28 09:21
2.6K
Dubbo使用配置简介

Dubbo使用是依赖于Zookeeper的,如果要使用,必须先安装Zookeeper. Dubbo配置 生产者 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans...

2017/02/21 15:43
131
数据库锁和高并发系统

1.QPS Web系统开发中,会有一种常见的高并发系统,对系统吞吐量要求很高,一般的管理系统用户访问量不大对高并发要求并不够,如果对用户访问量很大的系统,如电商,搜索引擎等API接口,要求会...

Linux Crontab定时任务

Linux系统crontab默认是开机启动的 [root@localhost ~]# /etc/init.d/crond status crond (pid 1044) 正在运行... 系统级别的计划任务: [root@localhost ~]# /etc/cron. cron.d/ ...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部