加载中
阿里HBase在用户画像领域的实践

简介: 互联网应用的一个特点是拥有海量的用户,这些海量的用户会产生海量的行为数据,有些产品还会需要去爬取更多的外部数据。基于海量数据的模型训练最终刻画出用户画像,基于用户画像自动...

2019/12/17 08:27
197
Hadoop架构原理简介

一、概念 Hadoop诞生于2006年,是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的...

美团 MySQL 数据实时同步到 Hive 的架构与实践

背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对...

Hadoop分布式环境高可用配置

前面文章介绍过Hadoop分布式的配置,但是设计到高可用,这次使用zookeeper配置Hadoop高可用。 1.环境准备 1)修改IP 2)修改主机名及主机名和IP地址的映射 3)关闭防火墙 4)ssh免密登录 5)...

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntp ntp-4.2.6p5-10.el6.centos.x86_64 fontpackages-filesystem-1.41-1.1.el6.noarch ntpdate-4....

NTP
2019/11/20 17:11
60
Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运...

2019/11/16 13:31
453
关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点...

基于HBase和Spark构建企业级数据处理平台

面临的场景 金融风控 用户画像库 爬虫抓取信息 反欺诈系统 订单数据 个性化推荐 用户行为分析 用户画像 推荐引擎 海量实时数据处理 社交Feeds 海量帖子、文章 聊天、评论 海量实时数据处理 ...

2019大数据开源项目汇总

电信大数据项目 以通话数据去展示如何处理并分析大数据,并最终通过图表可视化展示。 github地址:https://github.com/LittleLawson/ChinaTelecom 基于Spark的电影推荐系统 https://github.c...

Hadoop分布式运行环境搭建手记

1.准备虚拟机(关闭防火墙、静态ip、主机名称) 1.1首先使用VMware安装CentOS7.4虚拟机 安装好虚拟机后设置好静态IP(192.168.126.120,设置DNS),hostname,执行yum update更新软件 这里由于进...

大数据系统的学习路径、思维导图

第一阶段linux+搜索+hadoop体系 Linux基础→shell编程→高并发架构→lucene,solr搜索→hadoop体系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→项目实战一 第二阶段机器学习 ...

2019/06/04 08:43
1.6K
ZooKeeper笔记

一、ZooKeeper概述 ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。由于ZooKeeper的开源特性,后来我们的开发者在分布式锁的...

Druid 在有赞的实践

一、Druid 介绍 Druid 是 MetaMarket 公司研发,专为海量数据集上的做高性能 OLAP (OnLine Analysis Processing)而设计的数据存储和分析系统,目前 Druid 已经在 Apache 基金会下孵化。Druid...

2019/02/15 17:45
690
想高效学会Hadoop,你要按照这个路线

学习hadoop,首先我们要知道hadoop是什么? 说到底Hadoop只是一项分布式系统的工具,我们在学习的时候要理解分布式系统设计中的原则以及方法,只有这样才能以不变应万变。再一个就是一定要动...

2017/04/19 09:43
121
hadoop之魂--mapreduce计算框架,让收集的数据产生价值

Mapreduce计算框架 如果将Hadoop比做一头大象,那么MapReduce就是那头大象的电脑。MapReduce是Hadoop核心编程模型。在Hadoop中,数据处理核心就是MapReduce程序设计模型。 本章内容: 1) Map...

2017/04/19 09:42
124
7周入门数据分析

优秀的数据分析师并不能速成,但是零经验也有零经验的捷径。 市面上有《七周七数据库》,《七周七编程语言》。今天我们就《七周七学习成为数据分析师》,没错,七周。 第一周:Excel学习掌握...

2016/10/09 16:57
1.8K
CentOS7下编译Hadoop-2.7.3全过程详解

1.工具准备,最靠谱的是hadoop说明文档里要求具备的那些工具。 到hadoop官网,点击source下载hadoop-2.7.3-src.tar.gz。 解压之 tar -zxvf hadoop-2.7.3-src.tar.gz 得到hadoop-2.7.3-src文件...

2016/08/28 22:28
233

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部