加载中
cdh6安装

打通SSH,设置ssh无密码登陆(所有节点) 1、在每台服务器上都执行ssh-keygen -t rsa生成密钥对: ssh-keygen -t rsa,一路回车,生成无密码的密钥对 //将公钥添加到认证文件中:cat ~/.ssh/...

kafka 性能调优

# 每个topic默认partition数量,根据消费者实际情况配置,配置过小会影响消费性能 num.partitions=50 #日志传输时候的压缩格式,可选择lz4, snappy, gzip,不压缩。建议打开压缩,可以提高传输...

2017/06/02 15:59
73
ElasticSearch 映射到 hdfs的快照

一、下载: https://artifacts.elastic.co/downloads/elasticsearch-plugins/repository-hdfs/repository-hdfs-5.4.0.zip 二、安装 ./bin/elasticsearch-plugin install file:///opt/elastic...

2017/05/31 18:21
112
hadoop通过NFS3挂载hdfs

1、在core-site.xml上添加以下配置,再重启 2、停止系统本身的nfs/rpcbind/portmap服务 service nfs stop service rpcbind stop 注意:rpcbind.socket 端口占用的话 systemctl status rpcbi...

2017/05/27 14:42
63
logstash5.4 安装配置

一、下载用yum 安装 二、插件 查看可安装的插件 /usr/share/logstash/bin/logstash-plugin list 安装插件 /usr/share/logstash/bin/logstash-plugin install logstash-filter-date /usr/sh...

2017/05/25 17:09
202
spark介绍

以SparkContext为程序运行的总入口,在SparkContext的初始化过程中,Spark会分别创建DAGScheduler作业调度和TaskScheduler任务调度两级调度模块。作业调度模块为每个Spark作业计算具有依赖关...

2017/05/18 18:54
85
会议室温度变化

会议室温度变化 一、概述与背景分析 常用于拟合温度变化模型的有线性回归和非线性回归组合模型,由于会议室的温度在很多时候都是随机的、非线性的变化,所以显然线性回归模型并不是很适合。 ...

2017/03/24 09:40
36
SVD详解

SVD(singular value decomposition),翻译成中文就是奇异值分解。SVD的用处有很多,比如:LSA(隐性语义分析)、推荐系统、特征压缩(或称数据降维)。SVD可以理解为:将一个比较复杂的矩阵用...

2017/03/07 22:44
29
数据归一化和两种常用的归一化方法

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,...

2017/03/02 21:47
9
spark 性能调优

算子优化 1、rdd持久化: //需要常用的rdd,并且计算时间长 //直接在内存的StorageLevel.MEMORY_ONLY //内存溢出时建议使用MEMORY_ONLY_SER,先序列化再保存在内存中 //内存还是不够的化,MEM...

2017/02/14 18:07
34
celery + redis

celery 是一种分布式任务队列 以下是需要理解的几种概念 任务:消息队列里面的一个工作单元 分布式:独立Worker可以布在不同的机器上,一个worker可以指定并发数 Broker:消息通讯的中间人,...

2017/01/23 15:58
99
python的几种有用的函数 itertools库

import itertools b = [('a', -1), ('b', 'b1'), ('c', 'cs')] #笛卡尔积 list(itertools.product(*b)) [('a', 'b', 'c'), ('a', 'b', 'cs'), ('a', 'b1', 'c'), ('a', 'b1', 'cs'), ...

2017/01/22 14:43
11
spark dataframe 新增列

往往对df增加列是比较常见的操作,df合并,转rdd之类的操作 有下面几种方式: import org.apache.spark.sql.functions._ 1、如果增加的列是基于df列的变化 //新增一列以oldColName * 2 为新...

ubuntu16.04 安装 搜狗输入法

首先搜狗输入法是依赖fcitx的 安装 sudo dpkg -i sogoupinyin_2.1.0.0082_amd64.deb 错误信息: dpkg: 依赖关系问题使得 sogoupinyin 的配置工作不能继续: sogoupinyin 依赖于 libopencc2...

2017/01/11 15:13
348
scrapy使用

scrapy是python的开源爬虫框架,个人觉得还蛮好用的 安装就不多提了,官网上有很详细的安装流程 创建项目 scrapy startproject web_spider 便会出现以下目录结构 web_spider/ scrapy.cfg...

2017/01/10 18:01
211
GreenPlum 使用

GreenPlum简介 GP是一个关系型数据库集群,由数个独立的数据库服务组合成的逻辑数据库,采用Shared-Nothing架构,整个集群由很多个数据节点(Segment Host)和控制节点(Master Host)组成,其...

2017/01/10 16:52
330

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部