加载中
MobaXterm ssh host 配置方法

之前要用MobaXterm ssh需要敲:用户名@用户IP 现在介绍一种方法可以快速连接ssh的方法 1、首先要在MobaXterm上先连一下ssh,为了是生成.ssh文件,连一下就退出,如下图 2、然后cd到.ssh目录中...

2015/08/06 11:23
1.3W
map-side-join inspark

在大数据处理场景中,多表Join是非常常见的一类运算。但是对于分布式系统来说,这是个很大的麻烦,由于数据分布在各个节点上,在做join操作之前必须先要shuffle,这会导致巨大的网络传输IO,...

2015/12/02 14:51
333
spark内部运行模式

概述 Spark Application在遇到action算子时,SparkContext会生成Job,并将构成DAG图将给DAG Scheduler解析成Stage。 Stage有两种: ShuffleMapStage 这种Stage是以Shuffle为输出边界 其输入边...

2015/11/10 17:05
1.3K
spark 运行模式

1. Spark中的基本概念 在Spark中,有下面的基本概念。 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor Driver Program:运行Application的main()函数并创建...

2015/11/06 16:31
873
centos6.2 spark cluster问题(持续追加)

系统:centos6.2 节点数目:1个master,16个worker spark版本:0.8.0 内核版本:2.6.32 以下是遇到的问题及解决办法: 1. 执行完某一个任务后,某个节点无法再次连接,在其上执行jps出现:S...

2015/11/03 17:51
201
spark join

  在大数据处理场景中,多表Join是非常常见的一类运算。为了便于求解,通常会将多表join问题转为多个两表连接问题。两表Join的实现算法非常多,一般我们会根据两表的数据特点选取不同的joi...

2015/11/03 09:40
534
在Docker里运行Ceph

Ceph是一个完全开源的分布式存储方案、网络块设备以及文件系统,具有高稳定性、高性能、高扩展性等特点,可应对terabyte到exabyte级别的数据量。 通过使用创新性的调度算法(CRUSH)、主动存...

2015/08/12 14:11
1K
自动补完不算什么,autojump一键直达目录才是终极神器

在命令行中切换目录是最常用的操作,不过很少有比一遍又一遍重复“cd ls cd ls cd ls ……”更令人沮丧的事情了。如果你不是百分百确定你想要进入的下一个目录的名字,那么你不得不使用ls来确...

2015/08/06 14:09
435
深度学习之神经网络与支持向量机

从人人上转过来的 前言:本文翻译自deeplearning网站,主要综述了一些论文、算法已经工具箱。 引言:神经网络(Neural Network)与支持向量机(Support Vector Machines,SVM)是统计学习的代...

2015/06/29 09:36
918
在Arcmap中加载互联网地图资源的4种方法

在Arcmap中加载互联网地图资源的4种方法 前一段时间想在Arcmap中打开互联网地图中的地图数据,如影像数据、基础地图数据等,经过简单研究目前总结了四种方法,整理下与大家分享,有些内容可能...

2015/06/09 15:00
8.6K
根据两点经纬度计算距离

经纬度简介 这些经纬线是怎样定出来的呢?地球是在不停地绕地轴旋转(地轴是一根通过地球南北两极和地球中心的 假想线),在地球中腰画一个与地轴垂直的大圆圈,使圈上的每一点都和南北两极的...

2015/05/26 11:12
1.3W
随机现象最根本的性质

很多人问过我概率论这门学科的学科依据是什么,概率论的研究对象是随机变量,既然是随机的,未知的,还有研究的必要吗?很多人都会问这样的问题,我自己当然认为这门学科是很有用的,但是,对...

2015/05/22 17:52
140
Hive SQL

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功...

2015/01/07 10:53
138
数学--经济学之基础

之所以说学好经济学,数学很重要是因为经济学已经越来越成为一门精确的学科,而一个学科成为科学的标志就是它是否成功的使用了数学,经济学也是如此。经济学如果非要和现有学科进行比较的话,...

2014/12/26 10:51
139
"结巴"中文分词的R语言版本:jiebaR

"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时...

2014/12/22 10:01
5.3K
R语言 并行计算parallel包

众所周知,在大数据时代R语言有两个弱项,其中一个就是只能使用单线程计算。但是R在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。 parallel包实际上整合了之前已经比较成熟的...

2014/12/22 09:55
2.5K
互信息原理

最近在看一些熵相关的东西,为了了解一下互信息相关的东西,查阅了一些资料,有一个课件自己感觉写的不错,但是下载不下来,我就对它们进行了截图,希望对大家有帮助。这个课件中讲的内容比较...

2014/12/12 16:46
97
中文分词原理

一、 为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词...

2014/12/11 17:36
184
推荐!国外程序员整理的机器学习资源大全

推荐!国外程序员整理的机器学习资源大全 本列表选编了一些机器学习领域牛B的框架、库以及软件(按编程语言排序)。 C++ 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器...

2014/12/09 15:01
462
关于数据挖掘的一些想法

之前做的项目一直没有进展,这两天开会让我对我现在做的工作有了一些新的认识,项目一直这样停滞不前,是大家之前太关注技术问题,关心的是怎么运用各种工具,怎么把代码写出来写漂亮,太注重...

2014/11/28 16:33
46

没有更多内容

加载失败,请刷新页面

返回顶部
顶部