加载中
simhash算法原理及实现

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字...

2016/12/09 17:06
34
多线程使用SimpleDateFormat类抛出异常信息Java.lang.NumberFormatException: multiple points

在Spark使用SimpleDateFormat等类需要注意线程安全 Java.lang.NumberFormatException: multiple points 由于在多线程中调用全局变量SimpleDateFormat,才会时不时报multiple points异常,原因...

2017/02/25 12:20
314
HBase使用记录

因为集群上以前搭建的是0.9.6版本的HBase,同时使用了Phonex,现在需要升级HBase到1.2.4版本。 将1.2.4版本的HBase部署到集群,配置完环境之后,停止0.9.6版本的HBase服务,重新启动1.2.4版本...

2017/01/24 09:20
60
Spark里几个重要的概念及术语

学习Spark,有几个重要的术语需要弄清楚。 1. Application 用户在spark上构建的程序,包含了driver程序以及集群上的executors. 2. Driver Program 运行main函数并且创建SparkContext的程序。...

2017/01/03 09:29
10
MapReduce剖析笔记之一:从WordCount理解MapReduce的几个阶段

WordCount是一个入门的MapReduce程序(从src\examples\org\apache\hadoop\examples粘贴过来的): package org.apache.hadoop.examples; import java.io.IOException; import java.util.St...

2016/12/30 09:22
84
Spark学习记录——SparkContext类与SparkConf类

任何Spark程序的编写都是从SparkContext(或用Java编写时的JavaSparkContext)开始的。SparkContext的初始化需要一个SparkConf对象,后者包含了Spark集群配置的各种参数(比如主节点的URL)。...

2016/12/26 16:37
857
weblogic 部署问题记录

注意一: 应 用 服 务 名 称 和 数 据 源 名 称 不 能 相 同。

2016/11/14 14:18
11

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部