加载中
Mysql 流增量写入 Hdfs(一) --从 mysql 到 kafka

一. 概述 在大数据的静态数据处理中,目前普遍采用的是用 Spark + Hdfs (Hive / Hbase) 的技术架构来对数据进行处理。 但有时候有其他的需求,需要从其他不同数据源不间断得采集数据,然后...

2018/12/08 21:16
49
Spark SQL,如何将 DataFrame 转为 json 格式

今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。 用过 Spark SQL 应该知道,Spark dataframe 本身有提供一个 api 可以供我们将数据...

2018/12/06 20:10
328
贝叶斯分类算法实例 --根据姓名推测男女

一.从贝叶斯公式开始 贝叶斯分类其实是利用用贝叶斯公式,算出每种情况下发生的概率,再取概率较大的一个分类作为结果。我们先来看看贝叶斯公式: P(A|B) = P(B|A) P(A) / P(B) 其中P(A|B)是...

2018/11/29 20:27
461
从分治算法到 MapReduce

从分治算法说起 要说 MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字 分而治之 。其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再分。直...

2018/11/23 18:33
39
Actor并发编程模型浅析

一.Actor模型介绍 在单核 CPU 发展已经达到一个瓶颈的今天,要增加硬件的速度更多的是增加 CPU 核的数目。而针对这种情况,要使我们的程序运行效率提高,那么也应该从并发方面入手。传统的多...

2018/11/21 16:26
82
聊聊 scala 的模式匹配

一. scala 模式匹配(pattern matching) pattern matching 可以说是 scala 中十分强大的一个语言特性,当然这不是 scala 独有的,但这不妨碍它成为 scala 的语言的一大利器。 scala 的 patt...

2018/11/21 13:43
13
python Kmeans算法解析

一. 概述 首先需要先介绍一下无监督学习,所谓无监督学习,就是训练样本中的标记信息是位置的,目标是通过对无标记训练样本的学习来揭示数据的内在性质以及规律。通俗得说,就是根据数据的一...

2018/11/21 11:48
159
Spark DataFrame 的 groupBy vs groupByKey

在使用 Spark SQL 的过程中,经常会用到 groupBy 这个函数进行一些统计工作。但是会发现除了 groupBy 外,还有一个 groupByKey(**注意RDD 也有一个 groupByKey,而这里的 groupByKey 是 Da...

2018/11/20 18:01
17
[转] Scala Try 与错误处理

一.概述 当你在尝试一门新的语言时,可能不会过于关注程序出错的问题, 但当真的去创造可用的代码时,就不能再忽视代码中的可能产生的错误和异常了。 鉴于各种各样的原因,人们往往低估了语言...

2018/11/20 17:54
7
spark RDD,reduceByKey vs groupByKey

Spark 中有两个类似的api,分别是 reduceByKey 和 groupByKey 。这两个的功能类似,但底层实现却有些不同,那么为什么要这样设计呢?我们来从源码的角度分析一下。 先看两者的调用顺序(都是...

2018/11/20 17:48
23
让自己的头脑极度开放

一. 头脑封闭和头脑开放 头脑封闭 你是否经常有这样的经历,在一次会议或者在一次小组讨论时,当你提出一个观点而被别人否定时,你非常急迫地去反驳别人,从而捍卫自己的尊严,而不是第一时间...

2018/11/20 17:34
16
JVM 之类加载

一.概述 Java不同于C/C++这类传统的编译型语言,也不同于php这一类动态的脚本语言。可以说Java是一种半编译语言,我们所写的类会先被编译成.class文件,这个.class是一串二进制的字节流。然后...

2018/11/20 17:08
9
Java内存管理 -JVM 垃圾回收

一.概述 相比起C和C++的自己回收内存,JAVA要方便得多,因为JVM会为我们自动分配内存以及回收内存。 在之前的JVM 之内存管理 中,我们介绍了JVM内存管理的几个区域,其中程序计数器以及虚拟机...

2018/11/19 22:26
43
Java内存 -JVM 内存管理

一.综述 如果你学过C或者C++,那么你应该感受过它们对内存那种强大的掌控力。但是强大的能力往往需要更强大的控制力才能保证能力不被滥用,如果滥用C/C++的内存管理那么很容易出现指针满天飞...

2018/11/19 20:33
23
ThreadPoolExecutor源码解析(二)

1.ThreadPoolExcuter运行实例   首先我们先看如何新建一个ThreadPoolExecutor去运行线程。然后深入到源码中去看ThreadPoolExecutor里面使如何运作的。 public class Test { public static ...

2018/11/19 17:53
9
ThreadPoolExecutor源码解析(一)

1.ThreadPoolExcuter原理说明   首先我们要知道为什么要使用ThreadPoolExcuter,具体可以看看文档中的说明:   线程池可以解决两个不同问题:由于减少了每个任务的调用开销,在执行大量的...

2018/11/19 16:48
9
kafka connect,将数据批量写到hdfs完整过程

本文是基于hadoop 2.7.1,以及kafka 0.11.0.0。kafka-connect是以单节点模式运行,即standalone。 一. kafka和kafka connect简介   kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,...

2018/11/19 15:58
52
Java-- String源码分析

本篇博文基于java8,主要探讨java中的String源码。 首先,将一个类分为几个部分,分别是类定义(继承,实现接口等),全局变量,方法,内部类等等,再分别对这几个部分进行说明,这样到最后类...

2018/11/19 15:16
31
将excel文件内容存储到数据库,并可以实时在前端查看(不必生成文件)

版权声明:本文为博主原创文章,未经博主允许不得转载 本文主要讲前端内容,后端涉及较少,可以认为是使用Java。 首先是excel文件上传,这个较为简单,可以html5的数据接口FormData()进行操作...

2018/11/19 14:56
426
slick对超过22个属性的表进行映射的两种办法

版权声明:本文为博主原创文章,未经博主允许不得转载 slick是scala的一个FRM(Functional Relational Mapper)框架,即函数式的关系数据库编程工具库。使用slick不同于使用java的hibernate...

2018/11/19 14:32
13

没有更多内容

加载失败,请刷新页面

返回顶部
顶部