文档章节

什么是函数式编程,Hadoop中mapReduce的关系

城固如春
 城固如春
发布于 2017/04/17 11:58
字数 1083
阅读 28
收藏 0

java8出来后,特意了解它的新特性lambda表达式,由此头一次听说了函数式编程这个词,听起来挺高深的样子。也曾各种搜索去了解它的来龙去脉。甚至买了一本书《函数式编程思想》,并在部门内进行了一次讨论。此时,首先需要回答的问题便是

  • 函数式编程:那是什么东西?

为此,我逛过百度,各种博客,知乎,github,但没有看到一个直接的答案,大多是列举函数式编程的特性,优点,理解能力有限,在多次思考之后,某一天突然顿悟了。

是什么

首先,举个栗子:

这几年大数据很火,在java中,有一个它的代名词hadoop,它的编程模型叫做MapReduce

什么是MapReduce呢,想象下有个图书馆,里面有十排书架,我想统计下有多少书,需要一个个数,如果用更快的方式怎么做。

  • 找十个人,每人数一排;
  • 将每个人的结果求和;

用MapReduce写一下这个问题

首先定义两个方法 map reduce

map() //对数据执行分批并行操作
reduce() //对操作所有返回值求结果

然后是数书的操作定义两个方法

countBook() //数一排书
sum()//求和

那么这次数书操作可表示为

map(countBook()).reduce(sum())

ok,再进一步,现在我们有了map,reduce两个方法,下面可以进行花式数书了,我想统计下数学书

定义方法

countMathBook();

你会很快写出

map(countMathBook()).reduce(sum());    

但是,我们需要拥抱变化,所以现在需求变了,我想知到十个书架中,书最多的书架的是哪一个

因此方法在此

max() //求最大值

map(countBook()).reduce(max())

然后需求又变了我想知到十个书架中,数学书最多的书架的是哪一个

现在不需要考虑了

map(countMathBook()).reduce(max())

我想要求最小的呢

map(countBook()).reduce(min())

我想要求红色书的数量呢

map(countRedBook()).reduce(sum())

花式数书结束,现在我们可以回答下什么是函数式编程了。

首先map,reduce本身不是这次数书所定义的业务方法,而是语言比如java的jdk自带的api,java8之后,在原有的函数库中,新增了许多像map,reduce这样抽象的方法,或者说函数,我们更愿意称之为高阶函数,这些抽象的方法可以为我们屏蔽底层的运算细节。

比如怎么分批数书,我们不需要考虑怎么分批数,只要传入一批怎么数的函数就行。也不要在意求和的过程,只要传入求和的函数。

所以,函数式风格的编程就可以这么定义。

  • 将业务逻辑细化,抽象,封装成一个个功能函数,并借助语言自带的高阶函数api,将整个业务流程转化为函数之间的相互调用,这就是函数式编程。

我们可以看到,函数式编程中,函数不仅直接调用,也可以当成参数被其他函数调用。
因此,进一步,如果我不仅想把函数当参数,还想传入值,所以再封装一下,函数和值封装后是什么。

  • 函数->行为
  • 值->属性

没错就是这就是对象

  • 将业务逻辑细化,抽象,封装成一个个对象,并借助语言,库,组件,框架等,将整个业务流程转化为对象之间的相互调用,这就是面向对象编程。

因此,这么看来,函数式跟面向对象的思想其实都是一致的,即对逻辑的抽象与封装。

原点

回顾下语言的历程

过程式->函数式->面向对象

近年来大数据的兴起,数据的处理往往跟面向对象没关系,更多的是简单而大量的数据结构,借助mapreduce这样的高阶函数处理更加方便,这也是函数式编程又火起来的原因。

程序只不过是回到了它的原点:

算法+数据结构->函数+高阶函数+数据。

本文转载自:http://www.cnblogs.com/chulung/p/5651185.html

城固如春
粉丝 12
博文 187
码字总数 25379
作品 0
杭州
程序员
私信 提问
2014-11-12--Hadoop的基础学习(三)--Hadoop中MapReduce框架入门

1.MapReduce的简单概念 百度百科:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",和他们的主要思想,都是从函数式编程语言里借来的...

查封炉台
2014/11/16
8.3K
8
大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

柯西带你学编程
2018/05/22
0
0
从分治算法到 MapReduce

从分治算法说起 要说 MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字 分而治之 。其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再分。直...

终日而思一
2018/11/23
38
0
大数据(hadoop-Mapreduce原理架构)

课程目标: 1:MapReduce的应用场景 2:MapReduce编程模型 3:MapReduce的架构 4:常见MapReduce应用场景 5:总结 MapReduce的定义 源自于Google的MapReduce论文 发表于2004年12月 Hadoop M...

这很耳东先生
04/30
22
0
Hadoop到底是什么? 到底能做什么?

调研Hadoop颇久,就是想知道hadoop是什么?hadoop能做什么?怎么用hadoop?最主要是这三块,至于投入和风险也会随之出来(浓缩了我几十页的调研方案啊!!!) hadoop是什么? Hadoop是一个开...

天呀鲁哇
2015/03/13
345
3

没有更多内容

加载失败,请刷新页面

加载更多

EDI 电子数据交换全解指南

EDI(Electronic Data Interchange,电子数据交换)技术使得企业与企业(B2B)实现通信自动化,帮助交易伙伴和组织更快更好地完成更多工作,并消除了人工操作带来的错误。从零售商到制造商、物...

EDI知行软件
今天
3
0
CentOS7的LVM动态扩容

# 问题 CentOS7上面的磁盘空间有点紧张,需要扩容。 解决 查询当前磁盘状态 [root@xxx ~]# lsblkNAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTfd0 2:0 1 4K ...

亚林瓜子
今天
3
0
Kafka 0.8 Producer (0.9以前版本适用)

Kafka旧版本producer由scala编写,0.9以后已经废除 示例代码如下: import kafka.producer.KeyedMessage;import kafka.javaapi.producer.Producer;import kafka.producer.ProducerConfig;......

实时计算
今天
5
0
Giraph源码分析(八)—— 统计每个SuperStep中参与计算的顶点数目

作者|白松 目的:科研中,需要分析在每次迭代过程中参与计算的顶点数目,来进一步优化系统。比如,在SSSP的compute()方法最后一行,都会把当前顶点voteToHalt,即变为InActive状态。所以每次...

数澜科技
今天
6
0
Navicat 快捷键

操作 结果 ctrl+q 打开查询窗口 ctrl+/ 注释sql语句 ctrl+shift +/ 解除注释 ctrl+r 运行查询窗口的sql语句 ctrl+shift+r 只运行选中的sql语句 F6 打开一个mysql命令行窗口 ctrl+l 删除一行 ...

低至一折起
今天
13
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部