文档章节

NiFi-面向流程的大数据处理框架

openthings
 openthings
发布于 2015/08/12 13:28
字数 960
阅读 5373
收藏 9

任何一个大数据分析的软件,都需要一个强大的数据拉取组件、数据仓储系统、数据处理引擎、任务调度引擎和流程设计界面。Hadoop和Spark的重点是在数据的存储和任务调度,R的重点是数据分析引擎。数据拉取组件和流程则是NiFi的主要强项。

一、NiFi是什么?

Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统。Apache NiFi 是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目,现在开源出来,由Apache基金会进行管理。

NiFi flow

NiFi是基于Java的,使用Maven支持包的构建管理。 NiFi基于Web方式工作,后台在服务器上进行调度。可以为数据处理定义一个流程,然后进行处理,后台具有数据处理引擎、任务调度等组件。

二、NiFi的安装

首先需要安装maven和java的最新版,在Ubuntu上的OpenJDK会遇到遇到一些问题,因此建议从Oracle的官网http://java.com去下载,而且要SDK而不是jre。解压后到/etc/profile文件中设置JAVA_HOME的路径,以便让其它的程序能访问到。然后安装maven,ubuntu15.04的maven版本也都太久了,到http://maven.apache.org/去下载一个最新的版本,然后设置MAVEN_HOME的路径,并加到PATH环境变量中。设置完了后,看起来是这个样子:

export JAVA_HOME=/home/supermap/jdk1.8.0_51
export MAVEN_HOME=/home/supermap/GIScript/apache-maven-3.3.3
export PATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$PATH

现在,到http://nifi.apache.org/去下载NiFi的安装程序。由于NiFi采用maven进行包管理,因此编译过程中会自动下载大量的支持库,需要保持网络畅通。如果中间出错,一般是网络连接中断引起的,重新运行编译即可。

三、NiFi的使用

运行(为了让环境变量有效,最好重启一下系统):

mvn clean install

或者:mvn install -Dmaven.test.skip=true

如果使用代理:

npm config set proxy http://proxy.company.com:8080
npm config set https-proxy http://proxy.company.com:8080

然后,等待...等结束后,进/home/supermap/GIScript/nifi-0.2.1/nifi-assembly/target,找到nifi-XXX-bin.zip这个文件,拷贝到自己的运行目录,解压,进去,执行:

./bin/nifi.sh start

然后,通过浏览器访问地址:http://localhost:8080/nifi/,正常情况下,就能看到NiFi的主界面了。

停止服务使用:./bin/nifi.sh stop

目前的版本已经到1.1.X了,功能已经相当强大,但是目前的中文文档和教程都还很少,主要通过阅读源代码来理解程序的逻辑。英文还可以的,看这里:

 

 

© 著作权归作者所有

openthings
粉丝 324
博文 1140
码字总数 689435
作品 1
东城
架构师
私信 提问
加载中

评论(1)

战_天涯
nifi技术学习交流群:492666008
AirFlow/NiFi/MLFlow/KubeFlow进展

大数据分析中,进行流程化的批处理是必不可少的。传统的大数据处理大部分是基于关系数据库系统,难以实现大规模扩展;主流的基于Hadoop/Spark体系总体性能较强,但使用复杂、扩展能力弱。大数...

openthings
06/21
437
0
大数据领域开源技术,除了 Hadoop 你还知道哪些?

众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价...

王练
2016/10/05
5.7K
5
Apache NiFi 1.5.0 发布,数据处理和分发系统

Apache NiFi 1.5.0 已发布,Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统。它为数据流设计,支持高度可配置的指示图的数据路由、转换和系统中介逻辑。 该版本有以下值...

局长
2018/01/14
906
1
Apache NiFi Registry 0.1.0 发布

Apache NiFi Registry 0.1.0 发布,Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统。Apache NiFi Registry,Apache NiFi 的一个子项目,提供了一个互补的共享应用程序进...

周其
2018/01/04
904
1
Apache NiFi 1.9.2 发布,数据处理和分发系统

Apache NiFi 1.9.2 已发布,Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统。它为数据流设计,支持高度可配置的指示图的数据路由、转换和系统中介逻辑。 该版本有以下更...

段段段落
04/12
1K
0

没有更多内容

加载失败,请刷新页面

加载更多

代理模式之JDK动态代理 — “JDK Dynamic Proxy“

动态代理的原理是什么? 所谓的动态代理,他是一个代理机制,代理机制可以看作是对调用目标的一个包装,这样我们对目标代码的调用不是直接发生的,而是通过代理完成,通过代理可以有效的让调...

code-ortaerc
22分钟前
2
0
学习记录(day05-标签操作、属性绑定、语句控制、数据绑定、事件绑定、案例用户登录)

[TOC] 1.1.1标签操作v-text&v-html v-text:会把data中绑定的数据值原样输出。 v-html:会把data中值输出,且会自动解析html代码 <!--可以将指定的内容显示到标签体中--><标签 v-text=""></......

庭前云落
53分钟前
7
0
VMware vSphere的两种RDM磁盘

在VMware vSphere vCenter中创建虚拟机时,可以添加一种叫RDM的磁盘。 RDM - Raw Device Mapping,原始设备映射,那么,RDM磁盘是不是就可以称作为“原始设备映射磁盘”呢?这也是一种可以热...

大别阿郎
今天
10
0
【AngularJS学习笔记】02 小杂烩及学习总结

本文转载于:专业的前端网站☞【AngularJS学习笔记】02 小杂烩及学习总结 表格示例 <div ng-app="myApp" ng-controller="customersCtrl"> <table> <tr ng-repeat="x in names | orderBy ......

前端老手
昨天
14
0
Linux 内核的五大创新

在科技行业,创新这个词几乎和革命一样到处泛滥,所以很难将那些夸张的东西与真正令人振奋的东西区分开来。Linux内核被称为创新,但它又被称为现代计算中最大的奇迹,一个微观世界中的庞然大...

阮鹏
昨天
18
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部