加载中
AirFlow/NiFi/MLFlow/KubeFlow进展

大数据分析中,进行流程化的批处理是必不可少的。传统的大数据处理大部分是基于关系数据库系统,难以实现大规模扩展;主流的基于Hadoop/Spark体系总体性能较强,但使用复杂、扩展能力弱。大数...

互联网+农业,美国如何通过农业大数据提升效益

美国农业正在采用大数据和互联网方法提升农业生产的效率和效益,以1%的农业人口维持庞大的农业生产体系,不仅满足美国本土需要,而且还大量出口。

深度学习与处理用于数据驱动的地球系统科学

深度学习与处理用于数据驱动的地球系统科学 由Markus Reichstein 在 2019 发表于 《Nature》。 这是一篇综述性文章,介绍了机器学习如何在地学中的应用与挑战。地球系统科学进入了大数据时代...

《时间序列分析及应用-R语言》读书笔记

《时间序列分析及应用-R语言》,由美 Jonathan D. Cryer和Kung-Sik Chan编著,潘鸿宇等译,机械工业出版社出版,我这本是第二版。这是一本2008年就写好的书,2011年中文出版。算起来都7年了...

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等...

整合GIS和Jupyter Notebook平台

Jupyter Notebook是数据探索的利器,通过JupyterHub可以支持多用户利用服务器资源,进一步运行在Kubernetes集群中,可以支持大型的大数据团队进行即时数据分析和交互分享。超图软件在Jupyter...

R语言空间分析功能简介

空间数据是跟大多数的数据都有关系,而常用的数据中大量的也都有空间属性。因此,R语言已经包含了很多空间分析的软件模块。这里简单介绍R中的Spatial软件包,以及其它可以用于空间分析的软件...

PRS三剑合璧,大数据利器出鞘[Python+R+Sublime]

R是一种专门用于数据分析的语言,得到很多科研工作者的青睐,随着“大数据”概念的升温,R也是炙手可热了。python自然不用多说了,简单实用,无出其右。这两个运行环境在Sublime里都有很好的...

Databook-数据之书

Databook-数据之书 用于数据分析的Jupyter Notebooks。 不需购买服务器,快速开始自己的数据分析过程。 源码:https://github.com/databooks/databook 源码镜像:https://gitlab.com/databo...

GIScript2015的第一个入门教程-使用UbuntuKylin15.04

GIScript2015是一个通用的GIS脚本库,可以帮助进行地理空间数据的处理和分析,提高数据处理的效率,帮助进行地理科学的研究。GIScript2015是一个开源工程,已建立Git版本库和虚拟Team、微信群...

2015/07/27 14:38
488
NiFi-面向流程的大数据处理框架

任何一个大数据分析的软件,都需要一个强大的数据拉取组件、数据仓储系统、数据处理引擎、任务调度引擎和流程设计界面。Hadoop和Spark的重点是在数据的存储和任务调度,R的重点是数据分析引擎...

JupyterHub容器镜像自定义方法与步骤

IPython、JupyterHub、JupyterLab是用于大数据分析和机器学习的流行的环境,JupyterHub可以运行于Kubernetes集群环境中,从而供多人同时使用,支持动态伸缩。 虽然登录后可以通过pip和conda...

R语言及其扩展的开发

R是一门主要用于统计分析、绘图的语言和环境,是S语言的一种实现,但R的语法却是来自Scheme,是一种面向对象、支持反射的函数式脚本语言。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Rober...

00_镜像构建-iObjects Python with JupyterHub for K8s

JupyterHub是一个广泛使用的大数据分析的WebUI界面,在JupyterHub for K8s中集成SuperMap iObjects Python,即可在JupyterLab的Notebook环境下中使用各种地理空间数据的处理功能,实现一体化...

PostgreSQL的集群化和容器化部署

对于PostgreSQL用户来说,随着数据增多、业务负载上升,需要将其进行容器化和集群化改造,以便于管理和伸缩规模。PostgreSQL虽然可以支持集群,但仍然是传统数据库架构而非分布式数据库架构。...

GlusterFS分布式存储指南

GlusterFS是一个开源的分布式存储系统,本指南介绍基于Kubernetes的建立分布式存储的方法和步骤,包括分布式一致性、Kubernetes存储系统架构、高性能文件系统以及GlusterFS的安装、部署、修复...

Linux上的新一代文件系统-Btrfs实践

Btrfs是Linux上的新一代文件系统(正在开发中),具有容量扩展、数据一致、多磁盘管理、快照、配额、发送等特性,通过采用B+树存储结构,对较大文件和超小文件具有较好的支持,通过校验码保障...

构建功能强大的微数据中心(Micro Data Center)

构建功能强大的微数据中心(Micro Data Center),不在云里、胜似云里。 定位于边缘服务器,着重于联网服务、存储服务、下载服务、媒体服务、区块链接点等几种主要功能。 1、基本设想 基于容...

深度学习框架的发展与展望(2019.3)

机器学习算法发展比较迅速,但为了能够实现工程化的规模化应用,还需要稳定的框架和一致的流程的支持。 目前的机器学习算法主要分为两类,即深度学习与传统的机器学习。传统的机器学习如随机...

关于Spark的基本概念和特性简介

Spark是近年来发展较快的分布式并行数据处理框架,可以与Hadoop联合使用,增强Hadoop的性能。同时,Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。这里简单介绍了...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部