加载中
NiFi-面向流程的大数据处理框架

任何一个大数据分析的软件,都需要一个强大的数据拉取组件、数据仓储系统、数据处理引擎、任务调度引擎和流程设计界面。Hadoop和Spark的重点是在数据的存储和任务调度,R的重点是数据分析引擎...

PRS三剑合璧,大数据利器出鞘[Python+R+Sublime]

R是一种专门用于数据分析的语言,得到很多科研工作者的青睐,随着“大数据”概念的升温,R也是炙手可热了。python自然不用多说了,简单实用,无出其右。这两个运行环境在Sublime里都有很好的...

互联网+农业,美国如何通过农业大数据提升效益

美国农业正在采用大数据和互联网方法提升农业生产的效率和效益,以1%的农业人口维持庞大的农业生产体系,不仅满足美国本土需要,而且还大量出口。

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等...

大数据顶级国际会议征稿-IEEE Big Data 2018,西雅图

Call for Papers 2018 IEEE International Conference on Big Data (IEEE Big Data 2018) http://cci.drexel.edu/bigdata/bigdata2018/index.html December 10-13, 2018, Seattle, WA, USA I...

AirFlow/NiFi/MLFlow/KubeFlow进展

大数据分析中,进行流程化的批处理是必不可少的。传统的大数据处理大部分是基于关系数据库系统,难以实现大规模扩展;主流的基于Hadoop/Spark体系总体性能较强,但使用复杂、扩展能力弱。大数...

深度学习与处理用于数据驱动的地球系统科学

深度学习与处理用于数据驱动的地球系统科学 由Markus Reichstein 在 2019 发表于 《Nature》。 这是一篇综述性文章,介绍了机器学习如何在地学中的应用与挑战。地球系统科学进入了大数据时代...

Spark 3.0-pandas支持及其与DataFrame相互转换

pandas是python用户广泛使用的数据分析库,Spark 3.0已经能较好滴支持pandas接口,从而弥补pandas不能跨机进行大数据处理的不足。pandas还能够与Spark原来的DataFrame相互转换,方便Spark和P...

《时间序列分析及应用-R语言》读书笔记

《时间序列分析及应用-R语言》,由美 Jonathan D. Cryer和Kung-Sik Chan编著,潘鸿宇等译,机械工业出版社出版,我这本是第二版。这是一本2008年就写好的书,2011年中文出版。算起来都7年了...

Spark 3.0 内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内...

整合GIS和Jupyter Notebook平台

Jupyter Notebook是数据探索的利器,通过JupyterHub可以支持多用户利用服务器资源,进一步运行在Kubernetes集群中,可以支持大型的大数据团队进行即时数据分析和交互分享。超图软件在Jupyter...

R语言空间分析功能简介

空间数据是跟大多数的数据都有关系,而常用的数据中大量的也都有空间属性。因此,R语言已经包含了很多空间分析的软件模块。这里简单介绍R中的Spatial软件包,以及其它可以用于空间分析的软件...

Databook-数据之书

Databook-数据之书 用于数据分析的Jupyter Notebooks。 不需购买服务器,快速开始自己的数据分析过程。 源码:https://github.com/databooks/databook 源码镜像:https://gitlab.com/databo...

Spark 3.0 on Kubernetes 的模式与最新发展

Spark 3.0发布后,对Kubernetes的原生支持得到大幅增强,从而方便了Spark在云原生环境中的快速部署和运行实例的管理。这里探讨Spark on Kubernetes 生态的现状与挑战。 参考: Spark 3.01 o...

GIScript2015的第一个入门教程-使用UbuntuKylin15.04

GIScript2015是一个通用的GIS脚本库,可以帮助进行地理空间数据的处理和分析,提高数据处理的效率,帮助进行地理科学的研究。GIScript2015是一个开源工程,已建立Git版本库和虚拟Team、微信群...

2015/07/27 14:38
614
JupyterHub容器镜像自定义方法与步骤

IPython、JupyterHub、JupyterLab是用于大数据分析和机器学习的流行的环境,JupyterHub可以运行于Kubernetes集群环境中,从而供多人同时使用,支持动态伸缩。 虽然登录后可以通过pip和conda...

kubernetes on arm发展现状

kubernetes on arm已取得极大的发展,构建全arm解决方案已成为可能。arm是各种手机类移动设备的主要CPU架构,各种IoT设备、智能设备、移动设备也主要采用arm架构的CPU。因为其体积小、功耗低...

Apache Spark 3.0 正式发布,重大功能概览

Apache Spark 3.0 增加了很多令人兴奋的新特性,包括动态分区修剪(Dynamic Partition Pruning)、自适应查询执行(Adaptive Query Execution)、加速器感知调度(Accelerator-aware Schedul...

PostgreSQL的集群化和容器化部署

对于PostgreSQL用户来说,随着数据增多、业务负载上升,需要将其进行容器化和集群化改造,以便于管理和伸缩规模。PostgreSQL虽然可以支持集群,但仍然是传统数据库架构而非分布式数据库架构。...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部