文档章节

基于odps构建数据分析服务

NikoTesla
 NikoTesla
发布于 2015/11/25 09:44
字数 611
阅读 113
收藏 0

功能组件

odps

基本概念

项目空间 表 分区 数据类型 资源(Resource)

使用ODPS的 自定义函数(UDF) 或 MapReduce 功能需要依 赖资源来完成

  1. ODPS SQL UDF: 用户在编写UDF后,需要将编译好的jar包以资源的形式上传到ODPS。运行这个 UDF时,ODPS会自动下载这个jar包,获取用户代码,运行UDF,无需用户干预。 上传jar包的过程 就是在ODPS上创建资源的过程,这个jar包是ODPS资源的一种。
  2. ODPS MapReduce: 用户编写MapReduce程序后,将编译好的jar包作为一种资源上传到ODPS。运 行MapReduce作业时,MapReduce框架会自动下载这个jar资源, 获取用户代码。用户同样可以将 文本文件以及ODPS中的表作为不同类型的资源上传到ODPS。用户可以在UDF及MapReduce的运行 过程中读取、使用这些资源。 ODPS提供了读取、使用资源的接口。详细示例请查看 资源使用示例 及 UDTF使用说明 中的描述。需要注意的是,ODPS的 自定义函数(UDF) 或 MapReduce 对资源的 读取有一定的限制,请参考应用限制 。

ODPS资源的类型包括:

  • File类型;
  • Table类型:ODPS中的表;
  • Jar类型:编译好的Java Jar包;
  • Archive类型:通过资源名称中的后缀识别压缩类型,支持的压缩文件类型包括 :.zip/.tgz/.tar.gz/.tar/jar;
  • Py类型:Python脚本,供Python UDF使用;

函数

ODPS为用户提供了SQL计算功能,用户可以在ODPS SQL中使用系统的 内建函数 完成一定的计算和计数功能 。 但当内建函数无法满足要求时,用户可以使用ODPS提供的Java编程接口开发自定义函数(User Defined Function,以下简称UDF)。

任务(Task) ODPS的基本计算单元。 SQL及MapReduce功能都是通过任务(Task)完成的。

任务实例

实例 会经历运行(Running)及结束(Terminated)两个阶段。 运行阶段的状态为Running(运行中),而结束阶段的状 态将会是Success(成功),Failed(失败)或Canceled(被取消)。

客户端安装

在官网下载odps客户端压缩包,解压,修改conf/odps_config.ini文件中的access_id,access_key,project_name,end_point参数,运行bin/下的可执行文件,进入命令行操作。

© 著作权归作者所有

NikoTesla
粉丝 4
博文 57
码字总数 12246
作品 0
东城
程序员
私信 提问
阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)

概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方...

隐林
2017/05/05
0
0
阿里云开放OpenSearch打造专业搜索引擎

  【IT168资讯】21日,阿里云计算发布搜索产品OpenSearch,将阿里巴巴多年积累的搜索技术对外开放。利用OpenSearch,广大站长和移动开发者不用自己开发,就能在一天内实现站内搜索功能,甚...

it168网站
2014/07/21
0
0
【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合

摘要: MaxCompute大家都不陌生,之前产品名称叫ODPS,之后随国际化而更名。从支持阿里集团内部99%数据业务到计算能力对外输出,帮助政府、互联网公司、金融等进行大数据项目服务,使得数据变...

阿里云云栖社区
2018/01/12
27
0
【大数据】odps数据迁移方式

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/binggetong/article/details/82762289 1、按迁移工具分类 一共分为2种:Tunnel批量数据通道、DataHub实时通道...

Elsa晓冰
2018/09/18
0
0
阿里云正式推出消息队列Kafka:兼容开源,数据可靠性99.999999%

7月25日,阿里云宣布正式推出消息队列Kafka,全面融合开源生态。在兼容Apache生态的基础上,阿里云消息队列Kafka彻底解决了开源产品稳定性不足的痛点,可用性达99.9%,数据可靠性99.999999%,...

中间件小哥
2018/07/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

小知识:讲述Linux命令别名与资源文件的区别

别名 别名是命令的快捷方式。为那些需要经常执行,但需要很长时间输入的长命令创建快捷方式很有用。语法是: alias ppp='ping www.baidu.com' 它们并不总是用来缩短长命令。重要的是,你将它...

老孟的Linux私房菜
50分钟前
4
0
《JAVA核心知识》学习笔记(6. Spring 原理)-5

它是一个全面的、企业应用开发一站式的解决方案,贯穿表现层、业务层、持久层。但是 Spring 仍然可以和其他的框架无缝整合。 6.1.1. Spring 特点 6.1.1.1. 轻量级 6.1.1.2. 控制反转 6.1.1....

Shingfi
51分钟前
5
0
Excel导入数据库数据+Excel导入网页数据【实时追踪】

1.Excel导入数据库数据:数据选项卡------>导入数据 2.Excel导入网页数据【实时追踪】:

东方墨天
59分钟前
5
1
正则表达式如何匹配一个单词存在一次或零次并且不占捕获组位置

正则表达式如何匹配一个单词存在一次或零次并且不占捕获组位置 今天要用正则表达式实现匹配一个词出现一次或者不出现的情况,但是又不仅仅是这么简单的需求。先详细说下我这种情况吧,也许有...

Airship
今天
6
0
第八讲:asp.net C# web 读取文件

本讲主要讲解如何在asp.net页面上传文件。 首先,前台页面: 其次,后台页面: 结果: 1、前台效果: 2、后台结果:

刘日辉
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部