文档章节

R语言和大数据

_夜枫
 _夜枫
发布于 2017/03/17 11:31
字数 796
阅读 8
收藏 0

MaxCompute产品地址:https://www.aliyun.com/product/odps

安装R语言

R3.3版本会出现各种so不存在的问题,退回去到R3.1版本时候就顺利安装。
在安装R环境之前,先安装好中文(如果没有的话图表中显示汉字成框框了)和tcl/tk包(少了这个没法安装sqldf)
sudo yum install fonts-chinese tcl tcl-devel tclx tk tk-devel -y
安装中文字体后重新加载 service xfs reload (不过在有台机器上总是失败,后来重启机器OK)
sudo service xfs reload
有些包会需要rgl,调用opengl的库,所以还要安装opengl包
sudo yum install mesa-libGLU mesa-libGLU-devel -y
sudo yum install gcc-gfortran gcc gcc-c++ readline-devel libXt-devel -y

wget --no-check-certificate https://stat.ethz.ch/CRAN/src/base/R-3/R-3.1.0.tar.gz
tar xvf R-3.1.0.tar.gz
./configure --enable-R-shlib=yes --enable-BLAS-shlib=yes --with-lapack --with-libpng --with-x=no --with-tcltk
sudo sh -c "make"
sudo sh -c "make install"

sudo R CMD javareconf JAVA_HOME=$JAVA_HOME
进入到r中进行
install.packages('rJava')
选择22

安装DBI
install.packages("DBI")
选择22

安装RSQLite
install.packages("RSQLite")
选择22

配置 odps_config.ini 

 project_name=myproject

 access_id=<这里输入Access ID,不带尖括号>

 access_key=<这里输入Access Key,不带尖括号>

 end_point=http://service.odps.aliyun-inc.com/api

验证
Sys.getenv('RODPS_CONFIG');
最后安装RODPS包
install.packages('RODPS',repos='http://odps.alibaba.com/rodps')

安装RStudio

R装在工作的笔记本电脑上,由于内存的限制,只能用于一些很小的数据集的分析,所以更好的方式是,在Linux上配置一个R加rstudio-server,然后可以通过web直接访问R的功能。

下载rstudio-server的rpm包安装即可
wget http://download2.rstudio.org/rstudio-server-0.97.551-x86_64.rpm
rpm -ivh --nodeps rstudio-server-0.97.551-x86_64.rpm
启动命令

坑爹的是启动失败并没有任何错误提示,在/var/log/messages找到错误信息
安装时如果提示缺少libR.so;使用make unsintall卸载,然后重新安装一次R,指定了enable-R-shlib以后就不再报错。
启动正常以后ps aux能够看到/usr/lib/rstudio-server/bin/rserver 
就说明已经启动了

配置文件位于/etc/rstudio/rserver.conf
www-port=80,80是默认的http服务端口号。
rsession-ld-library-path=/opt/local/lib:/opt/local/someapp/lib 指定额外的库地址
rsession-which-r=/usr/local/bin/R 指定R软件位置
auth-required-user-group=rstudio_users 限制可登陆R用户
rsession-memory-limit-mb=4000 限制使用的最大内存
rsession-stack-limit-mb=10 限制最大的栈大小
rsession-process-limit=100 限制最多进程数
session-timeout-minutes=30 进程超时时间
r-libs-user=~/R/packages 设置默认的R包 
limit-file-upload-size-mb=100 设置最大的上传文件大小
r-cran-repos=http://cran.case.edu/ 设置默认的CRAN

登陆访问

打开localhost测试地址;

此外,还需要设置环境变量才可以访问,使用下面命令设置当前session的环境变量
Sys.setenv(RODPS_CONFIG ="odps_config.ini")
library('RODPS_CONFIG')
如下图
screenshot

最新进展

R还是把数据load到本地进行计算的,这样的方式在大数据时代多少显得落伍。目前R和hadoop结合的有rhadoop、rhive、rhbase、sparkr等等,rhive和rodps采用的方法是类似的,用lib结合接口进行访问。比较彻底的是sparkR,在api和运行时做了修改。使用R或Python的DataFrame API能获得和Scala近乎相同的性能。

调用MaxCompute数据方面,可以先把语言转换为SQL脚本在调用。

本文转载自:https://yq.aliyun.com/articles/60858

_夜枫
粉丝 10
博文 506
码字总数 0
作品 0
朝阳
后端工程师
私信 提问
R语言可视化学习笔记之相关矩阵可视化包ggcorrplot

基于ggplot2包以及corrplot包的相关矩阵可视化包ggcorrplot,ggcorrplot包提供对相关矩阵重排序以及在相关图中展示显著性水平的方法,同时也能计算相关性p-value 安装方法就不提了,不懂的可...

R语言中文社区
2018/01/25
0
0
微软拥抱开源的步伐又迈进了一步

去年,当萨提亚·纳德拉说出“微软深爱着Linux”这句话的时候,微软已经下定了决心要积极开放地拥抱开源。鲍尔默时代微软将开源操作系统视作 “毒瘤”的想法,可以说是已经荡然无存了。所以在...

oschina
2015/07/02
7.2K
17
【2017.8.19-20●上海】理论+实战:玩转R语言

随着生物信息、临床诊断等各个领域的信息化发展,大数据的分析与管理已经成为这个时代必然面对的机遇和挑战。数理统计学作为研究“数据智能”的科学,在数据科学领域扮演者越来越重要的角色。...

慧算学院
2017/06/06
22
0
【2017.8.19-20●上海】理论+实战:玩转R语言

随着生物信息、临床诊断等各个领域的信息化发展,大数据的分析与管理已经成为这个时代必然面对的机遇和挑战。数理统计学作为研究“数据智能”的科学,在数据科学领域扮演者越来越重要的角色。...

慧算学院
2017/06/06
75
0
大数据分析学习之使用R语言实战机器学习视频课程

大数据分析学习之使用R语言实战机器学习 网盘地址:https://pan.baidu.com/s/1Yi9H6s8EypgjJJlQmdFSg 密码:0jz3 备用地址(腾讯微云):https://share.weiyun.com/5tk6j1Z 密码:rdia9t 机器...

加班我快乐
2018/08/21
0
0

没有更多内容

加载失败,请刷新页面

加载更多

作为一个(IT)程序员!聊天没有话题?试试这十二种技巧

首先呢?我是一名程序员,经常性和同事没话题。 因为每天都会有自己的任务要做,程序员对于其他行业来说;是相对来说比较忙的。你会经常看到程序员在发呆、调试密密麻麻代码、红色报错发呆;...

小英子wep
今天
12
0
【SpringBoot】产生背景及简介

一、SpringBoot介绍 Spring Boot 是由 Pivotal 团队提供的全新框架,其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程,该框架使用了特定的方式来进行配置,从而使开发人员不再需要...

zw965
今天
4
0
简述并发编程分为三个核心问题:分工、同步、互斥。

总的来说,并发编程可以总结为三个核心问题:分工、同步、互斥。 所谓分工指的是如何高效地拆解任务并分配给线程,而同步指的是线程之间如何协作,互斥则是保证同一时刻只允许一个线程访问共...

dust8080
今天
6
0
OSChina 周四乱弹 —— 当你简历注水但还是找到了工作

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @花间小酌 :#今日歌曲推荐# 分享成龙的单曲《男儿当自强》。 《男儿当自强》- 成龙 手机党少年们想听歌,请使劲儿戳(这里) @hxg2016 :刚在...

小小编辑
今天
3.3K
22
靠写代码赚钱的一些门路

作者 @mezod 译者 @josephchang10 如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。 今天给大家分享一个精彩的 GitHub 库,这个库整理...

高级农民工
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部