R语言利器之ddply
R语言利器之ddply
mahengyang 发表于5年前
R语言利器之ddply
  • 发表于 5年前
  • 阅读 13319
  • 收藏 10
  • 点赞 1
  • 评论 0

【腾讯云】新注册用户域名抢购1元起>>>   

ddply()函数位于plyr包,用于对data.frame进行分组统计,与tapply有些类似

准备数据

# 使用stringsAsFactors=F来防止data.frame把向量转为factor
apache = data.frame(httpCode=c(200,200,200,404,404,500),
                    time=c(100,111,210,10,10,500),
                    api=c('index','index','logout','show','show','index'),
                    stringsAsFactors=F)

统计每个api的请求数

ddply(apache,.(api),summarize,number=length(api))
     api number
1  index      3
2 logout      1
3   show      2

统计每个api的各个httpCode的请求数:

a <- ddply(apache,.(api,httpCode),summarize,number=length(api))
     api httpCode number
1  index      200      2
2  index      500      1
3 logout      200      1
4   show      404      2

下面这个复杂些,根据上面的统计结果a,统计每个api所占比例

b <- ddply(a, 
          .(), 
          .fun=function(x){
              transform(x, percentage=with(x,ave(number,api,FUN=sum)/sum(number)))
          })
   .id    api httpCode number percentage
1 <NA>  index      200      2      0.333
2 <NA>  index      500      1      0.167
3 <NA> logout      200      1      0.167
4 <NA>   show      404      2      0.333

这就是说你可以根据需要写自己的统计函数

用ggplot画api占比图

ggplot(b,aes(x=reorder(api,percentage),y=percentage,fill=factor(httpCode))) + 
    geom_bar() +
    scale_y_continuous(labels = percent_format()) +
    coord_flip() +

在此输入图片描述

  • 打赏
  • 点赞
  • 收藏
  • 分享
共有 人打赏支持
粉丝 51
博文 45
码字总数 31887
×
mahengyang
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: