文档章节

MongoDB Aggregation Framework初探

typeorigin
 typeorigin
发布于 2012/11/08 22:27
字数 1378
阅读 5546
收藏 8

    MongoDB 2.1 多了新Feature - Aggregation Framework。最近工作需要就稍微看了下,Mark之。

Overview

    Aggregation 提供的功能map-reduce也能做(诸如统计平均值,求和等)。官方那个大胖子说这东西比map-reduce简单, map-reduce 我没用过, 不过从使用Aggregation的情况来看, 进行统计等操作还是蛮方便的。

    总体而言,Aggregation就是类似 Unix-like中的 管道 的概念,可以将很多数据流串起来,不同的数据处理阶段可以再上一个阶段的基础上再次加工。

Pipeline-Operator

    比较常用的有:    

    •$project -  可以重构数据
    •$match - 可以实现类似query的功能
    •$limit - 限制返回个数,你懂的
    •$skip - 同上
    •$unwind - 可以将一个包含数组的文档切分成多个, 比如你的文档有 中有个数组字段 A, A中有10个元素, 那么                                 经过 $unwind处理后会产生10个文档,这些文档只有 字段 A不同
    •$group - 统计操作, 还提供了一系列子命令
         –$avg, $sum …

    •$sort  - 排序

Usage - Java

    我在db中造了些数据(数据时随机生成的, 能用即可),没有建索引,文档结构如下:


Document结构:
  {
   "_id" : ObjectId("509944545"),
   "province" : "海南",
   "age" : 21,
   "subjects" : [
 	{
 	"name":"语文",
 	"score" : 53
 	},
 	{
 	"name":"数学",
 	"score" : 27
 	},
 	{
 	"name":"英语",
 	"score" : 35
 	}
     ],
   "name" : "刘雨"
  }
     接下来要实现两个功能:
  1.     统计上海学生平均年龄
  2.     统计每个省各科平均成绩

    接下来一一道来

    统计上海学生平均年龄

    从这个需求来讲,要实现功能要有几个步骤: 1. 找出上海的学生. 2. 统计平均年龄 (当然也可以先算出所有省份的平均值再找出上海的)。如此思路也就清晰了

    首先上 $match, 取出上海学生

    {$match:{'province':'上海'}}
    接下来 用 $group 统计平均年龄


    {$group:{_id:’$province’,$avg:’$age’}}
    $avg 是 $group的子命令,用于求平均值,类似的还有 $sum, $max ....

    上面两个命令等价于

    select province, avg(age) 
     from student 
     where province = '上海' 
     group by province

    下面是Java代码

    Mongo m = new Mongo("localhost", 27017);
     DB db = m.getDB("test");
     DBCollection coll = db.getCollection("student");
    
     /*创建 $match, 作用相当于query*/
     DBObject match = new BasicDBObject("$match", new BasicDBObject("province", "上海"));
     
     /* Group操作*/
     DBObject groupFields = new BasicDBObject("_id", "$province");
     groupFields.put("AvgAge", new BasicDBObject("$avg", "$age"));
     DBObject group = new BasicDBObject("$group", groupFields);
     
     /* 查看Group结果 */
     AggregationOutput output = coll.aggregate(match, group); // 执行 aggregation命令
     System.out.println(output.getCommandResult());
    输出结果:
    { "serverUsed" : "localhost/127.0.0.1:27017" ,        
      "result" : [ 
     	{ "_id" : "上海" , "AvgAge" : 32.09375}
        ] , 	  	 
       "ok" : 1.0
     }
    如此工程就结束了,再看另外一个需求


    统计每个省各科平均成绩

    首先更具数据库文档结构,subjects是数组形式,需要先‘劈’开,然后再进行统计

    主要处理步骤如下:

    1. 先用$unwind 拆数组 2. 按照 province, subject 分租并求各科目平均分

    $unwind 拆数组

    {$unwind:’$subjects’}
    按照 province, subject 分组,并求平均分
    {$group:{
         _id:{
             subjname:”$subjects.name”,   // 指定group字段之一 subjects.name, 并重命名为 subjname
             province:’$province’         // 指定group字段之一 province, 并重命名为 province(没变)
          },
         AvgScore:{
            $avg:”$subjects.score”        // 对 subjects.score 求平均
         }
     }
    java代码如下:


    Mongo m = new Mongo("localhost", 27017);
     DB db = m.getDB("test");
     DBCollection coll = db.getCollection("student");
     
     /* 创建 $unwind 操作, 用于切分数组*/
     DBObject unwind = new BasicDBObject("$unwind", "$subjects");
     
     /* Group操作*/
     DBObject groupFields = new BasicDBObject("_id", new BasicDBObject("subjname", "$subjects.name").append("province", "$province"));
     groupFields.put("AvgScore", new BasicDBObject("$avg", "$subjects.scores"));
     DBObject group = new BasicDBObject("$group", groupFields);
    
     /* 查看Group结果 */
     AggregationOutput output = coll.aggregate(unwind, group);  // 执行 aggregation命令
     System.out.println(output.getCommandResult());
    输出结果



    { "serverUsed" : "localhost/127.0.0.1:27017" , 
        "result" : [ 
          { "_id" : { "subjname" : "英语" , "province" : "海南"} , "AvgScore" : 58.1} , 
          { "_id" : { "subjname" : "数学" , "province" : "海南"} , "AvgScore" : 60.485} ,
          { "_id" : { "subjname" : "语文" , "province" : "江西"} , "AvgScore" : 55.538} , 
          { "_id" : { "subjname" : "英语" , "province" : "上海"} , "AvgScore" : 57.65625} , 
          { "_id" : { "subjname" : "数学" , "province" : "广东"} , "AvgScore" : 56.690} , 
          { "_id" : { "subjname" : "数学" , "province" : "上海"} , "AvgScore" : 55.671875} ,
          { "_id" : { "subjname" : "语文" , "province" : "上海"} , "AvgScore" : 56.734375} , 
          { "_id" : { "subjname" : "英语" , "province" : "云南"} , "AvgScore" : 55.7301 } ,
          .
          .
          .
          .
         "ok" : 1.0
     }
    统计就此结束.... 稍等,似乎有点太粗糙了,虽然统计出来的,但是根本没法看,同一个省份的科目都不在一起。囧


    接下来进行下加强, 

    支线任务: 将同一省份的科目成绩统计到一起( 即,期望 'province':'xxxxx', avgscores:[ {'xxx':xxx}, ....] 这样的形式)

    要做的有一件事,在前面的统计结果的基础上,先用 $project 将平均分和成绩揉到一起,即形如下面的样子

    { "subjinfo" : { "subjname" : "英语" ,"AvgScores" : 58.1 } ,"province" : "海南" }

    再按省份group,将各科目的平均分push到一块,命令如下:

    $project 重构group结果

    {$project:{province:"$_id.province", subjinfo:{"subjname":"$_id.subjname", "avgscore":"$AvgScore"}}
    $使用 group 再次分组
    {$group:{_id:"$province", avginfo:{$push:"$subjinfo"}}}
    java 代码如下:
    Mongo m = new Mongo("localhost", 27017);
    DB db = m.getDB("test");
    DBCollection coll = db.getCollection("student");
     			
    /* 创建 $unwind 操作, 用于切分数组*/
    DBObject unwind = new BasicDBObject("$unwind", "$subjects");
     			
    /* Group操作*/
    DBObject groupFields = new BasicDBObject("_id", new BasicDBObject("subjname", "$subjects.name").append("province", "$province"));
    groupFields.put("AvgScore", new BasicDBObject("$avg", "$subjects.scores"));
    DBObject group = new BasicDBObject("$group", groupFields);
     			
    /* Reshape Group Result*/
    DBObject projectFields = new BasicDBObject();
    projectFields.put("province", "$_id.province");
    projectFields.put("subjinfo", new BasicDBObject("subjname","$_id.subjname").append("avgscore", "$AvgScore"));
    DBObject project = new BasicDBObject("$project", projectFields);
     			
    /* 将结果push到一起*/
    DBObject groupAgainFields = new BasicDBObject("_id", "$province");
    groupAgainFields.put("avginfo", new BasicDBObject("$push", "$subjinfo"));
    DBObject reshapeGroup = new BasicDBObject("$group", groupAgainFields);
     
    /* 查看Group结果 */
    AggregationOutput output = coll.aggregate(unwind, group, project, reshapeGroup);
    System.out.println(output.getCommandResult());

    结果如下:

    { "serverUsed" : "localhost/127.0.0.1:27017" , 
      "result" : [ 
           { "_id" : "辽宁" , "avginfo" : [ { "subjname" : "数学" , "avgscore" : 56.46666666666667} , { "subjname" : "英语" , "avgscore" : 52.093333333333334} , { "subjname" : "语文" , "avgscore" : 50.53333333333333}]} , 
           { "_id" : "四川" , "avginfo" : [ { "subjname" : "数学" , "avgscore" : 52.72727272727273} , { "subjname" : "英语" , "avgscore" : 55.90909090909091} , { "subjname" : "语文" , "avgscore" : 57.59090909090909}]} , 
           { "_id" : "重庆" , "avginfo" : [ { "subjname" : "语文" , "avgscore" : 56.077922077922075} , { "subjname" : "英语" , "avgscore" : 54.84415584415584} , { "subjname" : "数学" , "avgscore" : 55.33766233766234}]} , 
           { "_id" : "安徽" , "avginfo" : [ { "subjname" : "英语" , "avgscore" : 55.458333333333336} , { "subjname" : "数学" , "avgscore" : 54.47222222222222} , { "subjname" : "语文" , "avgscore" : 52.80555555555556}]} 
        .
        .
        .
       ] , "ok" : 1.0}
    至此,功能也就完成了,呼。


    结语

    Aggravation 这就介绍完了, 当然还有很多细节没说清楚,更多的资料可以参考MongoDB官方文档(http://docs.mongodb.org/manual/applications/aggregation/)。 期待后期再深入挖掘其功能。


© 著作权归作者所有

typeorigin

typeorigin

粉丝 22
博文 19
码字总数 13325
作品 0
杭州
程序员
私信 提问
加载中

评论(5)

typeorigin
typeorigin 博主

引用来自“lany2014”的评论

强大,赞一个。复制楼主的代码,数据结构也一样,输出结果也正确,就是不换行,看着好痛苦,不知道怎么回事。。
换行这个,要自己格式化了,哈哈
l
lany2014
强大,赞一个。复制楼主的代码,数据结构也一样,输出结果也正确,就是不换行,看着好痛苦,不知道怎么回事。。
typeorigin
typeorigin 博主

引用来自“nnnnn”的评论

老实说,最近正在看mongodb的源代码和试用,对其在32位机器上的稳定性,感觉相当的造,本来对二进制bson挺有兴趣的,因为在B/S 结构中对于图片,影片或者其他更大数据的下发感觉的零乱,在后台写了一大堆的工具类来处理,当初想借助mongodb的文档处理的功能,不过现在甚是失望,mongodb还要走很长的路,希望能处理的更好一些

32限制蛮多,只能当玩具。
nnnnn
nnnnn
老实说,最近正在看mongodb的源代码和试用,对其在32位机器上的稳定性,感觉相当的造,本来对二进制bson挺有兴趣的,因为在B/S 结构中对于图片,影片或者其他更大数据的下发感觉的零乱,在后台写了一大堆的工具类来处理,当初想借助mongodb的文档处理的功能,不过现在甚是失望,mongodb还要走很长的路,希望能处理的更好一些
黄围淡
黄围淡
赞 啊
sql和mongodb基本操作对比

基本概念对比 SQL Terms/Concepts MongoDB Terms/Concepts database database table collection row document or BSON document column field index index table joins embedded documents a......

penngo
2014/03/20
508
0
MongoCola 1.2.5 发布了

下载地址: http://www.wojilu.com/Forum1/Topic/4601 GitHub: https://github.com/magicdict/MagicMongoDBTool 相关资料 [教程]MongoDB 从入门到进阶 (aggregation数据库状态) [教程]Mong......

magicdict
2013/01/20
1K
0
Spring Data Babbage RC1 发布

Spring Data Babbage 发布了首个 RC 版本,包括如下模块: Spring Data Commons 1.6 RC1 - Artifacts - JavaDocs - Documentation - Changelog Spring Data JPA 1.4 RC1 - Artifacts - JavaD......

红薯
2013/08/06
661
2
PHP与MongoDB:类库、框架与工具介绍

本文来自MongoDB官方,文中把PHP与MongoDB相关的类库、框架、工具做了汇总和介绍,如果你正使用PHP并在关注MongoDB,那么这篇文章可能对你有用。 架构相关 CakePHP CakePHP是一个非常受欢迎的...

kisshua
2012/08/31
1K
0
Node.js和Geddy初学者指南 - 第三部分:使用Mongdb持久化你的数据

日期:2012-4-12 来源:GBin1.com 在这个三个部分的教程中,我们教大家使用Node.js和Geddy来创建了一个todo的管理应用,上一篇我们将数据保存在内存中,在这个系列最后一篇文章中,我们将介绍...

gbin1
2012/04/13
171
0

没有更多内容

加载失败,请刷新页面

加载更多

vps管理程序win和Linux都有啥推荐?

如果你的手上有多台Windows的vps推荐您用iis7远程桌面管理工具,但是今天着重说一下linux vps需要管理,那有没有一个免费的工具监控在线率、CPU、内存、网络等使用情况并以网页的形式反馈出来...

1717197346
13分钟前
3
0
Java调用以太坊智能合约

Web3j让Java开发者可以轻松地访问以太坊区块链并调用区块链上的智能合约的方法,在本教程中,我们将学习如何创建一个简单的命令行应用来访问区块链上的合约。 1、什么是web3j Web3j是一个开发...

汇智网教程
17分钟前
2
0
从零开始入门 K8s| 阿里技术专家详解 K8s 核心概念

作者| 阿里巴巴资深技术专家、CNCF 9个 TCO 之一 李响 一、什么是 Kubernetes Kubernetes,从官方网站上可以看到,它是一个工业级的容器编排平台。Kubernetes 这个单词是希腊语,它的中文翻译...

阿里云官方博客
20分钟前
3
0
微信加好友 通过初始wxid,恢复好友聊天记录

一、聊天记录恢复以及怎么获得用户的wxid 聊天记录网上很多方法、前提是你没有点击微信设置里面的清除聊天记录 单单是删除了与这个人对话 记录还是会存在的 之前我用的是楼月的微信聊天恢复助...

青峰Jun19er
22分钟前
3
0
鲲鹏发力,神秘中国架构现世,ZStack搭上了国产化的高铁?

以下文字来自ZStack社区用户,ZStack作为国产自研的开源云平台,感谢在国产化道路上大家一直以来的支持,接下来也请大家继续指教,ZStack也会坚持初心,抗好国产化的大旗。 鲲鹏这两天挺火的...

ZStack社区版
29分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部