使用hadoop mapreduce分析mongodb数据
博客专区 > goldbin 的博客 > 博客详情
使用hadoop mapreduce分析mongodb数据
goldbin 发表于6个月前
使用hadoop mapreduce分析mongodb数据
  • 发表于 6个月前
  • 阅读 7
  • 收藏 0
  • 点赞 0
  • 评论 0

标题:腾讯云 新注册用户域名抢购1元起>>>   

摘要: (现在很多互联网爬虫将数据存入mongdb中,所以研究了一下,写此文档)

使用hadoop mapreduce分析mongodb数据

(现在很多互联网爬虫将数据存入mongdb中,所以研究了一下,写此文档)


版权声明:本文为yunshuxueyuan原创文章。
如需转载请标明出处: https://my.oschina.net/yunshuxueyuan/blog
QQ技术交流群:299142667

一、 mongdb的安装和使用

1、 官网下载mongodb-linux-x86_64-rhel70-3.2.9.tgz

 

2、 解压 (可以配置一下环境变量)

3、 启动服务端

./mongod  --dbpath=/opt/local/mongodb/data --logpath=/opt/local/mongodb/logs  --logappend  --fork(后台启动)

第一种:不带auth认证的

 

第二种:需要带auth认证的(即需要用户名和密码的)

 

当指定用户名和密码在查看数据,发现就可以看得到了

 

4、 启动客户端

./mongo

 

5、客户端shell命令

show dbs    显示mongodb中有哪些数据库

 

db    显示当前正在用的数据库

 

use db    你要使用的数据库名

 

(注:若database不存在,则会创建一个,此时若不做任何操作直接退出,则MongoDB会删除该数据库)

db.auth(username,password)  username为用户名,password为密码 登陆你要使用的数据库

db.getCollectionNames()  查看当前数据库有哪些表

 

db.[collectionName].insert({...})  给指定数据库添加文档记录

 

db.[collectionName].findOne()   查找文档的第一条数据

db.[collectionName].find()   查找文档的全部记录

 

db.[collection].update({查询条件},{$set:{更新内容}})   更新一条文档记录

 

db.[collection].drop()   删除数据库中的集合

 

db.dropDatabase()   删除数据库

 

二、 Mapreduce 分析mongodb的数据实例

 

1、 编写mapreduce的代码前,需要另外添加两个jar包,还有需(jdk1.7以上)

  

2、 需求介绍与实现

原数据:

 

结果数据:

 

代码编写:

Job:

 

Mapper:

 

Reduce:

 

最终的结果数据:

 

 

三、 最后给大家推荐一个mongodb数据库的管理工具,挺好用的

    

版权声明:本文为yunshuxueyuan原创文章。
如需转载请标明出处: https://my.oschina.net/yunshuxueyuan/blog
QQ技术交流群:299142667

共有 人打赏支持
粉丝 0
博文 13
码字总数 26896
×
goldbin
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: