文档章节

GridFS - NGinx详细分析(二)

一枚Sir
 一枚Sir
发布于 2014/06/19 20:26
字数 1620
阅读 348
收藏 4

GridFS简介

GridFSMongoDB中的一个内置功能,可以用于存放大量小文件。

http://www.mongodb.org/display/DOCS/GridFS

http://www.mongodb.org/display/DOCS/GridFS+Specification

GridFS使用

MongoDB提供了一个命令行工具mongofiles可以来处理GridFS,在bin目录下。

列出所有文件:

mongofiles list

上传一个文件:

mongofiles put xxx.txt

下载一个文件:

mongofiles get xxx.txt

查找文件:

mongofiles search xxx    //会查找所有文件名中包含“xxx”的文件

mongofiles list xxx //会查找所有文件名以“xxx”为前缀的文件

参数说明:

–d 指定数据库 ,默认是fsMongofiles list –d testGridfs

-u –p 指定用户名,密码

-h  指定主机

-port 指定主机端口

-c 指定集合名,默认是fs

-t 指定文件的MIME类型,默认会忽略

使用MongoVUE来查看,管理GridFS

MongoVUE地址:http://www.mongovue.com/

MongoVUE是个免费软件,但超过15天后功能受限。可以通过删除以下注册表项来解除限制:

[HKEY_CURRENT_USER\Software\Classes\CLSID\{B1159E65-821C3-21C5-CE21-34A484D54444}\4FF78130]

把这个项下的值全删掉就可以了。

java驱动上传下载文件:

下载地址:https://github.com/mongodb/mongo-java-driver/downloads

官方的文档貌似不是最新的,不过通过查看api来使用也不困骓。

http://api.mongodb.org/java/2.7.2/

以下代码基于mongo-2.7.3.jar

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.UnknownHostException;
import java.security.NoSuchAlgorithmException;
import com.mongodb.BasicDBObject;
import com.mongodb.DB;
import com.mongodb.DBCollection;
import com.mongodb.DBObject;
import com.mongodb.Mongo;
import com.mongodb.MongoException;
import com.mongodb.gridfs.GridFS;
import com.mongodb.gridfs.GridFSDBFile;
import com.mongodb.gridfs.GridFSInputFile;
public class Test {
 Mongo connection;
 DB db;
 DBCollection collection;
 GridFS myFS;
 String mongoDBHost = "127.0.0.1";
 int mongoDBPort = 27017;
 String dbName = "testGridfs";
 String collectionName = "fs";
 public static void main(String[] args) throws MongoException, IOException, NoSuchAlgorithmException {
  Test t = new Test();
  
  String fileName = "F:/CPU.txt";
  String name = "CPU.txt";
  
  //把文件保存到gridfs中,并以文件的md5值为id
  t.save(new FileInputStream(fileName), name);
  
  //据文件名从gridfs中读取到文件
  
  GridFSDBFile gridFSDBFile = t.getByFileName(name);
  if(gridFSDBFile != null){
   System.out.println("filename:" + gridFSDBFile.getFilename());
   System.out.println("md5:" + gridFSDBFile.getMD5());
   System.out.println("length:" + gridFSDBFile.getLength());
   System.out.println("uploadDate:" + gridFSDBFile.getUploadDate());
   
   System.out.println("--------------------------------------");
   gridFSDBFile.writeTo(System.out);
  }else{
   System.out.println("can not get file by name:" + name);
  }
 }
 public Test() throws UnknownHostException, MongoException, NoSuchAlgorithmException {
  _init();
 }
 
 public Test(String mongoDBHost, int mongoDBPort, String dbName,
   String collectionName) throws UnknownHostException, MongoException, NoSuchAlgorithmException {
  this.mongoDBHost = mongoDBHost;
  this.mongoDBPort = mongoDBPort;
  this.dbName = dbName;
  this.collectionName = collectionName;
  _init();
 }
 
 
 private void _init() throws UnknownHostException, MongoException, NoSuchAlgorithmException{
  connection = new Mongo(mongoDBHost, mongoDBPort);
  db = connection.getDB(dbName);
  collection = db.getCollection(collectionName);
  myFS = new GridFS(db);
 }
 
 /**
  * 用给出的id,保存文件,透明处理已存在的情况
  * id 可以是string,long,int,org.bson.types.ObjectId 类型
  * @param in
  * @param id
  */
 public void save(InputStream in, Object id){
  DBObject query  = new BasicDBObject("_id", id);
  GridFSDBFile gridFSDBFile = myFS.findOne(query);
  
  if(gridFSDBFile != null)
   return;
  
  GridFSInputFile gridFSInputFile = myFS.createFile(in);
  gridFSInputFile.save();
  return;
 }
 
 /**
  * 据id返回文件
  * @param id
  * @return
  */
 public GridFSDBFile getById(Object id){
  DBObject query  = new BasicDBObject("_id", id);
  GridFSDBFile gridFSDBFile = myFS.findOne(query);
  return gridFSDBFile;
 }
 
 /**
  * 据文件名返回文件,只返回第一个
  * @param fileName
  * @return
  */
 public GridFSDBFile getByFileName(String fileName){
  DBObject query  = new BasicDBObject("filename", fileName);
  GridFSDBFile gridFSDBFile = myFS.findOne(query);
  return gridFSDBFile;
 }
}

nginx-gridfs模块的安装使用

项目地址:https://github.com/mdirolf/nginx-gridfs

通过nginx-gridfs,可以直接用http来访问GridFS中的文件。

1. 安装

安装各种依赖包:zlibpcreopenssl

ubuntu下可能是以下命令:

sudo apt-get install zlib1g-dev            //貌似sudo apt-get install zlib-dev 不能安装

sudo apt-get install libpcre3 libpcre3-dev

sudo apt-get install openssl libssl-dev

安装git(略)

git下载nginx-gridfs的代码:

git clone git://github.com/mdirolf/nginx-gridfs.git

    cd nginx-gridfs

    git submodule init

    git submodule update

下载nginx

wget http://nginx.org/download/nginx-1.0.12.zip

tar zxvf nginx-1.0.12.zip

cd nginx-1.0.12

 ./configure --add-module=<nginx-gridfs的路径>

make

sudo make install

如果编译出错,则在configure时加上--with-cc-opt=-Wno-error 参数。

2. 配置nginx

server的配置中加上以下

   location /pics/ {

                gridfs pics

                field=filename

                type=string;

                mongo 127.0.0.1:27017;

        }

上面的配置表示:

数据库是pics,通过文件名filename来访问文件,filename的类型是string

目前只支持通过idfilename来访问文件。

启动nginx/usr/local/nginx/sbin/nginx

MongoVUE把一个图片001.jpg上传到pics数据库中。

打开:http://localhost/pics/001.jpg

如果成功,则可以看到显示图片了。

3. nginx-gridfs的不足

没有实现httprange support,也就是断点续传,分片下载的功能。

GridFS实现原理

GridFS在数据库中,默认使用fs.chunksfs.files来存储文件。

其中fs.files集合存放文件的信息,fs.chunks存放文件数据。

一个fs.files集合中的一条记录内容如下,即一个file的信息如下:

{ 
"_id" : ObjectId("4f4608844f9b855c6c35e298"),    //唯一id,可以是用户自定义的类型
"filename" : "CPU.txt",   //文件名
"length" : 778,   //文件长度
"chunkSize" : 262144,   //chunk的大小
"uploadDate" : ISODate("2012-02-23T09:36:04.593Z"), //上传时间
"md5" : "e2c789b036cfb3b848ae39a24e795ca6",   //文件的md5值
"contentType" : "text/plain"   //文件的MIME类型
"meta" : null  //文件的其它信息,默认是没有”meta”这个key,用户可以自己定义为任意BSON对象
}

对应的fs.chunks中的chunk如下:

{ 
"_id" : ObjectId("4f4608844f9b855c6c35e299"),   //chunk的id
"files_id" : ObjectId("4f4608844f9b855c6c35e298"),  //文件的id,对应fs.files中的对象,相当于fs.files集合的外键
"n" : 0,   //文件的第几个chunk块,如果文件大于chunksize的话,会被分割成多个chunk块
"data" : BinData(0,"QGV...")  //文件的二进制数据,这里省略了具体内容
}

默认chunk的大小是256K

public static final int DEFAULT_CHUNKSIZE = 256 * 1024;

所以在把文件存入到GridFS过程中,如果文件大于chunksize,则把文件分割成多个chunk,再把这些chunk保存到fs.chunks中,最后再把文件信息存入到fs.files中。

在读取文件的时候,先据查询的条件,在fs.files中找到一个合适的记录,得到“_id”的值,再据这个值到fs.chunks中查找所有“files_id”为“_id”的chunk,并按“n”排序,最后依次读取chunk中“data”对象的内容,还原成原来的文件。

自定义Gridfshash函数

尽管从理论上,无论用什么hash函数,都有可能出现hash值相同,但内容不相同的文件,但是对于GridFS默认使用的md5算法,目前已出现长度和md5值都相同但内容不一样的文件。

如果想要自已改用其它hash算法,可以从驱动入手。因为GridFSMongoDB中实际也只是两个普通的集合,所以完全可以自已修改驱动,替换下hash算法即可。

目前java版的驱动比较简单,可以很容易修改实现。

但是要注意,这样不符合GridFS的规范了。

注意事项

1. GridFS不自动处理md5相同的文件,对于md5相同的文件,如果想在GridFS中只有一个存储,要用户自已处理。Md5值的计算由客户端完成。

2. 因为GridFS在上传文件过程中是先把文件数据保存到fs.chunks,最后再把文件信息保存到fs.files中,所以如果在上传文件过程中失败,有可能在fs.chunks中出现垃圾数据。这些垃圾数据可以定期清理掉。

 

 

 

 

 

 

© 著作权归作者所有

一枚Sir
粉丝 119
博文 209
码字总数 350904
作品 0
朝阳
架构师
私信 提问
基于GridFS+NGinx构建分布式文件系统 之实战(三)

基于GridFS构建分布式文件系统 首先看看什么是GridFS: GridFS is a mechanism for storing large binary files in MongoDB. There are several reasons why you might consider using GridF......

一枚Sir
2014/06/20
0
1
mongoDB--GridFS简介

前言 :GridFS从名字来看,就明白是一个文件系统,它是mongodb的一个子模块,使用GridFS可以基于mongodb来持久存储文件.并且支持分布式应用(文件分布存储和读取). 使用场景:如果你的系统有如下情...

索隆
2013/04/15
0
1
mongoDB 之 GridFS简介(一)

前言 :GridFS从名字来看,就明白是一个文件系统,它是mongodb的一个子模块,使用GridFS可以基于mongodb来持久存储文件.并且支持分布式应用(文件分布存储和读取). 使用场景:如果你的系统有如下情...

一枚Sir
2014/06/19
0
0
Mongodb GridFS图片文件存储解决方案

Mongodb GridFS图片文件存储解决方案 之前解决方案是接收图片数据后,将图片直接存储到盘阵,然后通过Apache做服务器,将图片信息存储到数据库,并且存储一个Apache的访问路径。 目前需要后台...

一枚Sir
2014/06/19
0
0
Java MongoDB : Save image example

Java MongoDB : Save image example In this tutorial, we show you how to save an image file into MongoDB, via GridFS API. The GridFS APIs are able to serve other binary files as w......

引鸩怼孑
2015/05/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

lua字符串和时间戳相互转换

1. 时间戳转成格式化字符串 直接利用函数os.date()将时间戳转化成格式化字符串.```local timestamp = 1561636137;local strDate = os.date("%Y/%m/%d %H:%M:%S", timestamp)print("strD......

书香神
43分钟前
1
0
代码规范

代码格式化 安装vscode插件:Prettier - Code formatter 格式化配置:将下列配置写入到vscode的settings.json文件 (遵照代码格式化) "prettier.disableLanguages": ["vue"], "prettier.......

TreeZhou0511
今天
5
0
python实现人工神经网络的一个例子

人工神经网络已经有无数的开源框架,比如tensorflow,caffe等,可以直接用。但最近需要做一个小样例,把基本思想讲一讲,因此自己写了一个demo,以供参考。 下面直接上代码,代码中有注释,比...

propagator
今天
6
0
远程dubugger

1、在tomcat的bin下/data/project/XXX/apache-tomcat-8.5.23/bin 在catalina.bat文件中新增如下即可 JAVA_OPTS="-Xmx1024m -Xms1024m -agentlib:jdwp=transport=dt_socket,server=y,suspend......

一只小青蛙
今天
3
0
jemter 连接MySQL

jemter 连接MySQL 点击测试计划,测试计划最后”添加目录或jar包到ClassPath“,点击浏览,添加mysql-connector.jar mysql-connector.jar的下载地址: https://mvnrepository.com/artifact/my...

xiaobai1315
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部