文档章节

转-开源分布式文件系统比较

玉龙
 玉龙
发布于 2012/03/13 10:33
字数 2004
阅读 621
收藏 6
from: http://www.lnmpblog.com/archives/323
要使用分布式文件系统来降低成本,于是搜寻了开源的分布式文件系统。经过安装部署和测试,把我使用中碰到的一些问题总结一下, 希望对大家有所帮助, 我也有一些问题没有搞懂,希望和大家一起交流,共同进步。
第一:CEPH
网上搜索了一些资料,说 ceph 性能最高,C++编写的代码,支持Fuse,并且没有单点故障依赖,于是下载安装,由于 ceph 使用 btrfs 文件系统, 而btrfs 文件系统需要 Linux 2.6.34 以上的内核才支持, 显然我使用的 RHEL5 的内核还不支持 btrfs文件系统, 于是下载最新的内核进行升级, 搞了2天没有升级成功, 编译一次都要耗费1个多小时才能完成,最后发现最新版的 ubuntu 系统支持btrfs文件系统, 于是安装 ubuntu 的虚拟机,btrfs 文件系统搞定了, 但是启动ceph的相关进程出错, 无法启动成功。所以谈不上对其进行过测试。
CEPH中使用了一个比较先进的算法 crush算法, 据翻译出来,为分布式基于对象的存储系统设计了一个可升级的伪随机的数据分布函数,它能够有效地管理数据对象和存储设备,而不需要通过一个中心目录。由于大系统都是动态的,CRUSH被设计成为一个当把不需要的数据迁移最小化时,能方便的增加或移除存储设备。这个算法提供了一个大范围的不同种类的数据复制和可靠性机制,以及根据用户自定义的策略来分配数据,这种策略迫使数据复制从故障领域分离出来。
另外CEPH使用的文件系统为btrfs, 这个文件系统具有很多先进的特性, 为下一代Linux使用的文件系统。
BTRFS最终可能会给ZFS等带来更多威胁,它具有在线碎片整理功能(只有固态盘有这项功能)、Copy-On-Write技术、数据压缩、镜像、数据条带和快照等等。
另外,BTRFS在数据存储方面比ext更完善。它包括一些逻辑卷管理和RAID硬件功能,可以对内部元数据和用户数据进行检验和,同时内嵌了快照功能。ext4也可以实现以上一些功能,但是需要与文件系统和逻辑卷管理器进行通信。
这么多先进的功能, 可惜现在还无法消受啊。。。。。。
第二:glusterfs
网上说glusterfs比较不错, 稳定,适合大型应用, 关键是 没有单点故障依赖,C语言的代码, 支持FUSE,于是下载安装研究。 安装配置还算简单,启动后进行测试。
开始感觉确实不错,很爽。 后来用压力测试工具对其吞吐量进行测试 , 发现性能不能满足我们的生产需求,不知道是哪里的配置问题,
我们测试的都是大文件的读操作和大文件的写操作, 吞吐量在 5MB/秒左右, 显然不能满足要求。但是没有找到具体的瓶颈,毕竟程序是别人写的,要查瓶颈也不容易。
关于 glusterfs的详细的资料, 可以看这位弟兄的文章, 他做的比较深入。 http://zhoubo.sinaapp.com/?cat=22
第三:moosefs
这个网上说性能不错, 有单点故障依赖, C代码编写,支持FUSE, 下载试试吧。
安装配置还算简单。很快就搭建好环境了, 于是进行测试。 测试性能还不错。吞吐量在15MB/秒以上。
第四:mogilefs
网上说这个是性能最高的, 不过是perl编写的代码, 对外提供API来进行使用, 搭建相对比较复杂一点, 因为需要安装很多依赖的第三方perl包,另外还要安装Mysql数据库来支持。
安装完毕后, 服务器端起来了, 客户端有JAVA, PHP,  PERL, RUBY 等开发的, 我需要的是要支持 FUSE 的, 但是这个分布式的文件系统,对FUSE的支持需要安装一个PERL与C通信的模块, 这个模块死活编译不过去, 最后无法测试成功,无奈只能有时间了继续研究。
第五:fastDFS
网上说是“国人在mogileFS的基础上进行改进的key-value型文件系统,同样不支持FUSE,提供比mogileFS更好的性能”, 这不是扯蛋吗 ? Mogilefs 是perl写的, 如果 fastDFS是在 mogilefs 的基础上改进的话, 应该也是perl写的, 但是下载了fastDFS的代码后, 人家都是C的代码, 怎么可能是在mogilefs的基础上改进呢 ?看了一下fastDFS具体的结构,准确的说应该是“借鉴了MogileFS的思路”,而不能说“在MogileFS的基础上改进”。
我安装了一下, 安装还算简单, 不支持fuse, 上传文件后会生成一个http的下载地址, 通过http的方式进行下载。这种方式显然不适合我想要的生产环境。
下面是一个网友写的 FastFDS和MogileFS的对比文章, 感觉比较客观真实, 所以在这里给大家转帖一下。
FastDFS设计时借鉴了MogileFS的一些思路。FastDFS是一个完善的分布式文件存储系统,通过客户端API对文件进行读写。可以说,MogileFS的所有功能特性FastDFS都具备,MogileFS网址: http://www.danga.com/mogilefs/
另外,相对于MogileFS,FastDFS具有如下特点和优势:
1. FastDFS完善程度较高,不需要二次开发即可直接使用;
2. 和MogileFS相比,FastDFS裁减了跟踪用的数据库,只有两个角色:tracker和storage。FastDFS的架构既简化了系统,同时也消除了性能瓶颈;
3. 在系统中增加任何角色的服务器都很容易:增加tracker服务器时,只需要修改storage和client的配置文件(增加一行tracker配置);增加storage服务器时,通常不需要修改任何配置文件,系统会自动将该卷中已有文件复制到该服务器;
4. FastDFS比MogileFS更高效。表现在如下几个方面:
(1)参见上面的第2点,FastDFS和MogileFS相比,没有文件索引数据库,FastDFS整体性能更高;
(2)从采用的开发语言上看,FastDFS比MogileFS更底层、更高效。FastDFS用C语言编写,代码量不到2万行,没有依赖其他开源软件或程序包,安装和部署特别简洁;而MogileFS用perl编写;
(3)FastDFS直接使用socket通信方式,相对于MogileFS的HTTP方式,效率更高。并且FastDFS使用sendfile传输文件,采用了内存零拷贝,系统开销更小,文件传输效率更高。
5. FastDFS有着详细的设计和使用文档,而MogileFS的文档相对比较缺乏。
6. FastDFS的日志记录非常详细,系统运行时发生的任何错误信息都会记录到日志文件中,当出现问题时方便管理员定位错误所在。
7. FastDFS还对文件附加属性(即meta data,如文件大小、图片宽度、高度等)进行存取,应用不需要使用数据库来存储这些信息。
8. FastDFS从V1.14开始支持相同文件内容只保存一份,这样可以节省存储空间,提高文件访问性能。
第六:Lustre
本来还对这个分布式文件系统抱有无限的希望, 被Oracle公司收购后, 这个东西连下载地址都没有了。狂晕一吧!!!
如果那个弟兄找到下载地址, 麻烦给通知一下, 谢谢。

© 著作权归作者所有

玉龙
粉丝 6
博文 69
码字总数 124355
作品 0
昌平
高级程序员
私信 提问
加载中

评论(1)

Trial
Trial
fsstore
品味FastDFS~第一回 认识FastDFS

参考文章:http://www.oschina.net/p/fastdfs/ FastDFS是一款类Google FS的开源分布式文件系统,它用纯C语言实现,支持Linux、FreeBSD、AIX等UNIX系统。它只 能通过专有API对文件进行存取访问...

mcy247
2017/12/07
0
0
各大网站架构总结笔记(续)【转】

转自:http://www.cnblogs.com/sxwgf/archive/2011/08/16/2141632.html 前段时间给大家介绍过各大网站架构总结笔记(MySpace、Flickr、YouTube、PlentyOfFish、WikiPedia),喜欢架构的朋友可...

tp_wire
2012/04/05
0
0
史上最全的“大数据”学习资源(上)[转]

从网上转的 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展...

强子哥哥
2016/05/04
302
0
[转]开源推荐系统框架

以下内容是转至盛大创新研究院官方博客的一篇文章http://in.sdo.com/?p=1707,文中几乎涵盖了当今主流的推荐系统开源软件,我把全文都贴过来了,不过与原文不同的是我把有些已经停止更新/或者...

daos
2017/10/17
0
0
Apache Cassandra 初体验 :安装和简单的demo

Apache Cassandra是一个开源的分布式数据库管理系统。它最初由Facebook开发(后来捐献给开源社区,现在 他们内部是用的是一个非开源的分支),用于储存大数据的信息。 主要特性: 分布式 基于...

小编辑
2010/05/25
3.3K
0

没有更多内容

加载失败,请刷新页面

加载更多

lua字符串和时间戳相互转换

1. 时间戳转成格式化字符串 直接利用函数os.date()将时间戳转化成格式化字符串.```local timestamp = 1561636137;local strDate = os.date("%Y/%m/%d %H:%M:%S", timestamp)print("strD......

书香神
23分钟前
0
0
代码规范

代码格式化 安装vscode插件:Prettier - Code formatter 格式化配置:将下列配置写入到vscode的settings.json文件 (遵照代码格式化) "prettier.disableLanguages": ["vue"], "prettier.......

TreeZhou0511
今天
4
0
python实现人工神经网络的一个例子

人工神经网络已经有无数的开源框架,比如tensorflow,caffe等,可以直接用。但最近需要做一个小样例,把基本思想讲一讲,因此自己写了一个demo,以供参考。 下面直接上代码,代码中有注释,比...

propagator
今天
5
0
远程dubugger

1、在tomcat的bin下/data/project/XXX/apache-tomcat-8.5.23/bin 在catalina.bat文件中新增如下即可 JAVA_OPTS="-Xmx1024m -Xms1024m -agentlib:jdwp=transport=dt_socket,server=y,suspend......

一只小青蛙
今天
2
0
jemter 连接MySQL

jemter 连接MySQL 点击测试计划,测试计划最后”添加目录或jar包到ClassPath“,点击浏览,添加mysql-connector.jar mysql-connector.jar的下载地址: https://mvnrepository.com/artifact/my...

xiaobai1315
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部