文档章节

节省60%费用!巧用阿里云归档存储降低基因测序成本

大大梁
 大大梁
发布于 2017/05/31 15:12
字数 1256
阅读 119
收藏 0

行业解决方案、产品招募中!想赚钱就来传!>>>

“如果有款存储产品能在保证业务正常运行的时候节省60%的成本,我会毫不犹豫选择它”。
我的工作是做生物基因测序的,我们公司很早就在云上搭建了数据分析平台(云的优势不多说了,省心省钱),数据通过采集设备生成后,会立即上传到云端进行预订的测序分析。当然了,考虑到算法更新,这些数据都是保存在云端的,有了新的分析方法就可以进行更多维度的分析,无需重新采集。
存储周期长是基因数据的特点,在采集后的最初几个月内会被频繁访问,对于数据实时的响应性要求极高。但经过开始的几个月后,原始数据访问频率就开始大幅下降,所以我们尽量会寻找不同访问特性的存储,去降低总存储成本。
之前我们用的一直是阿里云的OSS标准存储,虽然速度快、延迟低、吞吐能力强,但对我们业务的不同时期来说有些“性能过剩”。所以当我们看到阿里云新上线的归档存储OSSArchive的价格的时候,说句实话,挺惊讶的:毕竟这款产品比OSS便宜得多。然后又想到阿里云看的挺远,不免有些服气。
归档存储有多便宜呢?相比标准存储低了近60%,适用于长期(几年甚至更长时间)存储的归档数据取回。按照存储容量300TB来计算,如果使用归档类型存储一年是221184元,即使与300TB年存储包相比,也可节省11万元以上。

111

对基因行业,这是个非常大的惊喜,因为每个基因文件的大小在几GB到几十GB不等,随着基因测序的需求增加,存储规模增长非常快,其在总成本中占有的比例也在不断增大。
另一个吸引我的地方是归档存储采用的是OSS标准API,跟我们现有的数据管理与分析平台完全配套,无需进行平台改造。
归档存储的上手非常简单,我们经过了几天的方案验证后,很快完成了全新的业务架构搭建。
下面是一个归档类型Bucket创建、文件上传、查询、解冻与下载的简单流程:

1、创建归档类型的Bucket

首先通过控制台创建一个归档类型Bucket,当前阿里云OSS开放的是华北2(北京)区域,开通归档类型Bucket流程和其他存储类型Bucket是相同的。

22222

2、上传数据

OSS提供的ossutil工具可以自动根据文件大小适配上传模式,包括PUT 上传、分片上传。基因文件普遍都是GB级以上,需要通过分片机制,将大文件能够拆分成多个片段独立上传。

3、查询文件列表

OSS API和相关工具可以实时查询文件列表。

001

4、文件解冻

归档存储与标准类型在读取Object前,需要有一个Restore操作,按照OSSArchive文档中介绍,上传到归档类型的Object处于冷冻状态,需要先解冻后进入到可读取状态,Restore操作后需要等待1~4个小时的等待时间。

002

在Restore解冻过程中的Object会显示ongoing-request="true"。
解冻完成后,查询Object状态会显示解冻完成可以直接下载,expiry-date为过期时间,过期时间一到,Object会重新进入冷冻状态。

003

解冻操作是需要收取费用的,每解冻 1GB数据需要0.06元,所以不需要立即使用的Object还是让它安安静静的保存吧。解冻完成24小时后Object会重新回到冷冻状态,参考官网文档处于解冻状态下,可以通过多次调用Restore,使Object最长保持七天可读状态。

5、文件下载、读取分析

已经解冻的Object可以和标准类型的Object一样的下载方式 。
对于基因数据的管理,我们对每个基因文件的元信息使用了数据库保存,每个基因文件都会记录上传时期和近半年内使用信息,对于上传时间超过一定时期并且长期没有访问的基因文件,会从标准类型的Bucket中迁移到归档类型Bucket。
归档存储类型总体使用下来的体验不错,也给OSS产品提个建议吧,希望后期能支持加入Restore解冻完成的事件通知,现在应用程序实现中都是每隔一小时去获取下Restore的状态。

 

原文链接

大大梁
粉丝 0
博文 225
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
树莓派(Raspberry Pi):完美的家用服务器

自从树莓派发布后,所有在互联网上的网站为此激动人心的设备提供了很多有趣和具有挑战性的使用方法。虽然这些想法都很棒,但树莓派( RPi )最明显却又是最不吸引人的用处是:创建你的完美家用...

异次元
2013/11/09
6.5K
8
TDD的测试框架--Machine.Specification

Machine.Specification 是一个 TDD 测试驱动开发的测试框架,简化了测试,无需关心语言本身特性。 Machine.Specifications 带来的好处是不需要在代码里有注释,但同时阅读代码的人可以一目了...

匿名
2013/01/22
1.1K
0
集群存储系统--YFS

YFS集群存储系统由多个元数据服务器(MDS)、多个块数据服务器(CDS)和多个客户端(client)互联组成集群; 数据被分成64M固定大小的数据块(Chunk),每个数据块在CDS本地以常规文件的形式...

匿名
2013/02/19
1.8K
0
WebUI自动化测试框架--Dagger

Dagger是网易杭州研究院QA团队开发的一个轻量级、运行稳定的WebUI自动化测试框架,主要基于Selenium及TestNg可以认为是对Selenium进行二次封装的一个框架(俗称 造轮子 )。之所以把这个轮子...

ChenKan
2013/03/05
2.8W
6
阿里云开放存储服务的C语言SDK--OSSC

OSSC(Aliyun Open Storage Service C SDK)为阿里云开放存储服务(OSS)提供了一套完整易用的C SDK。 OSSC完全采用C语言开发,并实现了类似面向对象的调用方式,遵循了良好的编码规范,目前O...

大卷卷
2012/10/22
4.5K
0

没有更多内容

加载失败,请刷新页面

加载更多

开源FPGA单板iCESugar

随着产业的发展,近年来FPGA越来越得到市场的重视,5G、矿机、人工智能、图像识别、risc-v、通信等众多领域均可见到FPGA的身影,目前比较知名的FPGA厂商有xilinx、altera、lattice等,其中x...

whoisliang
10分钟前
0
0
合并记录帮助文档

合并记录步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据;该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并,并显示差异信息。接下来就详细介绍一下该步骤...

osc_slnrw1du
10分钟前
0
0
Spark之RDD转换算子(transformation)大全

前面已经给大家讲过RDD原理,今天就给大家说说RDD的转换算子有哪些,以便大家理解。 对于转换操作,RDD的所有转换都不会直接计算结果,仅记录作用于RDD上的操作,当遇到动作算子(Action)时...

osc_3nr2bq5w
11分钟前
0
0
自定义常量数据帮助文档

自定义常量数据步骤主要用于增加自定义字段和行集数据到流中,可增加多个字段并为每个字段赋予行集的值。步骤配置信息如图1所示。 图1 自定义常量数据步骤配置信息 下文详细解释各控件的含义...

osc_r9wwwi0j
12分钟前
0
0
Linux安装配置ftp(Ceonts 7)

1、安装vsftpd yum -y install vsftpd (我这里已经安装好了,只要不报错即安装成功) 安装完成后可以在/etc/vsftpd目录下看到vsftpd.conf 文件,这是vsftp的配置文件。 2、 添加一个ftp用户...

osc_tko37abm
13分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部