【观察】当红炸子鸡Snowflake

原创
10/25 01:21
阅读数 89

作为近期火爆的话题之一,snowflake的上市无疑吸引了很多人的眼球。那在其高涨的市值背后,又有着什么样的原因?它会一直火爆下去吗?云计算、大数据,这些似乎已经有些落伍的概念,为何又重新吸引了人们的眼球?本文综合了多篇资料,尝试从更多角度加以解读。

1. 初识Snowflake公司

     人生基本上就是两件事,选题和解题。最好的人生是在每个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,而且还不知道自己选错了题。正如人生最大的遗憾就是,不是你不行,而是你本可以。

1).基本情况:云数据服务公司

Snowflake Inc.是一家成立于2012年,总部位于加州圣马特奥,主营云数据存储的创业公司,旨在为客户提供一种基于云计算的数据存储、管理和分析服务。Snowflake在新加坡、加拿大、印度、美国和西欧设有25个办事处,员工总数达1400余人。它的启动资金为90万美元,但在创建当年,就拿下了 500万美元的融资。

上图是摘自Snowflake公司官网。从中可以看出,Snowflake主要提供云计算数据仓库解决方案,包括数据处理的多样化服务、数据扩容、数据计算资源动态整合、多区域多云以及数据的安全无缝共享。其产品能将原有的本地数据平台升级成为建立在Azure、AWS、GCP云厂商的解决方案,并为企业提供高性能、易扩张的环境去存储大规模的信息。

2).融资情况:多轮看涨,一路向上

Snowflake过去共经历了8轮融资,从上图中不难看出其估值的快速增长。这里面不乏红杉资本、巴菲特、Salesforce这些市场热点话题。目前仍处在亏损状态的Snowflake,在IPO阶段引来了巴菲特以及SaaS巨头Salesforce两家公司的双双押注。股神巴菲特和Salesforce的投资放大了这种看涨情绪,散户投资者纷纷买入该股。对于巴菲特近些年来一改过去长期投资、稳定保守风格,积极进驻科技股、概念股、创投股,此次投资Snowflake正是看好科技股概念。而Saleforce的出手,则背后含义更多。Salesforce近年来在资本市场上频频出手,2009年成立至今,已经超过500个投资,今年前半年刚刚完成对Tableau的收购。Salesforce正在积极布局以数据为中心的SaaS生态体系,CRM本身就是对客户数据的管理,而Tableau见长于数据可视化展现,而Snowflake会拥有客户的整个数仓数据。

3).创始团队:专业+行业+投资大咖组合

Snowflake管理者从左到右:联合创始人Benoit Dageville,首席执行官Frank Slootman,联合创始人Thierry Cruanes和首席财务官Mike Scarpelli。创始人们在2012年创立Snowflake的时候,都有20年左右的工作经验。该公司首席执行官弗兰克•斯洛特曼(Frank Slootman)在加入Snowflake之前已退休,此前他曾于2019年将ServiceNow和Data Domain带领上市。他接任的首席执行官鲍勃·穆格里亚(Bob Muglia)曾在微软待了23年,拥有丰富的数据库经验。说ToB行业越老越吃香并不为过,经验大于一切。如此深厚的资历、数据库领域的专业深度、硅谷技术圈、投资圈的人脉积累,都是Snowflake 成功IPO的要素。

4).业绩表现:高速、健康、未来可期

  • 业绩高速增长

业绩增长曲线(百万美元)(来源:招股书)

虽然仍在亏损状态,但Snowflake的净亏损已有收窄迹象:今年1月底,公司净亏损为3.485亿美元,截至今年7月末,净亏损降至1.772亿美元,毛利率由去年1月的46.5%升至61.6%。亏损收窄之外,爆发式增长的业绩更引人注目:2020财年,Snowflake的营收为2.65亿美元,同比增长174%。到2021财年上半年即截至今年7月末,其营收达到2.42亿美元,同比增长133%,第二季度收入同比增长121%,预计全年营收或将超5亿美元。 

  • 用户结构健康

《单客户平均销售额(美元)》(来源:招股书)

续约率越高、服务的客户越大型、客单价越高,意味着SaaS厂商的利润更高,模式越健康。截至2019年和2020年7月31日,在过去12个月产品收入中贡献超过100万美元的客户数量分别从22个增加到56个,说明Snowflake在大客户中的认可度很高且在不断提升。

5).技术架构:存算分离,服务独立

  • 存储层(Storage目前支持AWS S3和Azure Blob。所有数据在存储层被全部加密以及columnar压缩,最大限度的优化存储效率。理论上讲,存储层可以在无关计算资源的情况下进行无限扩容,所以我们不需要加任何节点就能自动沉淀所有数据,这也是为什么Snowflake也可以作为data lake的原因。

  • 计算层(Compute由诸多virtual warehouse组成,其本质就是处理数据的虚拟机节点。Snowflake很贴心地用T-shirt尺寸定义了算力,相比较其他云计算资源,极大地简化了provision的过程。由于计算层独立于存储层存在,我们可以想象出很多传统架构中遇到瓶颈的应用场景。譬如可以随时提高或降低计算资源以应对需求,可以在搬运数据的同时进行查询,可以给各个LOB提供合适的资源并独立出ETL和DevOps的处理需求。而最令人兴奋的是,这些不同计算资源看到的都是同一版本的数据。

  • 服务层(Services的独立是另一个Snowflake走在正确道路上的原因。它由众多global services组成,涵盖了我们传统意义上数据仓库的诸多admin任务,包括operation management,optimization,tuning,security,availability,metadata,caching等等。这一层还有transaction management这个重要的使命,对所有计算层的virtualwarehouse进行管理,保证不同的数据处理请求被高效稳定地应用在存储层的同一数据上。服务层解决了数据仓库易用性的问题,目前我还没有看到任何一款数据平台产品能够帮用户处理这么多的非功能性任务。即使是同为云数据仓库的Azure Data Warehouse,需要的管理和运维成本不可同日而语。

总结一句,Snowflake在公有云厂商即IaaS上再建了一个高扩展且集中管理的数据仓库—是云设施上的云


2. Snowflake公司上市

     人生基本上就是两件事,选题和解题。最好的人生是在每个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,而且还不知道自己选错了题。正如人生最大的遗憾就是,不是你不行,而是你本可以。

1).上市表现:美股今年最大IPO

Snowflake (NYSE:SNOW)于美国时间9月16日,在美国纽交所上市,发行价为120美元,首日开盘翻倍,开盘报245美元,上市首日市值高达708亿美元。截止10月23日(美国时间),其股价为265.05美元。下图是snowflake仅一个月来的股价变化。

在股市优异的表现背后,对比下同样来自数仓仓库的另两家企业。Teradata,老牌数仓厂商,已发展四十余年,连续十年数据仓库领域领导者厂商。Cloudera,大数据生态领导厂商,2018年与Hortonworks合并,是Hadoop的代表性厂商。Teradata,2019财年营收为18.99亿美元,但当前市值仅为27亿美元;成立于2008年的Cloudera,其2020财年营收达7.94亿美元,而当前市值也仅有39亿美元。即使仅以snowflake的较低市值估算,三者的对比也是惊人的。下图来自36氪据公开资料整理。

为什么人们对snowflake的预期这么高呢?

2).市值高的原因

  • 概念突出:云计算+大数据

从上图中可见,随着时代的变迁,市值高的企业呈现明显的行业特点。近些年来,以互联网软件为代表的企业处于风头浪尖。这其中又以人们常说的ABCD,最为最炙手可热。所谓的“ABCD”,即“AI”、“Blockchian”、“Cloud Computing”、“BIgData”的首字母。Snowflake正是占据了云计算与大数据两项概念加成。

  • 业绩突出:现状良好+预期空间巨大

从之前对snowflake的介绍可知,其近段时间的业绩表现良好。但更为重要的是未来市场空间巨大,仍有很大上涨空间。根据Snowflake预测,截至2020年1月31日,云数据平台的潜在市场机会约为810亿美元;根据IDC数据,数据管理和商业智能等分析工具的市场将在2020年底达到560亿美元,到2023年将达到840亿美元;Snowflake数据共享能力的市场目前尚未被量化,潜力巨大。


3. Snowflake产品技术特点

     人生基本上就是两件事,选题和解题。最好的人生是在每个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,而且还不知道自己选错了题。正如人生最大的遗憾就是,不是你不行,而是你本可以。

受到如此火爆的追捧,snowflake从技术、产品直到战略,都有着自己独到之处。可以说snowflake的发展过程,既是云原生技术体系逐步商业化落地的过程,更是几位领导者对”商业+技术”孜孜不倦的探索和追求,最终实现并释放出巨大商业价值的过程。一切看似意外,实则顺理成章。下面我就择其主要关键几点加以说明:

1).抓住风头,全栈上云

云计算技术正在重构整个IT基础设施,作为基础软件之一的数据库也不例外。我们可以看到软硬件在一切基础设施中逐渐被解耦。硬件的更新迭代速度必然会进一步放缓或者变得不那么重要,成本进而更加透明和标准。这一变革正在发生并不断加速,有更多的用户享受云端带来的便捷、弹性。而Snowflake很好地抓住了这一时间点。其首先完成的就是“ALL IN CLOUD”,搭上云计算这趟高速列车。其全部云化的商业模式,将其与传统企业级商业套件区别开来。因为其相信,未来一定是属于公有云的。

我们看个简单的对比,以数据库传统巨头Oracle、转型者Microsoft和后来者Amazon在数据库市场的变化趋势可以看到。云战略对数据库市场发展的影响有多么巨大。当年Oracle一家独大的格局正以肉眼可见的速度被瓦解。再看看另外一些后起之秀,专门为机器学习和自动学习等大规模数据处理而生的Databricks(年初完成F轮融资,估值62亿美金),以及托管文档型数据库公司MongoDB(当前市值156亿美金)等等。

2).独立自主,混合为上

Snowflake在云端的战略上,没有选择自己构建云基础设施,而是将底层构建在几乎所有主流公有云服务提供商。这也是Snowflake精准的判断对了未来云计算的发展形势,必然在“多云”环境。在大企业(尤其是Snowflake针对的Fortune 500客户)中,通常都是用混合云架构,即使在管理上有各种不便,即使每个云厂商也都有与Snowflake竞争的产品(AWS Redshift, GCP BigQuery,Azure ADW);但就是因为大企业怕绑定到单一云厂商,失去议价能力。Snowflake敏锐观察到这点,从初始就选择了技术独立性,与多云环境适配,这样就可以解决潜在的数据迁移这一云计算的大难题。

不同云厂商产品各有其优势,加之大企业内部关系复杂,使用混合云策略,可以很好地兼顾这些问题。这也是给第三方供应商提供了更好的机会。通过第三方供应商能够在云上对线下及云端、关系型和非关系型数据库进行统一管理后,以往由于被保存在不同地方而造成的数据孤岛问题便消失了。与此同时,通过创建了一个统一入口,让用户能够按照以往访问关系型数据库的语言,对背后所有的数据库进行访问,几乎不改变原有使用习惯,这样大大降低了使用复杂度。

基于上面两点,依托三大公有云厂商,Snowflake的“云数仓”的架构让客户能够以低成本、高效率随时扩容和缩容。Snowflake平台还具有在任何云上工作的优势,并允许客户在不同的云之间转移数据,这是其竞争对手—“大型且成熟的公有云提供商,包括AWS、Azure和GCP”—难以提供的。

3).真云架构,存算分离

从上世纪70年代后期提出的数仓概念后,一直存在两个核心问题:存储与计算。在之前的架构中,计算与存储的能力是固定比例的,用户在购买之初就进行了限定。但是随着对数据分析需求的不断增长、分析方式的不断变化,这种固定比例的方式早已不在适用。随着云计算的兴起,有不少厂商基于云基础设施构建数仓,但很多都是一种“伪云”架构。如下图是以AWS的redshift为例,用户申请的计算资源是与固定一组的存储资源对应。计算资源与存储资源可实现一定程度的ScaleUp和ScaleOut,但其还是依赖于固定比例,而没有做到真正解耦。

而Snowflake则完全摒弃了这一点。基于三大公有云基础实施,实现两者的完全独立。

4).收费后置,量化过程
作为通常的系统软件的计费方式,通常是需要按固定年费提前支付。尤其对于
成本节省型产品,但由于无法量化往后的使用程度或深度,客户更加难以衡量投入产出比,所以仍会造成一定使用门槛。某种程度来讲,这是对客户的一种不公平。客户经常抱怨,收费被前置,看不到效果;使用过程不透明,成本无法量化。而Snowflake的商业模式,客户不再提前支付一笔固定年费,平台将完全根据客户在使用过程中实际消耗的计算和存储用量进行结算—实现成本可测。 其次,基于对单位资源消耗的真实统计,客户才能与传统模式下各个环节的投入进行对比,最终获得跟报告里一样精准的ROI—实现回报可测。 而这种更为真实的“按需付费”模式的背后,是一套全新的产品设计和技术架构。在成本核算上,存储成本已经比较透明,但计算的成本差异很大。用户可根据自身的需求和预算选择如何计算。通过对存储和计算解耦,用户的成本得以量化且可控在计费模式上,存储的价格跟其他公有云并无差异,但是计算的价格则被分成了八个等级(如同选购T-Shirt一样),以便客户根据需求单独对存储或计算扩容。而在需求下降时,平台还自动为客户缩容。

以往使用公有云时,到底消耗了多少存储和多少计算资源,任何厂商都不会向客户透露。但在Snowflake这里,存储是存储,计算是计算,服务是服务,构成了其产品的三层架构。

5).回归初心,定位数仓
Snowflake对自己的定位是一家企业“数据仓库”的云服务提供商。曾经有一段时间,各种各样的数据使用理念层出不求。不过从近几年的发展来看,大家视线逐渐清晰,回归数据的实质,发现企业的经营数据、结构化数据才是数字化转型的重中之重、立足之根本,所以技术路线都逐步调整在如果构建好大数据下的企业新一代数据仓库之上。以Cloudera为例,2012、2013年红极一时,现在的光景令人唏嘘。所以,无可厚非的一点,大数据未来之路在于企业数仓这块阵地的争夺。Snowflake作为拥有全新数仓技术架构的技术公司无疑切中了要害。

6).统一服务、数仓升级

Snowflake在依托底层的公有云基础设施之上,构建了完善的数据服务能力。通过统一、标准化的服务,支持企业内部各类数据应用。与此同时,Snowflake还着眼于企业外部,在其客户之间建立共享数据的平台。形成具备一定网络效应的数据共享平台,更进一步发挥数据价值。将传统数据仓库的内容,进一步向外延伸…并形成如下图所示的路径。基于多云架构,构建云原生数据仓库,再升级到云数据平台,并最终形成数据云服务。真正实现了DaaS(Data as a Service)。

7).总结:数仓演进之路

从Snowflake的产品技术发展特点,可以勾勒出数据仓库演进的一条路径。

  • Shared-disk DW

    传统数仓,受限于单机计算与存储资源。后来,以Oracle RAC为代表的Shared-disk架构,解决了部分计算资源不足问题,但针对存储的容量、性能需求无法满足。其巅峰代表就是Oracle Exadata。

  • Shared-nothing DW

    随之发展出的Shared-nothing架构,其大大突破了原有架构的规模限制,可提供非常大的存储与计算能力。但两者仍然具有一定绑定关系,无法完全解耦;同时在弹性、性能、成本等上仍有不足。其典型代表就是Greenplum。

  • Half-cloud DW (IaaS)

    之后出现的云基础设施,解决了部分上述问题。数仓可基于云端环境进行构建,但实质上还是基于底层Iaas能力,没有解决根本性问题。其资源上没有实现存算分离,仍然会导致数据本身大量的迁移。比较典型的产品是AWS Redshift。

  • Cloud-native DW(PaaS)

    云原生数仓,解决了存算分离的问题,从本质上解决了以往架构的痛点。用户在容量、性能上几乎没有了限制。比较典型的如BigQuery。

  • HybirdCloud DW(DBaas)

    在云原生数据仓库的基础上,不在局限在某一云厂商,而是提供了多云的能力,暴露出独立的数据库类的服务。例如Snowflake。

  • Cloud-service DW(SaaS)

    暴露出独立的数据仓库服务,不在是以PaaS的形式输出,而是以更高阶的SaaS服务。用户只需关心服务层面,而不用下沉到具体的计算资源、存储资源等层面。例如Snowflake。

  • Data-service Cloud(DaaS,Data Cloud)

    以数据为主要核心的服务形式,不在局限于底层细节处理。尚无产品达到这一阶段…有些理想化吧


3. 写在最后:方兴未艾的数据()库市场

     人生基本上就是两件事,选题和解题。最好的人生是在每个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,而且还不知道自己选错了题。正如人生最大的遗憾就是,不是你不行,而是你本可以。       

今天谈到的Snowflake,只是数仓领域的一个缩影。从Snowflake受到资本市场的关注,可以看出数仓(或者说数据分析领域)仍会是未来基础设施中非常值得关注的方面。进一步说,数据本身将在未来发挥更大的作用。




韩锋频道:

关注技术、管理、随想。


长按扫码可关注





本文分享自微信公众号 - 韩锋频道(hanfeng_channel)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部