雪花Vs红移:云数据仓库的比较

数据仓库是快速移动到云上和有吸引力的定价,独特的架构,和高度可伸缩的解决方案——雪花和红移云数据仓库中两个最强大的系统行业目前整体数据管理——数据存储、数据处理、数据清理、数据共享和数据分析。

比较雪花与亚马逊红移

随着企业从本地的传统数据仓库转向基于云的仓库,云数据平台有许多选择,如Redshift、Bigquery等。这里我们比较了目前可用的两种最流行的数据仓库服务—

功能 雪花 红移
维护 维护是自动化的,不需要人工干预。 Redshift需要系统管理员进行一些内务活动,因为它使用手动工作负载管理(WLM)来监视使用情况
数据结构 Snowflake支持结构和半结构化数据类型(JSON, AVRO) Redshift可以无缝地处理结构化数据,但对于JSON之类的数据类型,则有很大的速度影响
扩展 雪花可以在不重新分配数据或中断用户的情况下立即扩展 虽然Redshift也允许缩放,但添加新节点到集群可能需要几分钟到几个小时。
集成 Snowflake缺乏与Amazon Technology的无缝集成,但在Informatica、IBM Cognos、Qlik、Power BI等平台上表现良好。 亚马逊Redshift与其他亚马逊产品和服务如Athena, Glue, Glue, Database Migration Service (DMS)完美结合,构建了一个完整的生态系统

向雪花深处潜水

作为行业中相对较新的参与者,他们最近的首次公开募股(ipo)筹集了33.6亿美元,让我们更深入地了解这家公司,以及是什么让他们的平台如此成功。

Snowflake是一款性价比高、功能强大且安全的云数据仓库。基于Amazon Web Services(AWS)、谷歌Cloud Platform和Microsoft Azure, Snowflake是一个纯SaaS(软件即服务)产品,这意味着用户不需要物理或虚拟硬件设置,也不需要软件设置。

易于扩展且非常划算,Snowflake的特色在于它将云计算与存储分离开来。基本上,您只需为所使用的容量和性能付费。使用Snowflake,您可以将所有数据存储在单个位置,并使用多集群共享数据架构独立地调整计算的大小,该架构使您能够在用户和查询并发性需求发生变化时管理它们。

体系结构

在高层次上,表中的数据存储在S3上,并且只消耗存储成本。除非您正在执行DDL或DML查询,否则数据库没有附加的计算机成本。您只需要支付计算成本,例如使用DDL语句创建数据库、模式或其他结构对象时。

例如,如果所有的建筑活动都需要30分钟,那么你只需要为30分钟的计算付费。一旦结构就位,就需要将一些数据加载到表中。如果每天的数据加载时间为2小时,则只需重新计算这2小时的计算成本。另一个相关的成本将只用于存储。类似地,如果您每天运行3个小时的查询,您将为3个小时的计算能力付费。

雪花的体系结构由三个关键层组成:

  • 数据库存储:在这一层,加载的数据在云上被重新组织成优化的、压缩的柱状格式。组织、元数据、压缩、统计和数据存储的其他方面都由Snowflake处理。Snowflake除了支持Varchar和Number外,还支持JSON、AVRO、Parquet、XML和ORC等半结构化变量。
  • 查询处理:“处理层”运行查询。雪花处理查询使用“虚拟仓库”或“大众”。VW可以是不同大小的(单个节点或多个节点——只不过是VW内部的EC2实例)。每个虚拟仓库是一个独立的计算集群,不共享计算资源,不影响每个虚拟仓库的性能。
  • 云服务:云服务层是协调整个Snowflake活动的服务集合。这一层用作DDL和DML操作的SQL客户端接口。
    • 认证和访问控制
    • 基础设施管理
    • 元数据管理
    • 查询解析和优化
    • 安全

关键好处

  • 即时可伸缩性和性能: Snowflake提供即时的数据仓库扩展,以处理在高需求和低需求时期的并发瓶颈。
  • 利用标准的ANSI SQL:因为Snowflake使用了标准的SQL查询,所以不需要特殊的dba,因为大多数团队已经在他们的IT活动中使用了SQL,这使得系统很容易启动并快速运行。
  • 支持结构和半结构化数据:虽然其他数据仓库大多支持Varchar和数字数据格式,但Snowflake也提供了对非结构化数据类型的支持,如JSON、AVRO、Parquet、XML和ORC。
  • 安全:雪花确保最高级别的加密和安全的用户,帐户,和数据。您可以查看安全特性的详细摘要在这里
  • 成本效益:Snowflake接口不跟踪空闲时间,只考虑使用时间。您仅为存储和计算时间计费。
  • 云的好处:有了云基础设施,Snowflake没有繁琐的硬件/软件设置要求,易于访问,处理自己的维护和性能调优。

结论

为了从产生的海量数据中找到价值,公司需要一个存储、组织和分析数据的地方。如果您的组织有一个多样化的数据生态系统,那么Snowflake或Redshift这两种系统可能最适合您不断增长的业务。

Happyfox密切 Happyfox博客图片