雪花Vs红移:云数据仓库的比较

数据仓库正在迅速转移到云端,并具有诱人的价格、独特的架构和高度可伸缩的解决方案——雪花和Redshift云数据仓库是目前行业中最强大的两个全面数据管理系统——数据存储、数据处理、数据清理、数据共享和数据分析。

比较雪花和亚马逊红移

随着公司从内部部署的传统数据仓库转向基于云的仓库,云数据平台有很多选择,如Redshift、Bigquery等。在这里,我们比较了目前最流行的两种数据仓库服务

功能 雪花 红移
维护 维护是自动化的,不需要人工干预。 Redshift需要系统管理员进行一些管理活动,因为它使用手动工作负载管理(WLM)来监视使用情况
数据结构 雪花支持结构和半结构化数据类型(JSON, AVRO) 红移可以无缝地处理结构化数据,但对于JSON等数据类型,有很大的速度影响
扩展 雪花可以立即扩展,而无需重新分配数据或中断用户 虽然Redshift也允许缩放,但向集群添加新节点可能需要几分钟到几小时。
集成 雪花缺乏与Amazon Technology的无缝集成,但与Informatica、IBM Cognos、Qlik、Power BI等集成得很好。 亚马逊Redshift与其他亚马逊产品和服务完美集成,如Athena, Glue, Glue,数据库迁移服务(DMS),构建一个完整的生态系统

潜入更深的雪花

作为业内相对较新的参与者,最近他们的首次公开募股筹集了33.6亿美元,让我们更深入地了解这家公司,以及是什么让他们的平台如此成功。

雪花是一种高性价比、功能强大且安全的云数据仓库。基于亚马逊网络服务(AWS)、谷歌云平台和微软Azure,雪花是一个纯粹的SaaS(软件即服务)产品,这意味着用户不需要物理或虚拟硬件设置,也不需要软件设置。

易于扩展且性价比高,雪花的显著特点是它将云计算与存储分开。基本上,您只需为所使用的容量和性能付费。使用Snowflake,您可以将所有数据存储在一个单一的地方,并使用多集群共享数据架构独立地调整您的计算,使您能够管理用户并在并发需求发生变化时查询并发需求。

体系结构

在较高的级别上,表中的数据存储在S3上,只消耗存储成本。除非执行DDL或DML查询,否则数据库没有附加计算机成本。您只需要支付计算成本,例如当您使用DDL语句创建数据库、模式或其他结构对象时。

例如,如果所有的建筑活动都需要30分钟,那么你只需要支付30分钟的计算费用。一旦结构就绪,就需要将一些数据加载到表中。如果数据加载每天需要2个小时,您再次只需要计算这2个小时的成本。其他相关成本仅用于存储。类似地,如果您每天运行3小时的查询,那么您将为这3小时的计算能力付费。

雪花的体系结构由三个关键层组成:

  • 数据库存储:在这一层,加载的数据在云中被重新组织为优化的、压缩的柱状格式。雪花处理数据存储的组织、元数据、压缩、统计和其他方面。雪花除支持Varchar和Number外,还支持JSON、AVRO、Parquet、XML、ORC等半结构化变量。
  • 查询处理:“处理层”运行查询。雪花处理查询使用“虚拟仓库”或“VW”。VW可以有不同的大小(单个节点或多个节点—只是VW内部的EC2实例)。每个虚拟仓库是一个独立的计算集群,不共享计算资源,对每个虚拟仓库的性能没有影响。
  • 云服务:云服务层是一组服务的集合,它们协调雪花上的活动。此层用作DDL和DML操作的SQL客户机接口。
    • 认证和访问控制
    • 基础设施管理
    • 元数据管理
    • 查询解析和优化
    • 安全

关键好处

  • 即时可伸缩性和性能:雪花提供即时数据仓库扩展,以处理高需求期和低需求期的并发瓶颈。
  • 利用标准的ANSI SQL:因为Snowflake使用标准SQL查询,所以不需要特殊的dba,因为大多数团队已经在他们的IT活动中使用SQL,这使得系统易于启动和快速运行。
  • 支持结构和半结构化数据:虽然其他数据仓库大多支持Varchar和数字数据格式,但雪花也支持非结构化数据类型,如JSON、AVRO、Parquet、XML和ORC。
  • 安全:雪花确保用户、帐户和数据的最高级别加密和安全。您可以查看安全特性的详细摘要在这里
  • 成本效益:雪花接口不跟踪空闲时间,只考虑使用时间。您只需要为存储和计算时间付费。
  • 云的好处:有了云基础设施,雪花不需要繁琐的硬件/软件设置要求,易于访问,可以自行维护和性能调优。

结论

为了从产生的大量数据中发现价值,公司需要一个存储、组织和分析数据的地方。如果您的组织拥有多样化的数据生态系统,那么两个系统中的任何一个——雪花或Redshift可能都适合您不断增长的业务。

Happyfox密切 Happyfox博客股票图片

Baidu