Snowflake将成为在云中变得更好的数据仓库
2019/9/20 13:21:21
作为一个快速简便的数据仓库,Snowflake可以动态扩展,以便在企业需要时为其提供所需的性能。 数据仓库,也称为企业数据仓库(EDW),是用于分析的高度并行的SQL或NoSQL数据库。它们允许企业从多个源导入数据,并从数PB的数据中快速生成复杂的报告。 数据仓库和数据集市之间的区别在于,数据集市通常仅限于单个主题和单个部门。数据仓库和数据湖之间的区别在于数据湖以其自然格式(通常是blob或文件)存储数据,而数据仓库将数据存储为数据库。 Snowflake简介 Snowflake是一个完全关联的ANSI SQL数据仓库,它是从头开始为云计算而构建的。它的架构将计算与存储分开,这样即使在查询运行时,用户也可以在不延迟或中断的情况下动态地扩展。当用户需要的时候,就能得到其所需要的性能,而且只需要为其所使用的计算资源支付费用。Snowflake目前运行在亚马逊网络服务和微软Azure云平台上。 Snowflake是一个具有矢量化执行的全列数据库,使它能够处理最苛刻的分析工作负载。Snowflake的自适应优化可以确保查询自动获得最佳性能,而无需管理索引、分发键或优化参数。 Snowflake凭借其独特的多集群共享数据架构可以支持无限制的并发性。这允许多个计算集群在同一数据上同时运行,而不会降低性能。Snowflake甚至可以自动扩展以通过其多集群虚拟仓库功能处理不同的并发需求,在峰值负载期间透明地添加计算资源,并在负载减少时缩小规模。 Snowflake的竞争对手 Snowflake在云端的竞争对手包括Amazon Redshif、Google BigQuery和Microsoft Azure SQL数据仓库。其他主要竞争对手,如Teradata、Oracle Exadata,MarkLogic和SAP BW/4HANA,可以安装在云端、内部部署和设备上。 Amazon Redshift Amazon Redshift是一个快速可扩展的数据仓库,可让用户分析数据仓库和Amazon S3数据湖中的所有数据。用户使用SQL查询Redshift。Redshift数据仓库是一个可以使用并发查询负载自动部署和删除容量的集群。但是,所有集群节点都在同一可用区中进行配置。 Microsoft Azure SQL数据仓库 Microsoft Azure SQL数据仓库是一个基于云计算的数据仓库,它使用Microsoft SQL引擎和MPP(大规模并行处理)快速运行跨PB数据的复杂查询。通过使用简单的PolyBase T-SQL查询将大数据导入SQL数据仓库,然后使用大规模并行处理(MPP)的强大功能运行高性能分析,用户可以将Azure SQL数据仓库用作大数据解决方案的关键组件。 Azure SQL数据仓库在全球40个Azure云区域中可用,但给定的仓库服务器仅存在于单个云区域中。用户可以按需扩展数据仓库性能,但任何正在运行的查询都将被取消并回滚。 Google BigQuery Google BigQuery是一个无服务器,高度可扩展且经济高效的云计算数据仓库,内置GIS查询、内置BI引擎和内置的机器学习功能。BigQuery可以快速运行数PB的SQL查询,并且可以直接加入公共或包含数据的商业数据集。 用户只能在创建时设置BigQuery数据集的地理位置。查询中引用的所有表必须存储在同一位置的数据集中。这也适用于外部数据集和存储桶。外部Google Cloud Bigtable数据的位置还有其他限制。在默认情况下,查询与数据在同一区域中运行。 其运行的地点可以是特定的地方,如弗吉尼亚州北部,也可以是更大的地理区域,如欧盟或美国。要将BigQuery数据集从一个区域移动到另一个区域,用户必须将其导出到与数据集位于同一位置的Google云存储桶,将存储桶复制到新位置,然后将其加载到新位置的BigQuery中。 Snowflake架构 Snowflake使用虚拟计算实例来满足其计算需求,并使用存储服务来持久存储数据。 Snowflake无法在私有云基础设施(内部部署或托管)上运行。 没有要执行的安装,也没有配置。所有维护和调整均由Snowflake处理。
下一页
返回列表
返回首页
©2025 存储世界--存储世界门户网站,存储资料和交流中心 电脑版
Powered by iwms