12月10日,《火山引擎ByteHouse云数仓居品白皮书》在线上发布。
在数字经济蕃昌发展的今天,企业靠近着数据量爆炸性增长、数据分析需求日益复杂的双重挑战。传统的数据仓库管制决策照旧难以得志企业对数据处理速率和活泼性的高条目。为了大意这些挑战,火山引擎于2021年精致推出ByteHouse——专为云原生环境接洽的高性能数据仓库居品。早在2022年头,ByteHouse在抖音集团里面的部署限制已卓著1万8000台,最大的集群限制在 2400 余个节点,管制总和据量卓著700PB,况且依然在欺压增长,对外也经过游戏、汽车、泛互联网等无边行业,数百个运用场景和数万用户检会,
本次发布《火山引擎ByteHouse云数仓居品白皮书》从接洽理念、居品架构、中枢才气、场景上风等多维度先容ByteHouse在OLAP领域的居品和工夫先进性,以及若何达成高性能、高剖判、高安全。不单是聚焦OLAP领域,通过集成向量检索、全文检索、GIS等功能,ByteHouse抓续拓展才气界限,并建筑涵盖集成、斥地、运用的坎坷游生态。除此以外,基于SSB 和 TPC-DS 圭臬测试集,白皮书也公开了ByteHouse在OLAP、ELT等场景下的最新性能效率。在运用场景方面,白皮书则从OLAP中台建筑、步履分析、车联网IoT三个场景为企业提供数据分析最好履行参考。
据先容,ByteHouse云数仓版具备“快”“稳”“省”三个中枢特质,不仅能保险高效处理海量数据,即时反映复杂查询,还能攻讦多系统的各式冗余和复杂度,教授合座剖判性,并达成资源、运维资本最优。
有多快?公布圭臬测试集下性能最新效率
在数据处理和分析的领域,教授查询效率恒久是一项关键挑战。在遴荐OLAP引擎时,性能是遑急计算身分。高性能的OLAP具有快速的数据处理才气,并裁汰反映时期,提供更好的用户体验,使数据分析和查询愈加指点和浅显。
SSB 和 TPC-DS 是常用于测试分析型数据库/数据仓库的数据集,被庸碌运用于数据仓库领域。在白皮书中,通过禁受以上数据集,ByteHouse展示了OLAP、ELT、湖仓一体场景中,与行业同类居品比拟的性能进展。
在OLAP场景中,以TPC-DS数据集测试为例,通过将模拟生成的 1000G 数据导入测试居品,在 99 个查询中,ByteHouse 对比行业某主流开源居品D*,合座查询性能达到该居品 1.16 倍。在ELT场景中,BSP气象下ByteHouse 对比某主流开源居品 S* ,合座查询性能达到该居品 6.05 倍。在湖仓一体场景中,ByteHouse 对比开源居品 S*,Hive Parquet外在查询(冷读),合座查询性能达到该居品 1.18 倍。
金瓶梅在线
TPC-DS 1TiB: ByteHouse云数仓(2.2) 228s, 开源居品D(2.1.1) 264s,超越16%
除此以外,在Vector及GIS分析场景中,ByteHouse对比行业同类居品也有赫然性能上风。这意味着,ByteHouse让企业在享受极致性能的同期,无需引入其他架构,就能使用翰墨检索、地舆空间分析、向量检索才气。企业只需用一套架构就能得志多元化分析需求,量入为用企业资源东说念主力资本,教授数据遵循。
ByteHouse工夫大家魁岸月也在发布会上揭秘了性能教授的关键工夫。在OLAP性能教授方面,ByteHouse从RBO(基于法规的优化才气)、CBO(基于代价的优化才气)、分散式经餬口成方面推出了自研优化器,大概准确的接洽出效率最大化履行旅途,大幅度攻讦用户查询时期。同期,ByteHouse也通过高并发点查管制索引接洽粗重、点查读放大严重、履行链路冗长、锁竞争浓烈等问题,进一步教授数据处理效率。
能多稳?将任务告捷率教授至100%
数据在加载参加数据仓库之前,时常要经过复杂的数据清洗和改换过程,由此需要引入外部引擎,导致架构相对复杂,而ByteHouse全面复古Extract-Load-Transform (ELT)的才气,把数据加工的过程振荡到ByteHouse里面,用户只需将数据导入,用自界说SQL语句进行数据改换,攻讦多系统的各式冗余和复杂度,教授用户体验,并进一步增长了系统帅会性。
据先容,为了简化数据链路、教授任务并行度,ByteHouse在传统的MPP援助模子以外,新增了BSP援助模子(Bulk Synchronous Parallel),通过各个stage逐层援助、数据写盘,使得每个阶段和任务王人愈加沉寂,攻讦了任务失败的概率,并提高了资源使用的效率。除此以外,ByteHouse还在离线任务加工中的任务级重试功能,当功课的某个任务失败时,无需统统这个词功课重新履行,仅重试失败任务,显耀攻讦了重试的资本,教授了功课的告捷率。针对业务数据经常更新的特质,ByteHouse对写入经由进行了大王人优化。通过并行化最耗时的数据写入部分,并在写入过程中标志需要后续去重功课的数据,达成高效的数据更新。
ByteHouse工夫大家游致远以某数字文娱公司例如,该公司通过引入ByteHouse来构建一体化数仓,从2024年10月15日、16日、17日数据来看,任务的告捷率在永诀提高了6.6%、4.4%和2.9%,合座告捷率为100%。通过对关键大表增多并行度,该公司的离线任务合座内存峰值攻讦了约40%,灵验减少了内存溢出的风险,合座教授了数据处理的及时性和剖判性。
若何省?打造新一代“弹性”云数仓
当下企业的业务流量时常具有很大的概略情趣。例如,电商平台在 “618”“双 11” 等促销行径时间,走访量会呈爆发式增长,可能是平淡的十倍以致百倍,导致系统无法承载如斯高负载而崩溃。这就条目底层数据库具备“弹性”机制,能笔据流量情况自动伸缩资源,在得志业务波峰需求同期量入为用资本。
而弹性恰是云原生架构的中枢本性。ByteHouse云原生弹性才气允许企业笔据本体需求动态调整资源,只在需要的时候分拨资源,达成随开随用,不使用时自动暂停,暂停时间不收取任何接洽层用度,从而攻讦了资本。
ByteHouse自动启停计谋,匡助用户资本量入为用20%+
在白皮书发布会上,ByteHouse居品司理孔柏林先容到,在存储层面, ByteHouse禁受 Serverless 架构,具有低资本、无穷推广的才气。在接洽层面,ByteHouse则基于PaaS 气象,通过容器化达成无情状或弱情状,将统统这个词接洽组包装成佃户和运用呈现给用户,保证佃户之间不会发生资源征用松懈或性能劣化,让接洽资源在秒级内达成弹性拉起和弹性扩缩容。恰是由于禁受接洽资源禁受PaaS 神志,ByteHouse能让用户灵验幸免不门径 SQL 形成的过多资源虚耗,且计价气象禁受资源用量(CPU)神志,确保用户对账单可预期。
以中国某驰名游戏厂商为例,该厂商基于ByteHouse构建了一体化及时数仓平台,具备及时数据接入、及时 ETL 数据加工、及时维表相关和及时数据劳动等才气,不仅能复古20万+QPS高并发点查,性能提高2倍以上,在资源用量上,比之前架构减少了30%资本。
温雅字节跨越数据平台微信公众号人妖 av,菜单栏「精选内容-白皮书」即可领取《ByteHouse云数仓居品白皮书》白皮书原文。
- 人妖 av 一日游|周末从广州坐船到香港,吃喝玩乐全攻略 2024-12-08