
12月10日,《火山引擎ByteHouse云數(shù)倉產(chǎn)品白皮書》在線上發(fā)布。
在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,企業(yè)面臨著數(shù)據(jù)量爆炸性增長、數(shù)據(jù)分析需求日益復(fù)雜的雙重挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)倉庫解決方案已經(jīng)難以滿足企業(yè)對數(shù)據(jù)處理速度和靈活性的高要求。為了應(yīng)對這些挑戰(zhàn),火山引擎于2021年正式推出ByteHouse——專為云原生環(huán)境設(shè)計的高性能數(shù)據(jù)倉庫產(chǎn)品。早在2022年初,ByteHouse在抖音集團內(nèi)部的部署規(guī)模已超過1萬8000臺,最大的集群規(guī)模在 2400 余個節(jié)點,管理總數(shù)據(jù)量超過700PB,并且依然在不斷增長,對外也經(jīng)過游戲、汽車、泛互聯(lián)網(wǎng)等眾多行業(yè),數(shù)百個應(yīng)用場景和數(shù)萬用戶錘煉,
本次發(fā)布《火山引擎ByteHouse云數(shù)倉產(chǎn)品白皮書》從設(shè)計理念、產(chǎn)品架構(gòu)、核心能力、場景優(yōu)勢等多維度介紹ByteHouse在OLAP領(lǐng)域的產(chǎn)品和技術(shù)先進性,以及如何實現(xiàn)高性能、高穩(wěn)定、高安全。不僅僅聚焦OLAP領(lǐng)域,通過集成向量檢索、全文檢索、GIS等功能,ByteHouse持續(xù)拓展能力邊界,并建設(shè)涵蓋集成、開發(fā)、應(yīng)用的上下游生態(tài)。除此之外,基于SSB 和 TPC-DS 標(biāo)準(zhǔn)測試集,白皮書也公開了ByteHouse在OLAP、ELT等場景下的最新性能成果。在應(yīng)用場景方面,白皮書則從OLAP中臺建設(shè)、行為分析、車聯(lián)網(wǎng)IoT三個場景為企業(yè)提供數(shù)據(jù)分析最佳實踐參考。
據(jù)介紹,ByteHouse云數(shù)倉版具備“快”“穩(wěn)”“省”三個核心特點,不僅能保障高效處理海量數(shù)據(jù),即時響應(yīng)復(fù)雜查詢,還能降低多系統(tǒng)的各種冗余和復(fù)雜度,提升整體穩(wěn)定性,并實現(xiàn)資源、運維成本最優(yōu)。
有多快?公布標(biāo)準(zhǔn)測試集下性能最新成果
在數(shù)據(jù)處理和分析的領(lǐng)域,提升查詢效率始終是一項關(guān)鍵挑戰(zhàn)。在選擇OLAP引擎時,性能是重要衡量因素。高性能的OLAP具有快速的數(shù)據(jù)處理能力,并縮短響應(yīng)時間,提供更好的用戶體驗,使數(shù)據(jù)分析和查詢更加流暢和便捷。
SSB 和 TPC-DS 是常用于測試分析型數(shù)據(jù)庫/數(shù)據(jù)倉庫的數(shù)據(jù)集,被廣泛應(yīng)用于數(shù)據(jù)倉庫領(lǐng)域。在白皮書中,通過采用以上數(shù)據(jù)集,ByteHouse展示了OLAP、ELT、湖倉一體場景中,與行業(yè)同類產(chǎn)品相比的性能表現(xiàn)。
在OLAP場景中,以TPC-DS數(shù)據(jù)集測試為例,通過將模擬生成的 1000G 數(shù)據(jù)導(dǎo)入測試產(chǎn)品,在 99 個查詢中,ByteHouse 對比行業(yè)某主流開源產(chǎn)品D*,整體查詢性能達到該產(chǎn)品 1.16 倍。在ELT場景中,BSP模式下ByteHouse 對比某主流開源產(chǎn)品 S* ,整體查詢性能達到該產(chǎn)品 6.05 倍。在湖倉一體場景中,ByteHouse 對比開源產(chǎn)品 S*,Hive Parquet外表查詢(冷讀),整體查詢性能達到該產(chǎn)品 1.18 倍。
TPC-DS 1TiB: ByteHouse云數(shù)倉(2.2) 228s, 開源產(chǎn)品D(2.1.1) 264s,超越16%
除此之外,在Vector及GIS分析場景中,ByteHouse對比行業(yè)同類產(chǎn)品也有明顯性能優(yōu)勢。這意味著,ByteHouse讓企業(yè)在享受極致性能的同時,無需引入其他架構(gòu),就能使用文字檢索、地理空間分析、向量檢索能力。企業(yè)只需用一套架構(gòu)就能滿足多元化分析需求,節(jié)省企業(yè)資源人力成本,提升數(shù)據(jù)效能。
ByteHouse技術(shù)專家高大月也在發(fā)布會上揭秘了性能提升的關(guān)鍵技術(shù)。在OLAP性能提升方面,ByteHouse從RBO(基于規(guī)則的優(yōu)化能力)、CBO(基于代價的優(yōu)化能力)、分布式計劃生成方面推出了自研優(yōu)化器,能夠準(zhǔn)確的計算出效率最大化執(zhí)行路徑,大幅度降低用戶查詢時間。同時,ByteHouse也通過高并發(fā)點查解決索引計算繁重、點查讀放大嚴(yán)重、執(zhí)行鏈路冗長、鎖競爭激烈等問題,進一步提升數(shù)據(jù)處理效率。
能多穩(wěn)?將任務(wù)成功率提升至100%
數(shù)據(jù)在加載進入數(shù)據(jù)倉庫之前,往往要經(jīng)過復(fù)雜的數(shù)據(jù)清洗和轉(zhuǎn)換過程,由此需要引入外部引擎,導(dǎo)致架構(gòu)相對復(fù)雜,而ByteHouse全面支持Extract-Load-Transform (ELT)的能力,把數(shù)據(jù)加工的過程轉(zhuǎn)移到ByteHouse內(nèi)部,用戶只需將數(shù)據(jù)導(dǎo)入,用自定義SQL語句進行數(shù)據(jù)轉(zhuǎn)換,降低多系統(tǒng)的各種冗余和復(fù)雜度,提升用戶體驗,并進一步增長了系統(tǒng)穩(wěn)定性。
據(jù)介紹,為了簡化數(shù)據(jù)鏈路、提升任務(wù)并行度,ByteHouse在傳統(tǒng)的MPP調(diào)度模型之外,新增了BSP調(diào)度模型(Bulk Synchronous Parallel),通過各個stage逐層調(diào)度、數(shù)據(jù)寫盤,使得每個階段和任務(wù)都更加獨立,降低了任務(wù)失敗的概率,并提高了資源使用的效率。除此之外,ByteHouse還在離線任務(wù)加工中的任務(wù)級重試功能,當(dāng)作業(yè)的某個任務(wù)失敗時,無需整個作業(yè)重新執(zhí)行,僅重試失敗任務(wù),顯著降低了重試的成本,提升了作業(yè)的成功率。針對業(yè)務(wù)數(shù)據(jù)頻繁更新的特點,ByteHouse對寫入流程進行了大量優(yōu)化。通過并行化最耗時的數(shù)據(jù)寫入部分,并在寫入過程中標(biāo)記需要后續(xù)去重作業(yè)的數(shù)據(jù),實現(xiàn)高效的數(shù)據(jù)更新。
ByteHouse技術(shù)專家游致遠以某數(shù)字娛樂公司舉例,該公司通過引入ByteHouse來構(gòu)建一體化數(shù)倉,從2024年10月15日、16日、17日數(shù)據(jù)來看,任務(wù)的成功率在分別提高了6.6%、4.4%和2.9%,整體成功率為100%。通過對關(guān)鍵大表增加并行度,該公司的離線任務(wù)整體內(nèi)存峰值降低了約40%,有效減少了內(nèi)存溢出的風(fēng)險,整體提升了數(shù)據(jù)處理的實時性和穩(wěn)定性。
如何省?打造新一代“彈性”云數(shù)倉
當(dāng)下企業(yè)的業(yè)務(wù)流量往往具有很大的不確定性。例如,電商平臺在 “618”“雙 11” 等促銷活動期間,訪問量會呈爆發(fā)式增長,可能是平時的十倍甚至百倍,導(dǎo)致系統(tǒng)無法承載如此高負(fù)載而崩潰。這就要求底層數(shù)據(jù)庫具備“彈性”機制,能根據(jù)流量情況自動伸縮資源,在滿足業(yè)務(wù)波峰需求同時節(jié)省成本。
而彈性正是云原生架構(gòu)的核心特性。ByteHouse云原生彈性能力允許企業(yè)根據(jù)實際需求動態(tài)調(diào)整資源,只在需要的時候分配資源,實現(xiàn)隨開隨用,不使用時自動暫停,暫停期間不收取任何計算層費用,從而降低了成本。
ByteHouse自動啟停策略,幫助用戶成本節(jié)約20%+
在白皮書發(fā)布會上,ByteHouse產(chǎn)品經(jīng)理孔柏林介紹到,在存儲層面, ByteHouse采用 Serverless 架構(gòu),具有低成本、無限擴展的能力。在計算層面,ByteHouse則基于PaaS 模式,通過容器化實現(xiàn)無狀態(tài)或弱狀態(tài),將整個計算組包裝成租戶和應(yīng)用呈現(xiàn)給用戶,保證租戶之間不會發(fā)生資源征用沖突或性能劣化,讓計算資源在秒級內(nèi)實現(xiàn)彈性拉起和彈性擴縮容。正是由于采用計算資源采用PaaS 方式,ByteHouse能讓用戶有效避免不規(guī)范 SQL 造成的過多資源消耗,且計價模式采用資源用量(CPU)方式,確保用戶對賬單可預(yù)期。
以中國某知名游戲廠商為例,該廠商基于ByteHouse構(gòu)建了一體化實時數(shù)倉平臺,具備實時數(shù)據(jù)接入、實時 ETL 數(shù)據(jù)加工、實時維表關(guān)聯(lián)和實時數(shù)據(jù)服務(wù)等能力,不僅能支持20萬+QPS高并發(fā)點查,性能提高2倍以上,在資源用量上,比之前架構(gòu)減少了30%成本。
關(guān)注字節(jié)跳動數(shù)據(jù)平臺微信公眾號,菜單欄「精選內(nèi)容-白皮書」即可領(lǐng)取《ByteHouse云數(shù)倉產(chǎn)品白皮書》白皮書原文。
免責(zé)聲明:市場有風(fēng)險,選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。