
隨著數(shù)據(jù)量的爆炸式增長、企業(yè)上云速度加快以及數(shù)據(jù)實(shí)時(shí)性需求加強(qiáng),云原生數(shù)倉市場迎來了快速發(fā)展機(jī)遇。
據(jù) IDC、Gartner研究機(jī)構(gòu)數(shù)據(jù)顯示,到 2025 年,企業(yè) 50% 數(shù)據(jù)預(yù)計(jì)為云存儲,75% 數(shù)據(jù)庫都將運(yùn)行在云上,全球數(shù)據(jù)處理預(yù)計(jì)有 30% 為實(shí)時(shí)數(shù)據(jù)處理,80% 數(shù)據(jù)預(yù)計(jì)為非結(jié)構(gòu)化數(shù)據(jù),這將驅(qū)使云原生數(shù)倉愈加受到企業(yè)青睞。
近期,火山引擎云原生數(shù)據(jù)倉庫ByteHouse產(chǎn)品負(fù)責(zé)人李群受邀出席“CSDI summit中國軟件研發(fā)創(chuàng)新科技峰會”,圍繞“新一代云原生數(shù)倉ByteHouse關(guān)鍵技術(shù)與最佳實(shí)踐”主題,從云數(shù)倉歷史和前沿出發(fā),介紹ByteHouse整體架構(gòu)、關(guān)鍵亮點(diǎn)、性能突破、存算分離的關(guān)鍵設(shè)計(jì),以及ByteHouse在抖音集團(tuán)內(nèi)外多樣化場景中的業(yè)務(wù)實(shí)踐。
基于ByteHouse在金融、游戲、泛互聯(lián)網(wǎng)等多行業(yè)的經(jīng)驗(yàn)總結(jié),李群首先介紹了云原生數(shù)據(jù)倉庫目前面臨的難點(diǎn)和挑戰(zhàn)。高性能、高并發(fā)、高吞吐寫入,已經(jīng)是當(dāng)今企業(yè)對云數(shù)倉的基礎(chǔ)需求。隨著互聯(lián)網(wǎng)不斷發(fā)展,數(shù)據(jù)增長迅速,特別是埋點(diǎn)日志類數(shù)據(jù),一些較為活躍的APP,每天數(shù)據(jù)達(dá)到百億甚至千億級別,大規(guī)模殺手級應(yīng)用每天更是產(chǎn)生數(shù)千億事件量。這要求數(shù)據(jù)平臺不僅要支持高吞吐寫入、實(shí)時(shí)去重,面對業(yè)務(wù)請求還要達(dá)到毫秒級響應(yīng)。
除此之外,企業(yè)還面臨數(shù)據(jù)架構(gòu)復(fù)雜、靈活性欠缺、成本控制難的問題。例如,為了實(shí)現(xiàn)一個(gè)數(shù)據(jù)分析功能,企業(yè)可能需要引入三、四個(gè)甚至更多的組件來構(gòu)建,導(dǎo)致擴(kuò)容較難、運(yùn)維壓力大,人力維護(hù)成本高。
為了解決以上問題,ByteHouse首先在性能上實(shí)現(xiàn)突破。在復(fù)雜查詢上,ByteHouse從RBO(基于規(guī)則的優(yōu)化能力)、CBO(基于代價(jià)的優(yōu)化能力)、分布式計(jì)劃生成方面推出了自研優(yōu)化器,能夠準(zhǔn)確的計(jì)算出效率最大化執(zhí)行路徑,大幅度降低用戶查詢時(shí)間。除此之外,ByteHouse還從Exchange、Runtime Filter以及并行化重構(gòu)等方向進(jìn)行了優(yōu)化。針對實(shí)時(shí)吞吐慢、BI報(bào)表慢、離/在線復(fù)雜分析慢、湖+倉聯(lián)邦分析慢、人群圈選慢、以圖搜圖慢六大場景,ByteHouse都推出了定制解決方案,并在客戶實(shí)際場景中產(chǎn)生實(shí)效。
其次,彈性也是ByteHouse核心能力之一。基于ByteHouse彈性伸縮能力,用戶只需基于時(shí)間、資源負(fù)載等條件就能進(jìn)行擴(kuò)容、縮容配置,減輕手動管理的負(fù)擔(dān),提升資源利用率。在存儲層面, ByteHouse采用 Serverless 架構(gòu),具有低成本、無限擴(kuò)展的能力。在計(jì)算層面,ByteHouse則基于PaaS 模式,通過容器化實(shí)現(xiàn)無狀態(tài)或弱狀態(tài),將整個(gè)計(jì)算組包裝成租戶和應(yīng)用呈現(xiàn)給用戶,保證租戶之間不會發(fā)生資源征用沖突或性能劣化,讓計(jì)算資源在秒級內(nèi)實(shí)現(xiàn)彈性拉起和彈性擴(kuò)縮容。
最后,在提升效率同時(shí),ByteHouse也專注于幫助用戶節(jié)省成本。ByteHouse云原生架構(gòu)支持自定義的分時(shí)彈性,讓用戶無需再為業(yè)務(wù)高峰預(yù)購資源,助力成本降低30%以上。同時(shí),為了幫助用戶簡化架構(gòu),ByteHouse通過構(gòu)建統(tǒng)一的平臺提供更豐富的數(shù)據(jù)分析能力,實(shí)現(xiàn)數(shù)據(jù)效能最大化,已經(jīng)推出了全文檢索引擎、GIS引擎、Vector引擎,讓用戶在享受OLAP極致性能的同時(shí),無需引入其他架構(gòu),就能使用文字檢索、地理空間分析、向量檢索能力。除此之外,在生態(tài)兼容性方面,ByteHouse支持ClickHouse、MySQL 等SQL生態(tài)和湖倉一體,讓應(yīng)用、數(shù)據(jù)搬遷零成本。
在應(yīng)用場景上,李群則從實(shí)時(shí)數(shù)倉、企業(yè)級OLAP中臺、廣告精準(zhǔn)營銷三個(gè)場景,帶來ByteHouse最佳實(shí)踐分享。
以廣告精準(zhǔn)營銷場景為例,隨著移動互聯(lián)網(wǎng)的流量紅利消退,精細(xì)化營銷模式隨之躍遷為主流。從數(shù)以億計(jì)的人群中,優(yōu)選出最具潛力的目標(biāo)受眾,是精細(xì)營銷的題中之義,也是作為基礎(chǔ)引擎的數(shù)據(jù)倉庫能力所面臨的挑戰(zhàn)。
從ByteHouse曾服務(wù)的某個(gè)短劇廣告營銷公司來看,一方面,該公司投放在業(yè)務(wù)上需要實(shí)時(shí)調(diào)整策略,要求數(shù)據(jù)分析、更新時(shí)效性在3s內(nèi),并發(fā)QPS達(dá)到2000;另一方面,在營銷場景中,海量數(shù)據(jù)實(shí)時(shí)更新會產(chǎn)生大量數(shù)據(jù)碎片,拉低查詢性能、浪費(fèi)存儲空間。
通過引入ByteHouse、連山云、巨量引擎聯(lián)合解決方案,該廣告營銷公司搭建了一套 “一鍵實(shí)時(shí)同步、極簡架構(gòu)、低門檻技術(shù)” 的短劇行業(yè)通用解決方案,提升廣告數(shù)據(jù)處理效率與投放ROI。
在效果上,通過多級索引,如排序鍵索引、分區(qū)鍵優(yōu)化、跳躍索引等,ByteHouse有效減少了廣告營銷查詢時(shí)掃描的數(shù)據(jù)量,在每天千萬查詢量的情況下,數(shù)據(jù)返回時(shí)效也能保障在秒級,較之前5倍提升。在計(jì)算組隔離策略中,ByteHouse為廣告營銷場景中的數(shù)據(jù)讀、寫分別構(gòu)建獨(dú)立的計(jì)算資源,再通過靈活的SQL分發(fā)機(jī)制,已可以支持超過2000 QPS的查詢高并發(fā)。
據(jù)介紹,ByteHouse還與中國地震臺網(wǎng)中心、莉莉絲游戲、極客邦科技等諸多行業(yè)企業(yè)達(dá)成了深度合作,憑借新一代的云原生架構(gòu),高效方便的運(yùn)維模式,以及高性能更靈活的實(shí)時(shí)查詢能力,為企業(yè)抓穩(wěn)數(shù)字化機(jī)遇建立了夯實(shí)的地基,推動企業(yè)的數(shù)智化轉(zhuǎn)型升級。
免責(zé)聲明:市場有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。