
近日,火山引擎ByteHouse與某知名數字娛樂公司聚焦高性能離/在線一體化數倉展開合作。基于ByteHouse ELT能力,該數字娛樂公司解決了數據融合、實時分析、可擴展性和靈活性等多方面的挑戰,還進一步提升了其數據處理和分析的效率。
隨著數字娛樂行業的快速發展,該公司在業務擴張過程中對數據基礎服務的要求日益提高。原先的數據架構存在架構復雜、數據冗余、效率瓶頸等問題,無法滿足日益增長的數據處理需求。為此,該公司通過引入ByteHouse來構建一體化數倉,簡化數據流程、降低維護成本,并提升數據處理的實時性和穩定性。
作為一款云原生數據倉庫,ByteHouse基于ClickHouse技術路線進行了深度優化和升級,不僅具備極致的分析性能和良好的擴展能力,還支持豐富的ELT作業功能,包括fault tolerance和任務拆分等,幫助用戶應對大規模數據處理和復雜查詢的挑戰。
據ByteHouse技術相關人員介紹,為了解決海量數據下的處理和分析需求,ByteHouse主要從提升任務并行度、任務級重試能力、大批量并行寫入優化以及簡化數據鏈路四個方面進行優化。
首先,在提升任務并行度方面,ByteHouse的BSP模式支持將查詢切分為獨立的階段,并在階段內進行并行度拓展。這一特性使得大查詢的內存占用大幅降低,任務失敗率也顯著降低。通過對關鍵大表增加并行度,該公司的離線任務整體內存峰值降低了約40%,有效減少了內存溢出的風險。
其次,ByteHouse離線任務加工中的任務級重試功能,當任務運行失敗時,無需整個鏈路重新執行,僅重試失敗任務,顯著提高該公司的任務執行成功率。以2024年10月15日、16日、17日的數據為例,任務的成功率在分別提高了6.6%、4.4%和2.9%,整體成功率為100%。
再次,針對該公司業務數據頻繁更新的特點,ByteHouse對寫入流程進行了大量優化。通過并行化最耗時的數據寫入部分,并在寫入過程中標記需要后續去重作業的數據,ByteHouse實現了高效的數據更新。在保持穩定的前提下,用戶的十億表插入作業運行時間從48分鐘降低到13分鐘,提速高達73%。
最后,在簡化數據鏈路方面,ByteHouse在傳統的MPP鏈路基礎上增加了對復雜查詢的支持,并通過BSP模式將各個階段進行隔離,使得每個階段和任務都更加獨立,降低了任務失敗的概率,并提高了資源使用的效率。
通過引入ByteHouse構建一體化數倉,該數字娛樂公司成功實現了數據加工和數據分析的整合,不僅減少了組件冗余和人力成本,還大大提高了數據的實時性和運營效率。未來,火山引擎ByteHouse將繼續致力于提供更高效、更穩定的數據服務,助力更多企業實現數字化轉型和升級。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。