
企業業務場景增多、規模擴大,對于底層數據架構來說,可能也會愈加復雜。
比如,某企業因自身業務發展,需要引入向量檢索能力,但前期選型的技術架構并不能直接支持,只能重新引入向量數據庫。這意味著,研發團隊要維護多個組件,讓底層架構非常復雜,不僅帶來數據冗余,也給數據運維帶來壓力,造成整體成本增加。
而火山引擎推出的云原生數據倉庫ByteHouse不僅能滿足海量數據下高性能分析需求,還通過GIS時空分析、全文檢索、Vector向量檢索,為分析型數據庫加持更多能力,讓企業用戶用一套架構滿足多元化分析需求,節省企業資源人力成本,提升數據效能。
據介紹,ByteHouse以 ClickHouse 技術路線為基礎,為用戶提供極速分析體驗,支撐實時數據分析和海量數據離線分析,具備便捷的彈性擴縮容能力,極致分析性能和豐富的企業級特性。特別是隨著數據量的爆炸性增長,企業對分析性能的要求水漲船高,ByteHouse能更好以應對大規模數據處理需求。
ByteHouse 在 OLAP 引擎上實現了一系列增強,能支撐寬表、星型模型、雪花模型等更復雜的分析模型,且能實現基礎模型的范式化建模,具備流批一體、優化器、增強型易聚合等技術特點,已經在實時數倉、用戶圈選、行為分析、廣告推薦等場景中落地。
基于全能型的OLAP引擎能力,ByteHouse還集成了適用于不同場景的三大引擎,為用戶提供更極致的分析服務。
首先,作為OLAP的ByteHouse在支持結構化數據檢索方面具備先天優勢,ByteHouse全文檢索引擎則補齊了對非結構化、半結構化等數據的快速檢索能力,支持商品搜索、知識庫搜索、日志分析等場景下對文本數據進行關鍵字檢索,讓用戶可以構建一體化的數據管理、查詢服務,降低運維成本和資源成本。
與行業常見的非結構化數據處理引擎,如ElasticSearch相比,ByteHouse也具備明顯優勢。在性能層面,相關測試數據顯示,當單服務器日志寫入量在50MB-200MB/s,每秒寫入超過30w記錄數的情況下,ByteHouse是ElasticSearch性能的5倍以上。在成本層面,ByteHouse具備更高數據壓縮比、消耗更少的CPU資源,在保障高效查詢的基礎上,還能進一步壓縮服務器成本。在穩定性層面,ByteHouse冷熱分離機制、負載均衡策略,讓數據穩定性更高。
其次,ByteHouse還推出了GIS時空分析引擎,在功能層面,ByteHouse兼容OGC標準,支持導入標準GIS文件格式,目前已支持超過50個主流的空間函數。為了提供更極致的使用體驗,ByteHouse還在探索自研優化器適配GIS特性,以及GPU硬件層面優化二維空間函數。通過選取兩個關鍵 GIS 函數ST_DistanceSphere 和 ST_Within,ByteHouse 在優化器、硬件等層面的優化,使其在測試函數的性能上顯著超越其他產品。
最后,隨著大模型的火熱,ByteHouse已支持多種向量檢索算法,如 HNSW、Flat、IVFFlat、IVFPQ,并且基于 vector-centric 的思路,構建了高效的執行鏈路,可以支撐大規模向量檢索場景,達到毫秒級的查詢延遲。通過開源軟件VectorDBBench測試工具,在 cohere 1M 標準測試數據集上,recall 98 的情況下,ByteHouse QPS性能已可以超過專用向量數據庫。
“一元化數據、多元化引擎”是ByteHouse的產品理念,旨在通過構建統一的平臺為用戶提供更豐富的數據分析能力,實現數據效能最大化。通過全文檢索引擎、GIS引擎、Vector引擎,ByteHouse讓用戶在享受OLAP極致性能的同時,無需引入其他架構,就能使用文字檢索、地理空間分析、向量檢索能力,進一步提升使用體驗。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。