
12月18日,數(shù)據(jù)飛輪2.0在2024冬季火山引擎FORCE原動(dòng)力大會(huì)上正式升級(jí)發(fā)布。
延續(xù)去年4月火山引擎發(fā)布的數(shù)據(jù)飛輪“以數(shù)據(jù)消費(fèi)促資產(chǎn)建設(shè),以數(shù)據(jù)消費(fèi)助業(yè)務(wù)發(fā)展”的內(nèi)核,升級(jí)后,數(shù)據(jù)飛輪2.0模式更聚焦把AI作為數(shù)智化核心競(jìng)爭(zhēng)力,通過(guò)AI技術(shù)促進(jìn)更普惠的企業(yè)數(shù)據(jù)消費(fèi)。
圍繞數(shù)據(jù)飛輪2.0模式的升級(jí),火山引擎數(shù)智平臺(tái)VeDI同步發(fā)布了多模態(tài)數(shù)據(jù)湖解決方案。
隨著大模型的發(fā)展和應(yīng)用,文本的邊界被拓寬,圖像、視頻、語(yǔ)音各種模態(tài)涌現(xiàn),并給數(shù)據(jù)管理、檢索、計(jì)算帶來(lái)巨大挑戰(zhàn)?;鹕揭娑嗄B(tài)數(shù)據(jù)湖解決方案則可實(shí)現(xiàn)海量結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一精細(xì)化管理,全方位兼容各類數(shù)據(jù)格式,為L(zhǎng)LM預(yù)訓(xùn)練、持續(xù)訓(xùn)練和微調(diào)全程各個(gè)環(huán)節(jié)提供更好的數(shù)據(jù)支持。
火山引擎多模態(tài)數(shù)據(jù)湖解決方案架構(gòu)圖
從數(shù)據(jù)源來(lái)看,火山引擎多模態(tài)數(shù)據(jù)湖解決方案涵蓋傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),如企業(yè)日常運(yùn)營(yíng)產(chǎn)生的表格、日志服務(wù)以及各類數(shù)據(jù)庫(kù);也包含半結(jié)構(gòu)化數(shù)據(jù),如在互聯(lián)網(wǎng)交互中常見的 JSON、XML、CSV 格式數(shù)據(jù)以及通過(guò) API 接口獲取的數(shù)據(jù);更有非結(jié)構(gòu)化數(shù)據(jù),如海量的文本資料、豐富多樣的圖片、各種音頻片段以及視頻文件等。這些數(shù)據(jù)源通過(guò)全域數(shù)據(jù)集成 DataSail 進(jìn)行無(wú)縫整合,打破數(shù)據(jù)孤島,提升利用效率。
在整個(gè)架構(gòu)底層,數(shù)據(jù)湖開放存儲(chǔ) TOS 以其強(qiáng)大的兼容性,支持 Paimon、Iceberg、Hudi 等多種數(shù)據(jù)湖格式,無(wú)論是文本、圖片、音頻、視頻還是向量數(shù)據(jù),都能實(shí)現(xiàn)高效存儲(chǔ)與管理。
在數(shù)據(jù)湖管理方面,LAS具備元數(shù)據(jù)、數(shù)據(jù)集管理、數(shù)據(jù)權(quán)限管理等能力,并具備近計(jì)算與近存儲(chǔ)加速特性,保障數(shù)據(jù)湖應(yīng)用運(yùn)行。同時(shí)依托數(shù)據(jù)計(jì)算和存儲(chǔ)的 E-MapReduc、流式計(jì)算 Flink 和 擅長(zhǎng)OLAP處理的ByteHouse 等多元計(jì)算引擎,企業(yè)可以根據(jù)自身需求進(jìn)行選擇,滿足不同場(chǎng)景下復(fù)雜的數(shù)據(jù)處理要求。在上層數(shù)據(jù)開發(fā)階段,大數(shù)據(jù)研發(fā)治理DataLeap提供獨(dú)創(chuàng)的找數(shù)助手、開發(fā)助手、運(yùn)維助手等智能化能力,降低企業(yè)數(shù)據(jù)資產(chǎn)檢索和數(shù)據(jù)開發(fā)的使用門檻。
最終,海量數(shù)據(jù)經(jīng)過(guò)多模態(tài)數(shù)據(jù)湖的集成、存儲(chǔ)、計(jì)算和分析,輸出給 Data Agent、商業(yè)智能、LakeHouse、知識(shí)庫(kù)等下游應(yīng)用場(chǎng)景,服務(wù)于企業(yè)科學(xué)決策。
目前,火山引擎多模態(tài)數(shù)據(jù)解決方案已廣泛應(yīng)用在泛互聯(lián)網(wǎng)、汽車等行業(yè),并取得實(shí)效。
以某聚焦于智能網(wǎng)聯(lián)汽車的科創(chuàng)公司為例,最初該公司使用自建開源大數(shù)據(jù)平臺(tái)支撐車聯(lián)網(wǎng)數(shù)據(jù)采集、加工及分析,但存在實(shí)時(shí)離線數(shù)據(jù)割裂、數(shù)據(jù)膨脹、系統(tǒng)穩(wěn)定性低等問(wèn)題。
通過(guò)引入火山引擎多模態(tài)數(shù)據(jù)湖解決方案,該公司將火山引擎E-MapReduce作為數(shù)據(jù)湖 OLAP 引擎,構(gòu)建兼具離線、實(shí)時(shí)的湖倉(cāng)一體架構(gòu),并運(yùn)用其存算分離架構(gòu)應(yīng)對(duì)高膨脹增量數(shù)據(jù),在確保計(jì)算性能 SLA 穩(wěn)定的同時(shí),成功將維護(hù)成本降為零;還進(jìn)一步借助全域數(shù)據(jù)集成DataSail 實(shí)現(xiàn)OLAP、OLTP 兩種不同負(fù)載要求的任務(wù)分離,保障了服務(wù)的可用性。最終在數(shù)據(jù)處理實(shí)效性提升為秒級(jí)的基礎(chǔ)上,資源成本還降低了30%。
數(shù)據(jù)已成為AI算法模型發(fā)展和演進(jìn)的“燃料”。而火山引擎數(shù)據(jù)飛輪2.0及多模態(tài)數(shù)據(jù)湖等系列解決方案的發(fā)布,必將幫助企業(yè)提升數(shù)據(jù)利用效率,創(chuàng)造業(yè)務(wù)創(chuàng)新與發(fā)展的一個(gè)又一個(gè)“燃點(diǎn)”。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。