Cloudera 地球上最大的數(shù)據(jù)湖由客戶運行。這些湖泊是大規(guī)模數(shù)據(jù)分析的關(guān)鍵任務(wù) (BI) 與機器學(xué)習(xí)用例,包括企業(yè)數(shù)據(jù)倉庫,提供動力。近年來,數(shù)據(jù)湖倉據(jù)湖倉庫一詞來描述這種對數(shù)據(jù)湖中數(shù)據(jù)進行表分析的架構(gòu)模式。在匆忙進入這個術(shù)語的過程中,許多制造商忽略了數(shù)據(jù)架構(gòu)的開放性是其持久性和持久性的保證。
芯片采購網(wǎng)專注于整合國內(nèi)外授權(quán)IC代理商現(xiàn)貨資源,芯片庫存實時查詢,行業(yè)價格合理,采購方便IC芯片,國內(nèi)專業(yè)芯片采購平臺。
數(shù)據(jù)倉庫和數(shù)據(jù)湖
數(shù)據(jù)湖和數(shù)據(jù)倉庫將各種類型的海量數(shù)據(jù)統(tǒng)一到一個中心位置。但有一個完全不同的架構(gòu)世界觀。數(shù)字倉庫是為了SQL 對垂直集成進行分析,優(yōu)先考慮數(shù)據(jù)湖 SQL 其他分析方法的靈活性。
為了既有魚又有熊掌-數(shù)據(jù)湖分析的靈活性,又有簡單快捷的數(shù)倉 SQL,企業(yè)經(jīng)常部署數(shù)據(jù)湖補充數(shù)據(jù)倉庫,提取、轉(zhuǎn)換和加載數(shù)據(jù) (ETL) 或 ELT 管道的最后一步是讓數(shù)據(jù)湖為數(shù)字倉庫系統(tǒng)提供數(shù)據(jù)。在這樣做的過程中,他們接受了倉庫中數(shù)據(jù)的鎖定。
但是有一個更好的方法:使用它 Hive 元存儲是過去十年數(shù)據(jù)平臺上一個意想不到的好產(chǎn)品。隨著用例的成熟,我們可以看到高效的互動 BI 對數(shù)據(jù)的需求進行分析和事務(wù)語義修改。
數(shù)據(jù)湖倉的迭代
第一代 Hive元存儲試圖在數(shù)據(jù)湖上有效運行 SQL 性能考慮。它提供了描述數(shù)據(jù)湖結(jié)構(gòu)的數(shù)據(jù)庫、模式和表的概念 BI 該工具可以有效地充分利用數(shù)據(jù)。它添加了描述Espressif代理支持基于成本的優(yōu)化器、動態(tài)分區(qū)切割和數(shù)據(jù)邏輯和物理布局的元數(shù)據(jù) SQL 一些關(guān)鍵性能分析改進。
第二代 Hive元存儲增加了正確的使用 Hive ACID 支持事務(wù)更新。雖然數(shù)據(jù)湖倉庫還沒有正式命名,但它已經(jīng)開始活躍起來。事務(wù)啟用了持續(xù)攝入、插入/更新/刪除(或合并)的用例,從而打開了從其他數(shù)字倉庫系統(tǒng)到數(shù)據(jù)湖的查詢、功能和遷移。這對我們的許多客戶都很有價值。
Delta Lake該項目采用不同的方法來解決這個問題。Delta Lake為數(shù)據(jù)湖中的數(shù)據(jù)增加了事務(wù)支持。數(shù)據(jù)管理可以進行,這給數(shù)據(jù)湖帶來了運行數(shù)倉分析的可能性。
漸漸地,在某個時刻,數(shù)據(jù)湖倉庫這個詞架構(gòu)模式而產(chǎn)生。我們相信湖倉庫是簡單定義這種模式的好方法,并很快在客戶和行業(yè)達成共識。
開放數(shù)據(jù)湖倉滿足互操作需求
近年來,隨著新數(shù)據(jù)類型的誕生和新數(shù)據(jù)處理引擎的出現(xiàn),為了簡化分析,企業(yè)所期望的兩全其美確實需要分析引擎的靈活性。如果需要管理大量有價值的數(shù)據(jù),企業(yè)必須能夠開放地選擇不同的分析引擎,甚至供應(yīng)商。
湖倉模式在實施過程中存在嚴重矛盾:雖然數(shù)據(jù)湖是開放的,但湖倉不是。
在能夠添加 Impala、Spark 等發(fā)動機,Hive始終遵循元存儲 Hive先進化。Delta lake是Spark主要演變;如果客戶想自由選擇不同的引擎而不僅僅是表格式,他們的選擇是非常有限的。
客戶從一開始就要求更多。格式更多,引擎更多,互操作性更強。Hive 多個引擎和多個存儲選項使用元存儲。 Hive 和 Spark,還有 Presto、Impala 等等。Hive元存儲是支持這些用例的有機進化,因此集成通常非常復(fù)雜,容易出錯。
為滿足相互操作的需要而設(shè)計的開放數(shù)據(jù)湖倉庫從根本上解決了這一架構(gòu)問題。它會讓所有被困在一個平臺上的人感到不安,但社區(qū)驅(qū)動的創(chuàng)新可以幫助解決現(xiàn)實世界的問題,幫助使用類似的最佳工具,并以務(wù)實的方式克服供應(yīng)商的鎖定。
開放湖倉Apache Iceberg的誕生
Apache Iceberg 從一開始,其目標就是在云原生規(guī)模上輕松實現(xiàn)多個分析引擎的相互操作。這創(chuàng)新的誕生地 Netflix 需要將 100 PB 規(guī)模的 S3 數(shù)據(jù)湖建在數(shù)字倉庫中,這可能是最好的例子。云原生表格式從其創(chuàng)建者開源到 Apache Iceberg 中。
Apache Iceberg 真正的超級力量是它的社區(qū)。在過去的三年里,Apache Iceberg 社區(qū)蓬勃發(fā)展,增加了一系列令人驚嘆的優(yōu)秀整合:
· 數(shù)據(jù)處理和 SQL 引擎 Hive、Impala、Spark、PrestoDB、Trino、Flink
· 各種文件格式:Parquet、AVRO、ORC
· 社區(qū)大型用戶:Apple、LinkedIn、Adobe、Netflix、Expedia 等
· AWS Athena、Cloudera、EMR、Snowflake、騰訊,阿里巴巴,Dremio、Starburst 的托管服務(wù)
這個多元化社區(qū)蓬勃發(fā)展的原因是數(shù)千家公司的集體需求,以確保數(shù)據(jù)湖能夠演變成包含數(shù)據(jù)的倉庫,并保持跨引擎分析的靈活性和開放性。這使得開放的湖泊倉庫成為可能:為未來提供無限的分析靈活性。
Cloudera擁抱Iceberg模式
在 Cloudera,我們?yōu)槲覀兊拈_源基礎(chǔ)感到自豪,并致力于社區(qū)貢獻。自 2021 多年來,我們一直在成長 Iceberg 社區(qū)在 Impala、Hive、Spark 和 Iceberg 數(shù)百項貢獻。我們擴展了 Hive 元存儲將集成到我們的許多開源引擎中,以充分利用它 Iceberg 表。2022 年初,我們在 Cloudera Data Platform (CDP) 中提供了 Apache Iceberg 技術(shù)預(yù)覽,使 Cloudera 客戶可以在我們的數(shù)據(jù)倉庫、數(shù)據(jù)工程和機器學(xué)習(xí)服務(wù)中實現(xiàn) Iceberg 模式和時間旅行能力。
我們的客戶總是告訴我們,無論是現(xiàn)代的 BI、AI/ML、數(shù)據(jù)科學(xué)更多,分析需求發(fā)展迅速。選擇是由 Apache Iceberg 湖倉提供支持,讓企業(yè)自由選擇分析。
- 美國科技巨頭每秒能賺多少錢?蘋果11376元,谷歌66918元
- 第五屆中國科學(xué)億海微榮 IC 獨角獸稱號
- 2022亞洲智能穿戴大會‖聚芯科技華麗登場
- Nordic Thingy:53 平臺結(jié)合雙 Arm Cortex-M33處理器和嵌入式機器學(xué)習(xí),加快物聯(lián)網(wǎng)產(chǎn)品原型設(shè)計
- 三星3nm工廠即將開工:全球首發(fā)GAA工藝 功耗直降50%
- 氮化鎵功率半導(dǎo)體潛力無限,從手機快速充電到電動汽車
- 自我修復(fù)的電子產(chǎn)品即將成為現(xiàn)實
- 有些性能堪比鋰電池 鈉離子電池即將爆發(fā):這類電動汽車受益
- 三星量產(chǎn)89寸Micro LED 友達,創(chuàng)進供應(yīng)鏈
- 郭明:安卓手機需求疲軟,最壞的時刻還沒有到來
- 全球數(shù)治|沃爾瑪加入元宇宙背后的監(jiān)管混亂
- NI推出DataStudio從設(shè)計到測試從設(shè)計到測試的數(shù)據(jù)障礙