盗墓笔记小说,玄幻小说排行榜,女强穿越玄幻完结小说

開放式數(shù)據(jù)湖倉(cāng)，釋放數(shù)據(jù)分析潛力無限

（2025年4月2日更新）

Cloudera 地球上最大的數(shù)據(jù)湖由客戶運(yùn)行。這些湖泊是大規(guī)模數(shù)據(jù)分析的關(guān)鍵任務(wù) (BI) 與機(jī)器學(xué)習(xí)用例，包括企業(yè)數(shù)據(jù)倉(cāng)庫，提供動(dòng)力。近年來，數(shù)據(jù)湖倉(cāng)據(jù)湖倉(cāng)庫一詞來描述這種對(duì)數(shù)據(jù)湖中數(shù)據(jù)進(jìn)行表分析的架構(gòu)模式。在匆忙進(jìn)入這個(gè)術(shù)語的過程中，許多制造商忽略了數(shù)據(jù)架構(gòu)的開放性是其持久性和持久性的保證。

芯片采購(gòu)網(wǎng)專注于整合國(guó)內(nèi)外授權(quán)IC代理商現(xiàn)貨資源，芯片庫存實(shí)時(shí)查詢，行業(yè)價(jià)格合理，采購(gòu)方便IC芯片，國(guó)內(nèi)專業(yè)芯片采購(gòu)平臺(tái)。

數(shù)據(jù)倉(cāng)庫和數(shù)據(jù)湖

數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫將各種類型的海量數(shù)據(jù)統(tǒng)一到一個(gè)中心位置。但有一個(gè)完全不同的架構(gòu)世界觀。數(shù)字倉(cāng)庫是為了SQL 對(duì)垂直集成進(jìn)行分析，優(yōu)先考慮數(shù)據(jù)湖 SQL 其他分析方法的靈活性。

為了既有魚又有熊掌-數(shù)據(jù)湖分析的靈活性，又有簡(jiǎn)單快捷的數(shù)倉(cāng) SQL，企業(yè)經(jīng)常部署數(shù)據(jù)湖補(bǔ)充數(shù)據(jù)倉(cāng)庫，提取、轉(zhuǎn)換和加載數(shù)據(jù) (ETL) 或 ELT 管道的最后一步是讓數(shù)據(jù)湖為數(shù)字倉(cāng)庫系統(tǒng)提供數(shù)據(jù)。在這樣做的過程中，他們接受了倉(cāng)庫中數(shù)據(jù)的鎖定。

但是有一個(gè)更好的方法：使用它 Hive 元存儲(chǔ)是過去十年數(shù)據(jù)平臺(tái)上一個(gè)意想不到的好產(chǎn)品。隨著用例的成熟，我們可以看到高效的互動(dòng) BI 對(duì)數(shù)據(jù)的需求進(jìn)行分析和事務(wù)語義修改。

數(shù)據(jù)湖倉(cāng)的迭代

第一代 Hive元存儲(chǔ)試圖在數(shù)據(jù)湖上有效運(yùn)行 SQL 性能考慮。它提供了描述數(shù)據(jù)湖結(jié)構(gòu)的數(shù)據(jù)庫、模式和表的概念 BI 該工具可以有效地充分利用數(shù)據(jù)。它添加了描述Espressif代理支持基于成本的優(yōu)化器、動(dòng)態(tài)分區(qū)切割和數(shù)據(jù)邏輯和物理布局的元數(shù)據(jù) SQL 一些關(guān)鍵性能分析改進(jìn)。

第二代 Hive元存儲(chǔ)增加了正確的使用 Hive ACID 支持事務(wù)更新。雖然數(shù)據(jù)湖倉(cāng)庫還沒有正式命名，但它已經(jīng)開始活躍起來。事務(wù)啟用了持續(xù)攝入、插入/更新/刪除（或合并）的用例，從而打開了從其他數(shù)字倉(cāng)庫系統(tǒng)到數(shù)據(jù)湖的查詢、功能和遷移。這對(duì)我們的許多客戶都很有價(jià)值。

Delta Lake該項(xiàng)目采用不同的方法來解決這個(gè)問題。Delta Lake為數(shù)據(jù)湖中的數(shù)據(jù)增加了事務(wù)支持。數(shù)據(jù)管理可以進(jìn)行，這給數(shù)據(jù)湖帶來了運(yùn)行數(shù)倉(cāng)分析的可能性。

漸漸地，在某個(gè)時(shí)刻，數(shù)據(jù)湖倉(cāng)庫這個(gè)詞架構(gòu)模式而產(chǎn)生。我們相信湖倉(cāng)庫是簡(jiǎn)單定義這種模式的好方法，并很快在客戶和行業(yè)達(dá)成共識(shí)。

開放數(shù)據(jù)湖倉(cāng)滿足互操作需求

近年來，隨著新數(shù)據(jù)類型的誕生和新數(shù)據(jù)處理引擎的出現(xiàn)，為了簡(jiǎn)化分析，企業(yè)所期望的兩全其美確實(shí)需要分析引擎的靈活性。如果需要管理大量有價(jià)值的數(shù)據(jù)，企業(yè)必須能夠開放地選擇不同的分析引擎，甚至供應(yīng)商。

湖倉(cāng)模式在實(shí)施過程中存在嚴(yán)重矛盾：雖然數(shù)據(jù)湖是開放的，但湖倉(cāng)不是。

在能夠添加 Impala、Spark 等發(fā)動(dòng)機(jī)，Hive始終遵循元存儲(chǔ) Hive先進(jìn)化。Delta lake是Spark主要演變；如果客戶想自由選擇不同的引擎而不僅僅是表格式，他們的選擇是非常有限的。

客戶從一開始就要求更多。格式更多，引擎更多，互操作性更強(qiáng)。Hive 多個(gè)引擎和多個(gè)存儲(chǔ)選項(xiàng)使用元存儲(chǔ)。 Hive 和 Spark，還有 Presto、Impala 等等。Hive元存儲(chǔ)是支持這些用例的有機(jī)進(jìn)化，因此集成通常非常復(fù)雜，容易出錯(cuò)。

為滿足相互操作的需要而設(shè)計(jì)的開放數(shù)據(jù)湖倉(cāng)庫從根本上解決了這一架構(gòu)問題。它會(huì)讓所有被困在一個(gè)平臺(tái)上的人感到不安，但社區(qū)驅(qū)動(dòng)的創(chuàng)新可以幫助解決現(xiàn)實(shí)世界的問題，幫助使用類似的最佳工具，并以務(wù)實(shí)的方式克服供應(yīng)商的鎖定。

開放湖倉(cāng)Apache Iceberg的誕生

Apache Iceberg 從一開始，其目標(biāo)就是在云原生規(guī)模上輕松實(shí)現(xiàn)多個(gè)分析引擎的相互操作。這創(chuàng)新的誕生地 Netflix 需要將 100 PB 規(guī)模的 S3 數(shù)據(jù)湖建在數(shù)字倉(cāng)庫中，這可能是最好的例子。云原生表格式從其創(chuàng)建者開源到 Apache Iceberg 中。

Apache Iceberg 真正的超級(jí)力量是它的社區(qū)。在過去的三年里，Apache Iceberg 社區(qū)蓬勃發(fā)展，增加了一系列令人驚嘆的優(yōu)秀整合：

· 數(shù)據(jù)處理和 SQL 引擎 Hive、Impala、Spark、PrestoDB、Trino、Flink

· 各種文件格式：Parquet、AVRO、ORC

· 社區(qū)大型用戶：Apple、LinkedIn、Adobe、Netflix、Expedia 等

· AWS Athena、Cloudera、EMR、Snowflake、騰訊，阿里巴巴，Dremio、Starburst 的托管服務(wù)

這個(gè)多元化社區(qū)蓬勃發(fā)展的原因是數(shù)千家公司的集體需求，以確保數(shù)據(jù)湖能夠演變成包含數(shù)據(jù)的倉(cāng)庫，并保持跨引擎分析的靈活性和開放性。這使得開放的湖泊倉(cāng)庫成為可能：為未來提供無限的分析靈活性。

Cloudera擁抱Iceberg模式

在 Cloudera，我們?yōu)槲覀兊拈_源基礎(chǔ)感到自豪，并致力于社區(qū)貢獻(xiàn)。自 2021 多年來，我們一直在成長(zhǎng) Iceberg 社區(qū)在 Impala、Hive、Spark 和 Iceberg 數(shù)百項(xiàng)貢獻(xiàn)。我們擴(kuò)展了 Hive 元存儲(chǔ)將集成到我們的許多開源引擎中，以充分利用它 Iceberg 表。2022 年初，我們?cè)?Cloudera Data Platform (CDP) 中提供了 Apache Iceberg 技術(shù)預(yù)覽，使 Cloudera 客戶可以在我們的數(shù)據(jù)倉(cāng)庫、數(shù)據(jù)工程和機(jī)器學(xué)習(xí)服務(wù)中實(shí)現(xiàn) Iceberg 模式和時(shí)間旅行能力。

我們的客戶總是告訴我們，無論是現(xiàn)代的 BI、AI/ML、數(shù)據(jù)科學(xué)更多，分析需求發(fā)展迅速。選擇是由 Apache Iceberg 湖倉(cāng)提供支持，讓企業(yè)自由選擇分析。

熱門關(guān)注的型號(hào)及相關(guān)品牌：