Databricks的Delta Lake是做什么的？

马涌河畔

之前看介绍Spark不提供持久化部分，而是用Hadoop。那Databricks的Delta Lake是干什么的？

内容分析应用 · 发表于 2021-11-8 15:03:55

Delta Lake是Databricks的一个开源项目。Delta Lake 是一个存储层，为Apache Spark和其他大数据引擎提供可伸缩的 ACID 事务，让用户可以基于 HDFS 和云存储构建可靠的数据湖。此外，Delta Lake 还提供了内置的数据版本控制，可以方便地回滚以及重新生成报告。
以下是 Delta Lake 提供的主要功能：

ACID 事务：Delta Lake 提供多个写操作之间的 ACID 事务。每个写操作都是一个事务，事务日志中记录的写操作有一个串行顺序。事务日志会跟踪文件级的写操作，并使用乐观并发控制，这非常适合数据湖，因为尝试修改相同文件的多个写操作并不经常发生。在存在冲突的场景中，Delta Lake 会抛出一个并发修改异常，以便用户处理它们并重试它们的作业。Delta Lake 还提供了强大的序列化隔离级别，允许工程师不断地对目录或表进行写操作，而用户可以不断地从相同的目录或表中读取数据。读取者将看到读操作开始时存在的最新快照。

模式管理：Delta Lake 会自动验证正在写入的 DataFrame 模式是否与表的模式兼容。表中存在但 DataFrame 中不存在的列会被设置为 null。如果 DataFrame 中有额外的列在表中不存在，那么该操作将抛出异常。Delta Lake 具有可以显式添加新列的 DDL 和自动更新模式的能力。

可伸缩的元数据处理：Delta Lake 将表或目录的元数据信息存储在事务日志中，而不是存储在元存储（metastore）中。这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件，并且在读取数据时非常高效。

数据版本控制和时间旅行：Delta Lake 允许用户读取表或目录先前的快照。当文件在写期间被修改时，Delta Lake 将创建文件的新版本并保存旧版本。当用户希望读取表或目录的旧版本时，他们可以向 Apache Spark 的读操作 API 提供一个时间戳或版本号，Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这使得用户可以重新进行试验并生成报告，如果需要，还可以将表还原为旧版本。

统一的批处理和流接收（streaming sink）：除了批处理写之外，Delta Lake 还可以使用Apache Spark的结构化流作为高效的流接收。再结合 ACID 事务和可伸缩的元数据处理，高效的流接收现在支持许多接近实时的分析用例，而且无需维护复杂的流和批处理管道。

记录更新和删除（即将到来）：Delta Lake 将支持合并、更新和删除 DML 命令。这使得工程师可以轻松地维护和删除数据湖中的记录，并简化他们的变更数据捕获和 GDPR 用例。由于 Delta Lake 在文件粒度上跟踪和修改数据，因此，比读取和覆写整个分区或表要高效得多。

数据期望（即将到来）：Delta Lake 还将支持一个新的 API，用于设置表或目录的数据期望。工程师将能够通过指定布尔条件及调整严重程度来处理数据期望。当 Apache Spark 作业写入表或目录时，Delta Lake 将自动验证记录，当出现违规时，它将根据所预置的严重程度处理记录。

参看这篇文章：Databricks 开源存储层 Delta Lake，欲取代传统数据湖

Databricks的Delta Lake是做什么的？

共 1 个关于本帖的回复最后回复于 2021-11-8 15:03

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

Databricks的Delta Lake是做什么的？

共 1 个关于本帖的回复 最后回复于 2021-11-8 15:03

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2021-11-8 15:03