Flink 检查点

本文主要总结下 Flink 检查点的相关内容,例如如何从 checkpoint 中恢复流式应用,Flink 的检查点算法等。

July 8, 2023 · 5 min · Camellia

数据湖与数据仓库

本篇主要是讲下大数据中数据仓库和数据湖这些概念分别是指什么,又有着怎样的联系。

July 5, 2023 · 4 min · Camellia

Spark 结构化 API 底层执行原理简述

本篇主要参考 Spark 权威指南分享 Spark SQL 的底层执行原理,学习 Spark 如何将 SQL 转换为 RDD 执行。

June 28, 2023 · 3 min · Camellia

Spark 任务调度的流程

本文主要是从源码层面简要分析下 Spark 任务调度的流程,包括任务调度中的核心模块,Stage、Task 的调度流程等。

June 26, 2023 · 2 min · Camellia