CDC reader optimization

sezruby · Eunjin Song (from Dev Box) · commit 45e6004ca68d · 2025-08-14T22:30:05.000Z
diff --git a/project/SparkMimaExcludes.scala b/project/SparkMimaExcludes.scala
@@ -89,8 +89,13 @@ object SparkMimaExcludes {
       // Changes in 4.0.0
       ProblemFilters.exclude[IncompatibleResultTypeProblem]("io.delta.tables.DeltaTable.improveUnsupportedOpError"),
       ProblemFilters.exclude[IncompatibleResultTypeProblem]("io.delta.tables.DeltaMergeBuilder.improveUnsupportedOpError"),
-      ProblemFilters.exclude[IncompatibleResultTypeProblem]("io.delta.tables.DeltaMergeBuilder.execute")
+      ProblemFilters.exclude[IncompatibleResultTypeProblem]("io.delta.tables.DeltaMergeBuilder.execute"),
 
+      // CDC Optimization
+      ProblemFilters.exclude[ReversedMissingMethodProblem]("org.apache.spark.sql.delta.sources.DeltaSQLConfBase.org$apache$spark$sql$delta$sources$DeltaSQLConfBase$_setter_$DELTA_CDF_BATCH_STATIC_READER_="),
+      ProblemFilters.exclude[ReversedMissingMethodProblem]("org.apache.spark.sql.delta.sources.DeltaSQLConfBase.DELTA_CDF_BATCH_STATIC_READER"),
+      ProblemFilters.exclude[ReversedMissingMethodProblem]("org.apache.spark.sql.delta.sources.DeltaSQLConfBase.org$apache$spark$sql$delta$sources$DeltaSQLConfBase$_setter_$DELTA_CDF_BATCH_STATIC_READER_START_ONLY_="),
+      ProblemFilters.exclude[ReversedMissingMethodProblem]("org.apache.spark.sql.delta.sources.DeltaSQLConfBase.DELTA_CDF_BATCH_STATIC_READER_START_ONLY")
       // scalastyle:on line.size.limit
   )
 }
diff --git a/sharing/src/test/scala/io/delta/sharing/spark/DeltaSharingDataSourceCMSuite.scala b/sharing/src/test/scala/io/delta/sharing/spark/DeltaSharingDataSourceCMSuite.scala
@@ -96,46 +96,31 @@ class DeltaSharingDataSourceCMSuite
       deltaTableName: String,
       sharedTablePath: String,
       startingVersion: Int): Unit = {
-    val schema = spark.read
-      .format("deltaSharing")
-      .option("responseFormat", "delta")
-      .option("readChangeFeed", "true")
-      .option("startingVersion", startingVersion)
-      .load(sharedTablePath)
-      .schema
-    val expectedSchema = spark.read
-      .format("delta")
-      .option("readChangeFeed", "true")
-      .option("startingVersion", startingVersion)
-      .table(deltaTableName)
-      .schema
-    assert(expectedSchema == schema)
-
-    val deltaDf = spark.read
-      .format("delta")
-      .option("readChangeFeed", "true")
-      .option("startingVersion", startingVersion)
-      .table(deltaTableName)
-    val sharingDf = spark.read
-      .format("deltaSharing")
-      .option("responseFormat", "delta")
-      .option("readChangeFeed", "true")
-      .option("startingVersion", startingVersion)
-      .load(sharedTablePath)
     if (startingVersion <= 2) {
       Seq(BatchCDFSchemaEndVersion, BatchCDFSchemaLatest, BatchCDFSchemaLegacy).foreach { m =>
         withSQLConf(
           DeltaSQLConf.DELTA_CDF_DEFAULT_SCHEMA_MODE_FOR_COLUMN_MAPPING_TABLE.key ->
           m.name
         ) {
           val deltaException = intercept[DeltaUnsupportedOperationException] {
+            val deltaDf = spark.read
+              .format("delta")
+              .option("readChangeFeed", "true")
+              .option("startingVersion", startingVersion)
+              .table(deltaTableName)
             deltaDf.collect()
           }
           assert(
             deltaException.getMessage.contains("Retrieving table changes between") &&
             deltaException.getMessage.contains("failed because of an incompatible")
           )
           val sharingException = intercept[DeltaUnsupportedOperationException] {
+            val sharingDf = spark.read
+              .format("deltaSharing")
+              .option("responseFormat", "delta")
+              .option("readChangeFeed", "true")
+              .option("startingVersion", startingVersion)
+              .load(sharedTablePath)
             sharingDf.collect()
           }
           assert(
@@ -145,6 +130,32 @@ class DeltaSharingDataSourceCMSuite
         }
       }
     } else {
+      val schema = spark.read
+        .format("deltaSharing")
+        .option("responseFormat", "delta")
+        .option("readChangeFeed", "true")
+        .option("startingVersion", startingVersion)
+        .load(sharedTablePath)
+        .schema
+      val expectedSchema = spark.read
+        .format("delta")
+        .option("readChangeFeed", "true")
+        .option("startingVersion", startingVersion)
+        .table(deltaTableName)
+        .schema
+      assert(expectedSchema == schema)
+
+      val deltaDf = spark.read
+        .format("delta")
+        .option("readChangeFeed", "true")
+        .option("startingVersion", startingVersion)
+        .table(deltaTableName)
+      val sharingDf = spark.read
+        .format("deltaSharing")
+        .option("responseFormat", "delta")
+        .option("readChangeFeed", "true")
+        .option("startingVersion", startingVersion)
+        .load(sharedTablePath)
       checkAnswer(sharingDf, deltaDf)
       assert(sharingDf.count() > 0)
     }
diff --git a/spark/src/main/scala/org/apache/spark/sql/delta/DeltaAnalysis.scala b/spark/src/main/scala/org/apache/spark/sql/delta/DeltaAnalysis.scala
@@ -31,6 +31,7 @@ import org.apache.spark.sql.delta.catalog.DeltaTableV2
 import org.apache.spark.sql.delta.catalog.IcebergTablePlaceHolder
 import org.apache.spark.sql.delta.commands._
 import org.apache.spark.sql.delta.commands.cdc.CDCReader
+import org.apache.spark.sql.delta.commands.cdc.CDCReader.DeltaCDFRelationAtAnalysis
 import org.apache.spark.sql.delta.constraints.{AddConstraint, DropConstraint}
 import org.apache.spark.sql.delta.coordinatedcommits.{CatalogOwnedTableUtils, CoordinatedCommitsUtils}
 import org.apache.spark.sql.delta.files.{TahoeFileIndex, TahoeLogFileIndex}
@@ -321,6 +322,8 @@ class DeltaAnalysis(session: SparkSession)
 
     case tc: TableChanges if tc.child.resolved => tc.toReadQuery
 
+    case LogicalRelation(cdc: DeltaCDFRelationAtAnalysis, _, _, _) =>
+      cdc.getScanDf.queryExecution.optimizedPlan
 
     // Here we take advantage of CreateDeltaTableCommand which takes a LogicalPlan for CTAS in order
     // to perform CLONE. We do this by passing the CloneTableCommand as the query in
diff --git a/spark/src/main/scala/org/apache/spark/sql/delta/DeltaTableValueFunctions.scala b/spark/src/main/scala/org/apache/spark/sql/delta/DeltaTableValueFunctions.scala
@@ -24,6 +24,7 @@ import scala.collection.JavaConverters._
 
 import org.apache.spark.sql.delta.catalog.DeltaTableV2
 import org.apache.spark.sql.delta.commands.cdc.CDCReader
+import org.apache.spark.sql.delta.commands.cdc.CDCReader.DeltaCDFRelationAtAnalysis
 import org.apache.spark.sql.delta.sources.DeltaDataSource
 
 import org.apache.spark.sql.SparkSession
@@ -190,7 +191,13 @@ case class TableChanges(
   def toReadQuery: LogicalPlan = child.transformUp {
     case DataSourceV2Relation(d: DeltaTableV2, _, _, _, options) =>
       // withOptions empties the catalog table stats
-      d.withOptions(options.asScala.toMap).toLogicalRelation
+      val rel = d.withOptions(options.asScala.toMap).toLogicalRelation
+      rel.relation match {
+        case cr@DeltaCDFRelationAtAnalysis(_, _, _, _, _) =>
+          cr.getScanDf.queryExecution.optimizedPlan
+        case _ =>
+          rel
+      }
     case r: NamedRelation =>
       throw DeltaErrors.notADeltaTableException(fnName, r.name)
     case l: LogicalRelation =>
diff --git a/spark/src/main/scala/org/apache/spark/sql/delta/commands/cdc/CDCReader.scala b/spark/src/main/scala/org/apache/spark/sql/delta/commands/cdc/CDCReader.scala
@@ -193,6 +193,73 @@ object CDCReader extends CDCReaderImpl
     }
   }
 
+  /**
+   * A special BaseRelation wrapper for CDF reads for optimization at query planning stage.
+   */
+  case class DeltaCDFRelationAtAnalysis(
+      snapshotWithSchemaMode: SnapshotWithSchemaMode,
+      sqlContext: SQLContext,
+      catalogTableOpt: Option[CatalogTable],
+      startingVersion: Option[Long],
+      endingVersion: Option[Long]) extends BaseRelation {
+
+    private val deltaLog = snapshotWithSchemaMode.snapshot.deltaLog
+
+    private lazy val latestVersionOfTableDuringAnalysis: Long =
+      deltaLog.update(catalogTableOpt = catalogTableOpt).version
+
+    /**
+     * There may be a slight divergence here in terms of what schema is in the latest data vs what
+     * schema we have captured during analysis, but this is an inherent limitation of Spark.
+     *
+     * However, if there are schema changes between analysis and execution, since we froze this
+     * schema, our schema incompatibility checks will kick in during the scan so we will always
+     * be safe - Although it is a notable caveat that user should be aware of because the CDC query
+     * may break.
+     */
+    private lazy val endingVersionForBatchSchema: Long = endingVersion.map { v =>
+      // As defined in the method doc, if ending version is greater than the latest version, we will
+      // just use the latest version to find the schema.
+      latestVersionOfTableDuringAnalysis min v
+    }.getOrElse {
+      // Or if endingVersion is not specified, we just use the latest schema.
+      latestVersionOfTableDuringAnalysis
+    }
+
+    // The final snapshot whose schema is going to be used as this CDF relation's schema
+    private val snapshotForBatchSchema: Snapshot = snapshotWithSchemaMode.schemaMode match {
+      case BatchCDFSchemaEndVersion =>
+        // Fetch the ending version and its schema
+        deltaLog.getSnapshotAt(endingVersionForBatchSchema, catalogTableOpt = catalogTableOpt)
+      case _ =>
+        // Apply the default, either latest generated by DeltaTableV2 or specified by Time-travel
+        // options.
+        snapshotWithSchemaMode.snapshot
+    }
+
+    override val schema: StructType = cdcReadSchema(snapshotForBatchSchema.metadata.schema)
+
+    def getScanDf: DataFrame = {
+      startingVersion match {
+        case Some(startingVer) =>
+          val df = changesToBatchDF(
+            deltaLog,
+            startingVer,
+            endingVersion.getOrElse {
+              // ending version is decided at Analyzer phase if not specified.
+              deltaLog.update(catalogTableOpt = catalogTableOpt).version
+            },
+            sqlContext.sparkSession,
+            readSchemaSnapshot = Some(snapshotForBatchSchema))
+          df
+        case None =>
+          // emtpyCDFRelation
+          sqlContext.sparkSession.createDataFrame(
+            sqlContext.sparkSession.sparkContext.emptyRDD[Row], schema)
+      }
+    }
+  }
+
   case class CDCDataSpec[T <: FileAction](
       version: Long,
       timestamp: Timestamp,
@@ -377,12 +444,24 @@ trait CDCReaderImpl extends DeltaLogging {
         s"${DeltaSQLConf.DELTA_CDF_DEFAULT_SCHEMA_MODE_FOR_COLUMN_MAPPING_TABLE.key} " +
           s"cannot be used with time travel options.")
     }
-    DeltaCDFRelation(
-      SnapshotWithSchemaMode(snapshotToUse, schemaMode),
-      spark.sqlContext,
-      catalogTableOpt,
-      Some(startingVersion.version),
-      endingVersionOpt.map(_.version))
+
+    if (spark.sessionState.conf.getConf(DeltaSQLConf.DELTA_CDF_BATCH_STATIC_READER) &&
+      (endingVersionOpt.isDefined || spark.sessionState.conf.getConf(
+        DeltaSQLConf.DELTA_CDF_BATCH_STATIC_READER_START_ONLY))) {
+      DeltaCDFRelationAtAnalysis(
+        SnapshotWithSchemaMode(snapshotToUse, schemaMode),
+        spark.sqlContext,
+        catalogTableOpt,
+        Some(startingVersion.version),
+        endingVersionOpt.map(_.version))
+    } else {
+      DeltaCDFRelation(
+        SnapshotWithSchemaMode(snapshotToUse, schemaMode),
+        spark.sqlContext,
+        catalogTableOpt,
+        Some(startingVersion.version),
+        endingVersionOpt.map(_.version))
+    }
   }
 
   private def verifyStartingVersion(
@@ -444,14 +523,26 @@ trait CDCReaderImpl extends DeltaLogging {
       snapshot: Snapshot,
       catalogTableOpt: Option[CatalogTable],
       schemaMode: DeltaBatchCDFSchemaMode) = {
-    new DeltaCDFRelation(
-      SnapshotWithSchemaMode(snapshot, schemaMode),
-      spark.sqlContext,
-      catalogTableOpt,
-      startingVersion = None,
-      endingVersion = None) {
-      override def buildScan(requiredColumns: Seq[Attribute], filters: Seq[Expression]): RDD[Row] =
-        sqlContext.sparkSession.sparkContext.emptyRDD[Row]
+    if (spark.sessionState.conf.getConf(DeltaSQLConf.DELTA_CDF_BATCH_STATIC_READER)) {
+      DeltaCDFRelationAtAnalysis(
+        SnapshotWithSchemaMode(snapshot, schemaMode),
+        spark.sqlContext,
+        catalogTableOpt,
+        startingVersion = None,
+        endingVersion = None)
+    } else {
+      new DeltaCDFRelation(
+        SnapshotWithSchemaMode(snapshot, schemaMode),
+        spark.sqlContext,
+        catalogTableOpt,
+        startingVersion = None,
+        endingVersion = None) {
+        override def buildScan(
+            requiredColumns: Seq[Attribute],
+            filters: Seq[Expression]): RDD[Row] = {
+          sqlContext.sparkSession.sparkContext.emptyRDD[Row]
+        }
+      }
     }
   }
 
diff --git a/spark/src/main/scala/org/apache/spark/sql/delta/sources/DeltaSQLConf.scala b/spark/src/main/scala/org/apache/spark/sql/delta/sources/DeltaSQLConf.scala
@@ -2070,6 +2070,35 @@ trait DeltaSQLConfBase {
       .booleanConf
       .createWithDefault(false)
 
+  val DELTA_CDF_BATCH_STATIC_READER =
+    buildConf("changeDataFeed.batch.staticReader")
+      .doc(
+        s"""If enabled, Delta uses an explicit query plan to read CDC changes instead of RDD impl.
+           |This enables query plan optimizations via Spark Plan Optimizer when applicable.
+           |The original CDF reader implementation uses Spark PrunedFilteredScan API,
+           |which performs a slower RDD-based scan and does not show jobs in the Spark UI.
+           |This optimization is applied to CDF reads with start and end timestamps/versions
+           |specified.
+           |If changeDataFeed.batch.staticReader.startOnly.enabled is set to true, it will
+           |also apply the optimization to the CDF reads with start version only
+           |and the end version is decided at Spark Query Plan Analyzer, not the execution time.
+           """.stripMargin)
+      .internal()
+      .booleanConf
+      .createWithDefault(true)
+
+  val DELTA_CDF_BATCH_STATIC_READER_START_ONLY =
+    buildConf("changeDataFeed.batch.staticReader.startOnly.enabled")
+      .doc(
+        s"""If enabled, changeDataFeed.batch.staticReader optimization also applies
+           |CDF read queries with start version only, non streaming scenario.
+           |The main caveat with the optimization is that, if the end version is not specified,
+           |it might not use the latest version if the table is updated after analysis.
+           """.stripMargin)
+      .internal()
+      .booleanConf
+      .createWithDefault(true)
+
   val DELTA_COLUMN_MAPPING_CHECK_MAX_COLUMN_ID =
     buildConf("columnMapping.checkMaxColumnId")
       .doc(
diff --git a/spark/src/test/scala/org/apache/spark/sql/delta/DeltaCDCSQLSuite.scala b/spark/src/test/scala/org/apache/spark/sql/delta/DeltaCDCSQLSuite.scala
@@ -24,6 +24,7 @@ import org.apache.spark.sql.delta.coordinatedcommits.CatalogOwnedTableUtils
 import org.apache.spark.sql.delta.sources.DeltaSQLConf
 import org.apache.spark.sql.delta.test.DeltaTestImplicits._
 
+import org.apache.spark.SparkConf
 import org.apache.spark.sql.{AnalysisException, DataFrame}
 import org.apache.spark.sql.catalyst.TableIdentifier
 import org.apache.spark.sql.catalyst.util.DateTimeTestUtils._
@@ -396,3 +397,10 @@ class DeltaCDCSQLWithCatalogOwnedBatch2Suite extends DeltaCDCSQLSuite {
 class DeltaCDCSQLWithCatalogOwnedBatch100Suite extends DeltaCDCSQLSuite {
   override def catalogOwnedCoordinatorBackfillBatchSize: Option[Int] = Some(100)
 }
+
+class DeltaCDCSQLWithAtAnalyzerOptSuite
+  extends DeltaCDCSQLSuite {
+  override protected def sparkConf: SparkConf = super.sparkConf
+    .set(DeltaSQLConf.DELTA_CDF_BATCH_STATIC_READER.key, "true")
+    .set(DeltaConfigs.CHANGE_DATA_FEED.defaultTablePropertyKey, "true")
+}
diff --git a/spark/src/test/scala/org/apache/spark/sql/delta/DeltaCDCSuite.scala b/spark/src/test/scala/org/apache/spark/sql/delta/DeltaCDCSuite.scala
diff --git a/spark/src/test/scala/org/apache/spark/sql/delta/cdc/CDCReaderSuite.scala b/spark/src/test/scala/org/apache/spark/sql/delta/cdc/CDCReaderSuite.scala

Original file line number	Diff line number	Diff line change
`@@ -89,8 +89,13 @@ object SparkMimaExcludes {`
`89`	`89`	`// Changes in 4.0.0`
`90`	`90`	`ProblemFilters.exclude[IncompatibleResultTypeProblem]("io.delta.tables.DeltaTable.improveUnsupportedOpError"),`
`91`	`91`	`ProblemFilters.exclude[IncompatibleResultTypeProblem]("io.delta.tables.DeltaMergeBuilder.improveUnsupportedOpError"),`
`92`		`- ProblemFilters.exclude[IncompatibleResultTypeProblem]("io.delta.tables.DeltaMergeBuilder.execute")`
	`92`	`+ ProblemFilters.exclude[IncompatibleResultTypeProblem]("io.delta.tables.DeltaMergeBuilder.execute"),`
`93`	`93`
	`94`	`+ // CDC Optimization`
	`95`	`+ ProblemFilters.exclude[ReversedMissingMethodProblem]("org.apache.spark.sql.delta.sources.DeltaSQLConfBase.org$apache$spark$sql$delta$sources$DeltaSQLConfBase$_setter_$DELTA_CDF_BATCH_STATIC_READER_="),`
	`96`	`+ ProblemFilters.exclude[ReversedMissingMethodProblem]("org.apache.spark.sql.delta.sources.DeltaSQLConfBase.DELTA_CDF_BATCH_STATIC_READER"),`
	`97`	`+ ProblemFilters.exclude[ReversedMissingMethodProblem]("org.apache.spark.sql.delta.sources.DeltaSQLConfBase.org$apache$spark$sql$delta$sources$DeltaSQLConfBase$_setter_$DELTA_CDF_BATCH_STATIC_READER_START_ONLY_="),`
	`98`	`+ ProblemFilters.exclude[ReversedMissingMethodProblem]("org.apache.spark.sql.delta.sources.DeltaSQLConfBase.DELTA_CDF_BATCH_STATIC_READER_START_ONLY")`
`94`	`99`	`// scalastyle:on line.size.limit`
`95`	`100`	`)`
`96`	`101`	`}`