rebase

coderfender · coderfender · commit dccd14af9d06 · 2025-09-24T12:23:34.000-07:00
diff --git a/native/spark-expr/src/static_invoke/char_varchar_utils/read_side_padding.rs b/native/spark-expr/src/static_invoke/char_varchar_utils/read_side_padding.rs
@@ -25,6 +25,7 @@ use datafusion::common::{cast::as_generic_string_array, DataFusionError, ScalarV
 use datafusion::physical_plan::ColumnarValue;
 use std::sync::Arc;
 
+const SPACE: &str = " ";
 /// Similar to DataFusion `rpad`, but not to truncate when the string is already longer than length
 pub fn spark_read_side_padding(args: &[ColumnarValue]) -> Result<ColumnarValue, DataFusionError> {
     spark_read_side_padding2(args, false)
@@ -46,13 +47,13 @@ fn spark_read_side_padding2(
                     array,
                     truncate,
                     ColumnarValue::Scalar(ScalarValue::Int32(Some(*length))),
-                    " ",
+                    SPACE,
                 ),
                 DataType::LargeUtf8 => spark_read_side_padding_internal::<i64>(
                     array,
                     truncate,
                     ColumnarValue::Scalar(ScalarValue::Int32(Some(*length))),
-                    " ",
+                    SPACE,
                 ),
                 // Dictionary support required for SPARK-48498
                 DataType::Dictionary(_, value_type) => {
@@ -62,14 +63,14 @@ fn spark_read_side_padding2(
                             dict.values(),
                             truncate,
                             ColumnarValue::Scalar(ScalarValue::Int32(Some(*length))),
-                            " ",
+                            SPACE,
                         )?
                     } else {
                         spark_read_side_padding_internal::<i64>(
                             dict.values(),
                             truncate,
                             ColumnarValue::Scalar(ScalarValue::Int32(Some(*length))),
-                            " ",
+                            SPACE,
                         )?
                     };
                     // col consists of an array, so arg of to_array() is not used. Can be anything
@@ -105,14 +106,14 @@ fn spark_read_side_padding2(
                             dict.values(),
                             truncate,
                             ColumnarValue::Scalar(ScalarValue::Int32(Some(*length))),
-                            " ",
+                            SPACE,
                         )?
                     } else {
                         spark_read_side_padding_internal::<i64>(
                             dict.values(),
                             truncate,
                             ColumnarValue::Scalar(ScalarValue::Int32(Some(*length))),
-                            " ",
+                            SPACE,
                         )?
                     };
                     // col consists of an array, so arg of to_array() is not used. Can be anything
@@ -130,13 +131,13 @@ fn spark_read_side_padding2(
                 array,
                 truncate,
                 ColumnarValue::Array(Arc::<dyn Array>::clone(array_int)),
-                " ",
+                SPACE,
             ),
             DataType::LargeUtf8 => spark_read_side_padding_internal::<i64>(
                 array,
                 truncate,
                 ColumnarValue::Array(Arc::<dyn Array>::clone(array_int)),
-                " ",
+                SPACE,
             ),
             other => Err(DataFusionError::Internal(format!(
                 "Unsupported data type {other:?} for function rpad/read_side_padding",
diff --git a/spark/src/test/scala/org/apache/comet/CometExpressionSuite.scala b/spark/src/test/scala/org/apache/comet/CometExpressionSuite.scala
@@ -408,7 +408,7 @@ class CometExpressionSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     }
   }
   test("Verify rpad expr support for second arg instead of just literal") {
-    val data = Seq(("IfIWasARoadIWouldBeBent", 50), ("తెలుగు", 2))
+    val data = Seq(("IfIWasARoadIWouldBeBent", 10), ("తెలుగు", 2))
     withParquetTable(data, "t1") {
       val res = sql("select rpad(_1,_2) , rpad(_1,2) from t1 order by _1")
       checkSparkAnswerAndOperator(res)
@@ -419,8 +419,8 @@ class CometExpressionSuite extends CometTestBase with AdaptiveSparkPlanHelper {
     val data = Seq(("IfIWasARoadIWouldBeBent", 10), ("hi", 2))
     withParquetTable(data, "t1") {
       val res = sql(
-        "select rpad(_1,_2,'?'), rpad(_1,_2,'??') , rpad(_1,2, '??'), hex(rpad(unhex('aabb'), 5)), rpad(_1, 5, '??')  " +
-          "from t1 order by _1")
+        """ select rpad(_1,_2,'?'), rpad(_1,_2,'??') , rpad(_1,2, '??'), hex(rpad(unhex('aabb'), 5)), |
+          rpad(_1, 5, '??') from t1 order by _1) """.stripMargin)
       checkSparkAnswerAndOperator(res)
     }
   }

Original file line number	Diff line number	Diff line change
`@@ -408,7 +408,7 @@ class CometExpressionSuite extends CometTestBase with AdaptiveSparkPlanHelper {`
`408`	`408`	`}`
`409`	`409`	`}`
`410`	`410`	`test("Verify rpad expr support for second arg instead of just literal") {`
`411`		`- val data = Seq(("IfIWasARoadIWouldBeBent", 50), ("తెలుగు", 2))`
	`411`	`+ val data = Seq(("IfIWasARoadIWouldBeBent", 10), ("తెలుగు", 2))`
`412`	`412`	`withParquetTable(data, "t1") {`
`413`	`413`	`val res = sql("select rpad(_1,_2) , rpad(_1,2) from t1 order by _1")`
`414`	`414`	`checkSparkAnswerAndOperator(res)`
`@@ -419,8 +419,8 @@ class CometExpressionSuite extends CometTestBase with AdaptiveSparkPlanHelper {`
`419`	`419`	`val data = Seq(("IfIWasARoadIWouldBeBent", 10), ("hi", 2))`
`420`	`420`	`withParquetTable(data, "t1") {`
`421`	`421`	`val res = sql(`
`422`		`- "select rpad(_1,_2,'?'), rpad(_1,_2,'??') , rpad(_1,2, '??'), hex(rpad(unhex('aabb'), 5)), rpad(_1, 5, '??') " +`
`423`		`- "from t1 order by _1")`
	`422`	`+ """ select rpad(_1,_2,'?'), rpad(_1,_2,'??') , rpad(_1,2, '??'), hex(rpad(unhex('aabb'), 5)), \|`
	`423`	`+ rpad(_1, 5, '??') from t1 order by _1) """.stripMargin)`
`424`	`424`	`checkSparkAnswerAndOperator(res)`
`425`	`425`	`}`
`426`	`426`	`}`