aarch64: Optimize SVE encode functions to use peak-performance vector combinations

AWSjswinney · AWSjswinney · commit b01e834f18a0 · 2025-10-16T13:51:24.000-05:00
Update both ec_encode_data_sve() and ec_encode_data_sve2() to use optimal
4 and 5 vector combinations based on benchmark results showing these
achieve the highest performance.

Key optimizations:
- Loop over 4-vector operations when rows &gt; 7 (peak performance)
- Use 4+3 combination for 7 vectors instead of single 7-vector call
- Use 4+2 combination for 6 vectors instead of single 6-vector call
- Keep 5-vector for 5 vectors (second-best performance)
- Applies to both SVE and SVE2 variants for consistent optimization

This leverages the benchmark findings that 4 and 5 vector operations
achieve 40+ GB/s performance, significantly better than 6-7 vector
operations which drop to 30-36 GB/s.

Signed-off-by: Jonathan Swinney &lt;jswinney@amazon.com&gt;
diff --git a/erasure_code/aarch64/ec_aarch64_highlevel_func.c b/erasure_code/aarch64/ec_aarch64_highlevel_func.c
@@ -214,47 +214,27 @@ ec_encode_data_sve(int len, int k, int rows, unsigned char *g_tbls, unsigned cha
                 return;
         }
 
-        while (rows > 11) {
-                gf_6vect_dot_prod_sve(len, k, g_tbls, data, coding);
-                g_tbls += 6 * k * 32;
-                coding += 6;
-                rows -= 6;
+        while (rows > 7) {
+                gf_4vect_dot_prod_sve(len, k, g_tbls, data, coding);
+                g_tbls += 4 * k * 32;
+                coding += 4;
+                rows -= 4;
         }
 
         switch (rows) {
-        case 11:
-                /* 7 + 4 */
-                gf_7vect_dot_prod_sve(len, k, g_tbls, data, coding);
-                g_tbls += 7 * k * 32;
-                coding += 7;
-                gf_4vect_dot_prod_sve(len, k, g_tbls, data, coding);
-                break;
-        case 10:
-                /* 6 + 4 */
-                gf_6vect_dot_prod_sve(len, k, g_tbls, data, coding);
-                g_tbls += 6 * k * 32;
-                coding += 6;
-                gf_4vect_dot_prod_sve(len, k, g_tbls, data, coding);
-                break;
-        case 9:
-                /* 5 + 4 */
-                gf_5vect_dot_prod_sve(len, k, g_tbls, data, coding);
-                g_tbls += 5 * k * 32;
-                coding += 5;
-                gf_4vect_dot_prod_sve(len, k, g_tbls, data, coding);
-                break;
-        case 8:
-                /* 4 + 4 */
+        case 7:
+                /* 4 + 3 */
                 gf_4vect_dot_prod_sve(len, k, g_tbls, data, coding);
                 g_tbls += 4 * k * 32;
                 coding += 4;
-                gf_4vect_dot_prod_sve(len, k, g_tbls, data, coding);
-                break;
-        case 7:
-                gf_7vect_dot_prod_sve(len, k, g_tbls, data, coding);
+                gf_3vect_dot_prod_sve(len, k, g_tbls, data, coding);
                 break;
         case 6:
-                gf_6vect_dot_prod_sve(len, k, g_tbls, data, coding);
+                /* 4 + 2 */
+                gf_4vect_dot_prod_sve(len, k, g_tbls, data, coding);
+                g_tbls += 4 * k * 32;
+                coding += 4;
+                gf_2vect_dot_prod_sve(len, k, g_tbls, data, coding);
                 break;
         case 5:
                 gf_5vect_dot_prod_sve(len, k, g_tbls, data, coding);
@@ -285,47 +265,27 @@ ec_encode_data_sve2(int len, int k, int rows, unsigned char *g_tbls, unsigned ch
                 return;
         }
 
-        while (rows > 11) {
-                gf_6vect_dot_prod_sve2(len, k, g_tbls, data, coding);
-                g_tbls += 6 * k * 32;
-                coding += 6;
-                rows -= 6;
+        while (rows > 7) {
+                gf_4vect_dot_prod_sve2(len, k, g_tbls, data, coding);
+                g_tbls += 4 * k * 32;
+                coding += 4;
+                rows -= 4;
         }
 
         switch (rows) {
-        case 11:
-                /* 7 + 4 */
-                gf_7vect_dot_prod_sve2(len, k, g_tbls, data, coding);
-                g_tbls += 7 * k * 32;
-                coding += 7;
-                gf_4vect_dot_prod_sve2(len, k, g_tbls, data, coding);
-                break;
-        case 10:
-                /* 6 + 4 */
-                gf_6vect_dot_prod_sve2(len, k, g_tbls, data, coding);
-                g_tbls += 6 * k * 32;
-                coding += 6;
-                gf_4vect_dot_prod_sve2(len, k, g_tbls, data, coding);
-                break;
-        case 9:
-                /* 5 + 4 */
-                gf_5vect_dot_prod_sve2(len, k, g_tbls, data, coding);
-                g_tbls += 5 * k * 32;
-                coding += 5;
-                gf_4vect_dot_prod_sve2(len, k, g_tbls, data, coding);
-                break;
-        case 8:
-                /* 4 + 4 */
+        case 7:
+                /* 4 + 3 */
                 gf_4vect_dot_prod_sve2(len, k, g_tbls, data, coding);
                 g_tbls += 4 * k * 32;
                 coding += 4;
-                gf_4vect_dot_prod_sve2(len, k, g_tbls, data, coding);
-                break;
-        case 7:
-                gf_7vect_dot_prod_sve2(len, k, g_tbls, data, coding);
+                gf_3vect_dot_prod_sve2(len, k, g_tbls, data, coding);
                 break;
         case 6:
-                gf_6vect_dot_prod_sve2(len, k, g_tbls, data, coding);
+                /* 4 + 2 */
+                gf_4vect_dot_prod_sve2(len, k, g_tbls, data, coding);
+                g_tbls += 4 * k * 32;
+                coding += 4;
+                gf_2vect_dot_prod_sve2(len, k, g_tbls, data, coding);
                 break;
         case 5:
                 gf_5vect_dot_prod_sve2(len, k, g_tbls, data, coding);