opt on aligned address

chraac · chraac · commit 27be1eb61a7d · 2025-06-03T15:08:07.000+08:00
wip
diff --git a/ggml/src/ggml-qnn/npu/device/op_mul_mat.cpp b/ggml/src/ggml-qnn/npu/device/op_mul_mat.cpp
@@ -168,6 +168,39 @@ bool is_quantized_mul_mat_supported(const npu_device_tensor_spec & src0, const n
     return true;
 }
 
+bool is_mulmat_tensors_aligned(hexagon::tensor * out) {
+    static_assert(DEVICE_TENSOR_MAX_DIMS == 4, "mul_mat_f32 requires max dims 4");
+    auto * src0 = out->get_src(0);
+    auto * src1 = out->get_src(1);
+
+    if (!hexagon::is_addr_aligned(src0->get_read_buffer()) || src0->get_nb(1) % hexagon::kBytesPerVector ||
+        !hexagon::is_addr_aligned(src1->get_read_buffer()) || src1->get_nb(1) % hexagon::kBytesPerVector) {
+        DEVICE_LOG_DEBUG(
+            "mul_mat_tensors_aligned: src0: %p, src1: %p, src0.nb[1]: %ld, src1.nb[1]: %ld "
+            "not aligned to %zu\n",
+            src0->get_read_buffer(), src1->get_read_buffer(), (long) src0->get_nb(1), (long) src1->get_nb(1),
+            hexagon::kBytesPerVector);
+        return false;
+    }
+
+    const auto src1_type_size = hexagon::get_type_traits(src1->get_type()).type_size;
+    if ((src1->get_ne(0) * src1_type_size) % hexagon::kBytesPerVector) {
+        DEVICE_LOG_DEBUG("mul_mat_tensors_aligned: src1.ne[0]: %ld, src1.type_size: %zu not aligned to %zu\n",
+                         (long) src1->get_ne(0), src1_type_size, hexagon::kBytesPerVector);
+        return false;
+    }
+
+    const auto & src0_traits    = hexagon::get_type_traits(src1->get_type());
+    const auto   src0_type_size = src0_traits.is_quantized ? sizeof(float) : src0_traits.type_size;
+    if ((src0->get_ne(0) * src0_type_size) % hexagon::kBytesPerVector) {
+        DEVICE_LOG_DEBUG("mul_mat_tensors_aligned: src0.ne[0]: %ld, src0.type_size: %zu not aligned to %zu\n",
+                         (long) src0->get_ne(0), src0_type_size, hexagon::kBytesPerVector);
+        return false;
+    }
+
+    return true;
+}
+
 }  // namespace
 
 namespace hexagon {
@@ -184,17 +217,34 @@ bool mul_mat_f32(hexagon::tensor * out, compute_params * params) {
         return true;  // skip if no src
     }
 
-    // TODO: array?
-    switch (src1->get_type()) {
-        case NPU_DATA_TYPE_F32:
-            mul_mat_impl<hexagon::vec_dot_product_f32_f32>(src0, src1, out, params);
-            return true;
-
-        case NPU_DATA_TYPE_F16:
-            mul_mat_impl<hexagon::vec_dot_product_f16_f16>(src0, src1, out, params);
-            return true;
-        default:
-            break;
+    if (is_mulmat_tensors_aligned(out)) {
+        DEVICE_LOG_DEBUG("mul_mat_f32: src0 and src1 aligned\n");
+
+        switch (src1->get_type()) {
+            case NPU_DATA_TYPE_F32:
+                mul_mat_impl<hexagon::vec_dot_product_aligned_f32_f32>(src0, src1, out, params);
+                return true;
+
+            case NPU_DATA_TYPE_F16:
+                mul_mat_impl<hexagon::vec_dot_product_aligned_f16_f16>(src0, src1, out, params);
+                return true;
+            default:
+                break;
+        }
+    } else {
+        DEVICE_LOG_DEBUG("mul_mat_f32: src0 or src1 not aligned\n");
+
+        switch (src1->get_type()) {
+            case NPU_DATA_TYPE_F32:
+                mul_mat_impl<hexagon::vec_dot_product_f32_f32>(src0, src1, out, params);
+                return true;
+
+            case NPU_DATA_TYPE_F16:
+                mul_mat_impl<hexagon::vec_dot_product_f16_f16>(src0, src1, out, params);
+                return true;
+            default:
+                break;
+        }
     }
 
     DEVICE_LOG_ERROR("Unsupported src1 tensor type: %s\n", get_type_name(src1->get_type()));
diff --git a/ggml/src/ggml-qnn/npu/device/vec_ops.cpp b/ggml/src/ggml-qnn/npu/device/vec_ops.cpp
@@ -90,6 +90,32 @@ inline float vec_dot_product_impl(const _TElem * src0, const _TElem * src1, size
     return _ReduceFunc(sum);
 }
 
+template <typename _TElem, HVX_Vector (*_MpyFunc)(HVX_Vector, HVX_Vector),
+          HVX_Vector (*_AddFunc)(HVX_Vector, HVX_Vector), float (*_ReduceFunc)(HVX_Vector)>
+inline float vec_dot_product_aligned_impl(const _TElem * src0, const _TElem * src1, size_t count) {
+    constexpr const size_t kElementsPerVector = hexagon::kBytesPerVector / sizeof(_TElem);
+
+    HVX_Vector * src0_vec_ptr     = ((HVX_Vector *) src0);
+    HVX_Vector * src0_vec_ptr_end = ((HVX_Vector *) src0) + count / kElementsPerVector;
+    HVX_Vector * src1_vec_ptr     = ((HVX_Vector *) src1);
+    HVX_Vector   sum0             = Q6_V_vzero();
+    HVX_Vector   sum1             = Q6_V_vzero();
+
+    while (src0_vec_ptr_end - src0_vec_ptr > 1) {
+        HVX_Vector curr0_lo = src0_vec_ptr[0];
+        HVX_Vector curr0_hi = src0_vec_ptr[1];
+        HVX_Vector curr1_lo = src1_vec_ptr[0];
+        HVX_Vector curr1_hi = src1_vec_ptr[1];
+        src0_vec_ptr += 2;
+        src1_vec_ptr += 2;
+
+        sum0 = _AddFunc(_MpyFunc(curr0_lo, curr1_lo), sum0);
+        sum1 = _AddFunc(_MpyFunc(curr0_hi, curr1_hi), sum1);
+    }
+
+    return _ReduceFunc(_AddFunc(sum0, sum1));
+}
+
 inline HVX_Vector vec_mpy_qf32(HVX_Vector src0, HVX_Vector src1) {
     return Q6_Vqf32_vmpy_VsfVsf(src0, src1);
 }
@@ -114,10 +140,19 @@ float vec_dot_product_f32_f32(const float * src0, const float * src1, size_t cou
     return vec_dot_product_impl<float, vec_mpy_qf32, vec_add_qf32, hexagon::vec_reduction_qf32_f32>(src0, src1, count);
 }
 
-// TODO: merge with vec_dot_product_f32_f32?
+float vec_dot_product_aligned_f32_f32(const float * src0, const float * src1, size_t count) {
+    return vec_dot_product_aligned_impl<float, vec_mpy_qf32, vec_add_qf32, hexagon::vec_reduction_qf32_f32>(src0, src1,
+                                                                                                            count);
+}
+
 float vec_dot_product_f16_f16(const npu_device_fp16_t * src0, const npu_device_fp16_t * src1, size_t count) {
     return vec_dot_product_impl<npu_device_fp16_t, vec_mpy_qf16, vec_add_qf16, hexagon::vec_reduction_qf16_f32>(
         src0, src1, count);
 }
 
+float vec_dot_product_aligned_f16_f16(const npu_device_fp16_t * src0, const npu_device_fp16_t * src1, size_t count) {
+    return vec_dot_product_aligned_impl<npu_device_fp16_t, vec_mpy_qf16, vec_add_qf16, hexagon::vec_reduction_qf16_f32>(
+        src0, src1, count);
+}
+
 }  // namespace hexagon
diff --git a/ggml/src/ggml-qnn/npu/device/vec_ops.hpp b/ggml/src/ggml-qnn/npu/device/vec_ops.hpp
@@ -16,7 +16,7 @@ inline size_t unaligned_bytes(const void * addr) {
     return ((size_t) addr) & kAlignMask;
 }
 
-inline bool is_addr_aligned(void * addr) {
+inline bool is_addr_aligned(const void * addr) {
     return unaligned_bytes(addr) == 0;
 }
 
@@ -275,7 +275,9 @@ inline void vec_mad_f16(const npu_device_fp16_t * src, float scale, npu_device_f
 }
 
 float vec_dot_product_f32_f32(const float * src0, const float * src1, size_t count);
+float vec_dot_product_aligned_f32_f32(const float * src0, const float * src1, size_t count);
 
 float vec_dot_product_f16_f16(const npu_device_fp16_t * src0, const npu_device_fp16_t * src1, size_t count);
+float vec_dot_product_aligned_f16_f16(const npu_device_fp16_t * src0, const npu_device_fp16_t * src1, size_t count);
 
 }  // namespace hexagon

Original file line number	Diff line number	Diff line change
`@@ -16,7 +16,7 @@ inline size_t unaligned_bytes(const void * addr) {`
`16`	`16`	`return ((size_t) addr) & kAlignMask;`
`17`	`17`	`}`
`18`	`18`
`19`		`-inline bool is_addr_aligned(void * addr) {`
	`19`	`+inline bool is_addr_aligned(const void * addr) {`
`20`	`20`	`return unaligned_bytes(addr) == 0;`
`21`	`21`	`}`
`22`	`22`
`@@ -275,7 +275,9 @@ inline void vec_mad_f16(const npu_device_fp16_t * src, float scale, npu_device_f`
`275`	`275`	`}`
`276`	`276`
`277`	`277`	`float vec_dot_product_f32_f32(const float * src0, const float * src1, size_t count);`
	`278`	`+float vec_dot_product_aligned_f32_f32(const float * src0, const float * src1, size_t count);`
`278`	`279`
`279`	`280`	`float vec_dot_product_f16_f16(const npu_device_fp16_t * src0, const npu_device_fp16_t * src1, size_t count);`
	`281`	`+float vec_dot_product_aligned_f16_f16(const npu_device_fp16_t * src0, const npu_device_fp16_t * src1, size_t count);`
`280`	`282`
`281`	`283`	`} // namespace hexagon`