Added bf16 sum and sum_squared to arm neon.

Aelphy · xnnpack-bot · commit bd22b0df04df · 2025-12-05T15:20:49.000-08:00
PiperOrigin-RevId: 840865133
diff --git a/ynnpack/kernels/reduce/arm_neon.cc b/ynnpack/kernels/reduce/arm_neon.cc
@@ -15,16 +15,89 @@
 #include <type_traits>
 
 #include "ynnpack/base/arithmetic.h"
+#include "ynnpack/base/simd/multi_vec.h"
 #include "ynnpack/kernels/reduce/generic.h"
 #include "ynnpack/kernels/reduce/min_max_accumulator.h"
 #include "ynnpack/kernels/reduce/reduce.h"
 #include "ynnpack/kernels/reduce/sum_accumulator.h"
 
 namespace ynn {
 
+namespace simd {
+
+using bf16x8x8 = multi_vec<bf16x8, 8>;
+using f32x4x16 = multi_vec<f32x4, 16>;
+
+static f32x4x16 reduce_add(
+    f32x4x16 a, bf16x8x8 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    float32x4_t lo =
+        vreinterpretq_f32_u32(vshll_n_u16(vget_low_u16(b.v[i].v), 16));
+    float32x4_t hi =
+        vreinterpretq_f32_u32(vshll_n_u16(vget_high_u16(b.v[i].v), 16));
+
+    a.v[2 * i] += f32x4{lo};
+    a.v[2 * i + 1] += f32x4{hi};
+  }
+
+  return a;
+}
+
+static f32x4 reduce_add(
+    f32x4 a, bf16x8 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  float32x4_t lo = vreinterpretq_f32_u32(vshll_n_u16(vget_low_u16(b.v), 16));
+  float32x4_t hi = vreinterpretq_f32_u32(vshll_n_u16(vget_high_u16(b.v), 16));
+#ifndef __aarch64__
+  float32x2_t pair_lo = vpadd_f32(vget_low_f32(lo), vget_high_f32(lo));
+  float32x2_t pair_hi = vpadd_f32(vget_low_f32(hi), vget_high_f32(hi));
+  return a += f32x4{vcombine_f32(pair_lo, pair_hi)};
+#else
+  return a += f32x4{vpaddq_f32(lo, hi)};
+#endif
+}
+
+static f32x4x16 reduce_add(
+    f32x4x16 a, bf16x8x8 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    float32x4_t lo =
+        vreinterpretq_f32_u32(vshll_n_u16(vget_low_u16(b.v[i].v), 16));
+    float32x4_t hi =
+        vreinterpretq_f32_u32(vshll_n_u16(vget_high_u16(b.v[i].v), 16));
+    a.v[2 * i].v = vmlaq_f32(a.v[2 * i].v, lo, lo);
+    a.v[2 * i + 1].v = vmlaq_f32(a.v[2 * i + 1].v, hi, hi);
+  }
+
+  return a;
+}
+
+static f32x4 reduce_add(
+    f32x4 a, bf16x8 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  float32x4_t lo = vreinterpretq_f32_u32(vshll_n_u16(vget_low_u16(b.v), 16));
+  float32x4_t hi = vreinterpretq_f32_u32(vshll_n_u16(vget_high_u16(b.v), 16));
+#ifndef __aarch64__
+  float32x4_t sq_lo = vmulq_f32(lo, lo);
+  float32x4_t sq_hi = vmulq_f32(hi, hi);
+  float32x2_t pair_lo = vpadd_f32(vget_low_f32(sq_lo), vget_high_f32(sq_lo));
+  float32x2_t pair_hi = vpadd_f32(vget_low_f32(sq_hi), vget_high_f32(sq_hi));
+  return a += f32x4{vcombine_f32(pair_lo, pair_hi)};
+#else
+  return a += f32x4{vpaddq_f32(vmulq_f32(lo, lo), vmulq_f32(hi, hi))};
+#endif
+}
+
+}  // namespace simd
+
+using simd::f32x4;
+using simd::f32x4x16;
 using simd::bf16x8;
+using simd::bf16x8x8;
 using simd::f16x8;
-using simd::f32x4;
 using simd::s16x8;
 using simd::s8x16;
 using simd::u8x16;
@@ -50,6 +123,42 @@ MIN_MAX_KERNEL(max_fp16_4x8_neon, dummy_t, f16x8_rvar, half, 8);
 MIN_MAX_KERNEL(max_uint8_4x16_neon, dummy_t, u8x16, uint8_t, 16);
 MIN_MAX_KERNEL(max_int8_4x16_neon, dummy_t, s8x16, int8_t, 16);
 
+void sum_bf16_fp32_neon(size_t n, size_t k3, size_t k2, size_t k1,
+                        size_t a_stride_n, size_t a_stride_k3,
+                        size_t a_stride_k2, const void* a, size_t,
+                        void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x8x8, f32x4x16, Square>, bfloat16,
+      float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x4, 8>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
+void sum_squared_bf16_fp32_neon(size_t n, size_t k3, size_t k2, size_t k1,
+                                size_t a_stride_n, size_t a_stride_k3,
+                                size_t a_stride_k2, const void* a, size_t,
+                                void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x8x8, f32x4x16, Square>, bfloat16,
+      float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x4, 8, Square>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
 void sum_fp32_neon(size_t n, size_t k3, size_t k2, size_t k1,
                    size_t a_stride_n, size_t a_stride_k3, size_t a_stride_k2,
                    const void* a, size_t, void* c) {
diff --git a/ynnpack/kernels/reduce/sum.inc b/ynnpack/kernels/reduce/sum.inc
@@ -1,16 +1,17 @@
 // clang-format off
 
-#ifdef YNN_ARCH_ARM_NEON
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_fp32_neon, float, float)
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_int8_int32_neondot, int8_t, int32_t)
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_uint8_int32_neondot, uint8_t, int32_t)
-#endif  // YNN_ARCH_ARM_NEON
 #ifdef YNN_ARCH_ARM_NEONBF16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::neonbf16, sum_bf16_fp32_neonbf16, bfloat16, float)
 #endif // YNN_ARCH_ARM_NEONBF16
 #ifdef YNN_ARCH_ARM_NEONFP16ARITH
 YNN_UNARY_REDUCE_KERNEL(arch_flag::neonfp16arith, sum_fp16_fp32_neonfp16arith, half, float)
 #endif  // YNN_ARCH_ARM_NEONFP16ARITH
+#ifdef YNN_ARCH_ARM_NEON
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_fp32_neon, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_bf16_fp32_neon, bfloat16, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_int8_int32_neondot, int8_t, int32_t)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_uint8_int32_neondot, uint8_t, int32_t)
+#endif  // YNN_ARCH_ARM_NEON
 
 #ifdef YNN_ARCH_X86_AVX512BF16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bf16, sum_bf16_fp32_avx512bf16, bfloat16, float)
diff --git a/ynnpack/kernels/reduce/sum_squared.inc b/ynnpack/kernels/reduce/sum_squared.inc
@@ -1,16 +1,17 @@
 // clang-format off
 
-#ifdef YNN_ARCH_ARM_NEON
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_squared_fp32_neon, float, float)
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_squared_int8_int32_neondot, int8_t, int32_t)
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_squared_uint8_int32_neondot, uint8_t, int32_t)
-#endif  // YNN_ARCH_ARM_NEON
 #ifdef YNN_ARCH_ARM_NEONBF16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::neonbf16, sum_squared_bf16_fp32_neonbf16, bfloat16, float)
 #endif // YNN_ARCH_ARM_NEONBF16
 #ifdef YNN_ARCH_ARM_NEONFP16ARITH
 YNN_UNARY_REDUCE_KERNEL(arch_flag::neonfp16arith, sum_squared_fp16_fp32_neonfp16arith, half, float)
 #endif  // YNN_ARCH_ARM_NEONFP16ARITH
+#ifdef YNN_ARCH_ARM_NEON
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_squared_fp32_neon, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_squared_bf16_fp32_neon, bfloat16, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_squared_int8_int32_neondot, int8_t, int32_t)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_squared_uint8_int32_neondot, uint8_t, int32_t)
+#endif  // YNN_ARCH_ARM_NEON
 
 #ifdef YNN_ARCH_X86_AVX512BF16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bf16, sum_squared_bf16_fp32_avx512bf16, bfloat16, float)