Added bf16 sum and sum_squared to avx2.

Aelphy · xnnpack-bot · commit 70a97fc521e7 · 2025-12-05T15:36:04.000-08:00
Fixed avx512bf16 version to be the same as for neonbf16.

PiperOrigin-RevId: 840891405
diff --git a/ynnpack/kernels/reduce/BUILD b/ynnpack/kernels/reduce/BUILD
@@ -55,6 +55,7 @@ ynn_cc_library(
         "x86_f16c": ["x86_f16c.cc"],
         "x86_avx512fp16": ["x86_avx512fp16.cc"],
         "x86_avx2": ["x86_avx2.cc"],
+        "x86_avx2_fma3": ["x86_avx2_fma3.cc"],
     },
     visibility = ["//ynnpack:__subpackages__"],
     deps = [
diff --git a/ynnpack/kernels/reduce/arm_neon.cc b/ynnpack/kernels/reduce/arm_neon.cc
@@ -15,16 +15,89 @@
 #include <type_traits>
 
 #include "ynnpack/base/arithmetic.h"
+#include "ynnpack/base/simd/multi_vec.h"
 #include "ynnpack/kernels/reduce/generic.h"
 #include "ynnpack/kernels/reduce/min_max_accumulator.h"
 #include "ynnpack/kernels/reduce/reduce.h"
 #include "ynnpack/kernels/reduce/sum_accumulator.h"
 
 namespace ynn {
 
+namespace simd {
+
+using bf16x8x8 = multi_vec<bf16x8, 8>;
+using f32x4x16 = multi_vec<f32x4, 16>;
+
+static f32x4x16 reduce_add(
+    f32x4x16 a, bf16x8x8 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    float32x4_t lo =
+        vreinterpretq_f32_u32(vshll_n_u16(vget_low_u16(b.v[i].v), 16));
+    float32x4_t hi =
+        vreinterpretq_f32_u32(vshll_n_u16(vget_high_u16(b.v[i].v), 16));
+
+    a.v[2 * i] += f32x4{lo};
+    a.v[2 * i + 1] += f32x4{hi};
+  }
+
+  return a;
+}
+
+static f32x4 reduce_add(
+    f32x4 a, bf16x8 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  float32x4_t lo = vreinterpretq_f32_u32(vshll_n_u16(vget_low_u16(b.v), 16));
+  float32x4_t hi = vreinterpretq_f32_u32(vshll_n_u16(vget_high_u16(b.v), 16));
+#ifndef __aarch64__
+  float32x2_t pair_lo = vpadd_f32(vget_low_f32(lo), vget_high_f32(lo));
+  float32x2_t pair_hi = vpadd_f32(vget_low_f32(hi), vget_high_f32(hi));
+  return a += f32x4{vcombine_f32(pair_lo, pair_hi)};
+#else
+  return a += f32x4{vpaddq_f32(lo, hi)};
+#endif
+}
+
+static f32x4x16 reduce_add(
+    f32x4x16 a, bf16x8x8 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    float32x4_t lo =
+        vreinterpretq_f32_u32(vshll_n_u16(vget_low_u16(b.v[i].v), 16));
+    float32x4_t hi =
+        vreinterpretq_f32_u32(vshll_n_u16(vget_high_u16(b.v[i].v), 16));
+    a.v[2 * i].v = vmlaq_f32(a.v[2 * i].v, lo, lo);
+    a.v[2 * i + 1].v = vmlaq_f32(a.v[2 * i + 1].v, hi, hi);
+  }
+
+  return a;
+}
+
+static f32x4 reduce_add(
+    f32x4 a, bf16x8 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  float32x4_t lo = vreinterpretq_f32_u32(vshll_n_u16(vget_low_u16(b.v), 16));
+  float32x4_t hi = vreinterpretq_f32_u32(vshll_n_u16(vget_high_u16(b.v), 16));
+#ifndef __aarch64__
+  float32x4_t sq_lo = vmulq_f32(lo, lo);
+  float32x4_t sq_hi = vmulq_f32(hi, hi);
+  float32x2_t pair_lo = vpadd_f32(vget_low_f32(sq_lo), vget_high_f32(sq_lo));
+  float32x2_t pair_hi = vpadd_f32(vget_low_f32(sq_hi), vget_high_f32(sq_hi));
+  return a += f32x4{vcombine_f32(pair_lo, pair_hi)};
+#else
+  return a += f32x4{vpaddq_f32(vmulq_f32(lo, lo), vmulq_f32(hi, hi))};
+#endif
+}
+
+}  // namespace simd
+
+using simd::f32x4;
+using simd::f32x4x16;
 using simd::bf16x8;
+using simd::bf16x8x8;
 using simd::f16x8;
-using simd::f32x4;
 using simd::s16x8;
 using simd::s8x16;
 using simd::u8x16;
@@ -50,6 +123,42 @@ MIN_MAX_KERNEL(max_fp16_4x8_neon, dummy_t, f16x8_rvar, half, 8);
 MIN_MAX_KERNEL(max_uint8_4x16_neon, dummy_t, u8x16, uint8_t, 16);
 MIN_MAX_KERNEL(max_int8_4x16_neon, dummy_t, s8x16, int8_t, 16);
 
+void sum_bf16_fp32_neon(size_t n, size_t k3, size_t k2, size_t k1,
+                        size_t a_stride_n, size_t a_stride_k3,
+                        size_t a_stride_k2, const void* a, size_t,
+                        void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x8x8, f32x4x16, Square>, bfloat16,
+      float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x4, 8>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
+void sum_squared_bf16_fp32_neon(size_t n, size_t k3, size_t k2, size_t k1,
+                                size_t a_stride_n, size_t a_stride_k3,
+                                size_t a_stride_k2, const void* a, size_t,
+                                void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x8x8, f32x4x16, Square>, bfloat16,
+      float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x4, 8, Square>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
 void sum_fp32_neon(size_t n, size_t k3, size_t k2, size_t k1,
                    size_t a_stride_n, size_t a_stride_k3, size_t a_stride_k2,
                    const void* a, size_t, void* c) {
diff --git a/ynnpack/kernels/reduce/sum.inc b/ynnpack/kernels/reduce/sum.inc
@@ -1,16 +1,17 @@
 // clang-format off
 
-#ifdef YNN_ARCH_ARM_NEON
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_fp32_neon, float, float)
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_int8_int32_neondot, int8_t, int32_t)
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_uint8_int32_neondot, uint8_t, int32_t)
-#endif  // YNN_ARCH_ARM_NEON
 #ifdef YNN_ARCH_ARM_NEONBF16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::neonbf16, sum_bf16_fp32_neonbf16, bfloat16, float)
 #endif // YNN_ARCH_ARM_NEONBF16
 #ifdef YNN_ARCH_ARM_NEONFP16ARITH
 YNN_UNARY_REDUCE_KERNEL(arch_flag::neonfp16arith, sum_fp16_fp32_neonfp16arith, half, float)
 #endif  // YNN_ARCH_ARM_NEONFP16ARITH
+#ifdef YNN_ARCH_ARM_NEON
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_fp32_neon, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_bf16_fp32_neon, bfloat16, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_int8_int32_neondot, int8_t, int32_t)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_uint8_int32_neondot, uint8_t, int32_t)
+#endif  // YNN_ARCH_ARM_NEON
 
 #ifdef YNN_ARCH_X86_AVX512BF16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bf16, sum_bf16_fp32_avx512bf16, bfloat16, float)
@@ -25,8 +26,12 @@ YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw, sum_int8_int32_avx512bw, int8_t, in
 #ifdef YNN_ARCH_X86_AVX512F
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512f, sum_fp32_avx512f, float, float)
 #endif  // YNN_ARCH_X86_AVX512F
+#ifdef YNN_ARCH_X86_AVX2_FMA3
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2 | arch_flag::fma3, sum_bf16_fp32_avx2_fma3, bfloat16, float)
+#endif  // YNN_ARCH_X86_AVX2_FMA3
 #ifdef YNN_ARCH_X86_AVX2
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_fp32_avx2, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_bf16_fp32_avx2, bfloat16, float)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_uint8_int32_avx2, uint8_t, int32_t)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_int8_int32_avx2, int8_t, int32_t)
 #endif  // YNN_ARCH_X86_AVX2
diff --git a/ynnpack/kernels/reduce/sum_squared.inc b/ynnpack/kernels/reduce/sum_squared.inc
@@ -1,16 +1,17 @@
 // clang-format off
 
-#ifdef YNN_ARCH_ARM_NEON
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_squared_fp32_neon, float, float)
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_squared_int8_int32_neondot, int8_t, int32_t)
-YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_squared_uint8_int32_neondot, uint8_t, int32_t)
-#endif  // YNN_ARCH_ARM_NEON
 #ifdef YNN_ARCH_ARM_NEONBF16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::neonbf16, sum_squared_bf16_fp32_neonbf16, bfloat16, float)
 #endif // YNN_ARCH_ARM_NEONBF16
 #ifdef YNN_ARCH_ARM_NEONFP16ARITH
 YNN_UNARY_REDUCE_KERNEL(arch_flag::neonfp16arith, sum_squared_fp16_fp32_neonfp16arith, half, float)
 #endif  // YNN_ARCH_ARM_NEONFP16ARITH
+#ifdef YNN_ARCH_ARM_NEON
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_squared_fp32_neon, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neon, sum_squared_bf16_fp32_neon, bfloat16, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_squared_int8_int32_neondot, int8_t, int32_t)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::neondot, sum_squared_uint8_int32_neondot, uint8_t, int32_t)
+#endif  // YNN_ARCH_ARM_NEON
 
 #ifdef YNN_ARCH_X86_AVX512BF16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bf16, sum_squared_bf16_fp32_avx512bf16, bfloat16, float)
@@ -25,8 +26,12 @@ YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw, sum_squared_int8_int32_avx512bw, in
 #ifdef YNN_ARCH_X86_AVX512F
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512f, sum_squared_fp32_avx512f, float, float)
 #endif  // YNN_ARCH_X86_AVX512F
+#ifdef YNN_ARCH_X86_AVX2_FMA3
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2 | arch_flag::fma3, sum_squared_bf16_fp32_avx2_fma3, bfloat16, float)
+#endif  // YNN_ARCH_X86_AVX2_FMA3
 #ifdef YNN_ARCH_X86_AVX2
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_squared_fp32_avx2, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_squared_bf16_fp32_avx2, bfloat16, float)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_squared_int8_int32_avx2, int8_t, int32_t)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_squared_uint8_int32_avx2, uint8_t, int32_t)
 #endif  // YNN_ARCH_X86_AVX2
diff --git a/ynnpack/kernels/reduce/x86_avx2.cc b/ynnpack/kernels/reduce/x86_avx2.cc
@@ -13,6 +13,7 @@
 #include <cstring>
 #include <type_traits>
 
+#include "ynnpack/base/base.h"
 #include "ynnpack/base/bfloat16.h"
 #include "ynnpack/base/half.h"
 #include "ynnpack/base/simd/multi_vec.h"
@@ -26,8 +27,10 @@ namespace ynn {
 namespace simd {
 
 using f32x8x8 = simd::multi_vec<f32x8, 8>;
+using f32x8x16 = simd::multi_vec<f32x8, 16>;
 using s32x8x2 = multi_vec<s32x8, 2>;
 using s32x8x4 = multi_vec<s32x8, 4>;
+using bf16x16x8 = multi_vec<bf16x16, 4>;
 
 static s32x8x4& operator+=(s32x8x4& a, s8x32 b) {
   s8x16 b_lo = extract<0>(b, s8x16{});
@@ -115,14 +118,71 @@ static s32x8 reduce_add(
   return a += s32x8(_mm256_madd_epi16(b_16, b_16));
 }
 
+static f32x8x16 reduce_add(
+    f32x8x16 a, bf16x16x8 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    __m256i lo_u32 = _mm256_cvtepu16_epi32(_mm256_castsi256_si128(b.v[i].v));
+    __m256i hi_u32 =
+        _mm256_cvtepu16_epi32(_mm256_extracti128_si256(b.v[i].v, 1));
+
+    a.v[2 * i] += f32x8{_mm256_castsi256_ps(_mm256_slli_epi32(lo_u32, 16))};
+    a.v[2 * i + 1] += f32x8{_mm256_castsi256_ps(_mm256_slli_epi32(hi_u32, 16))};
+  }
+
+  return a;
+}
+
+static f32x8 reduce_add(
+    f32x8 a, bf16x16 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  __m256 mask = _mm256_castsi256_ps(_mm256_set1_epi32(0xFFFF0000));
+  __m256 evens = _mm256_castsi256_ps(_mm256_slli_epi32(b.v, 16));
+  __m256 odds = _mm256_and_ps(_mm256_castsi256_ps(b.v), mask);
+
+  return a += f32x8{_mm256_add_ps(evens, odds)};
+}
+
+static f32x8x16 reduce_add(
+    f32x8x16 a, bf16x16x8 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    __m256i lo_u32 = _mm256_cvtepu16_epi32(_mm256_castsi256_si128(b.v[i].v));
+    __m256i hi_u32 =
+        _mm256_cvtepu16_epi32(_mm256_extracti128_si256(b.v[i].v, 1));
+    __m256 lo_f32 = _mm256_castsi256_ps(_mm256_slli_epi32(lo_u32, 16));
+    __m256 hi_f32 = _mm256_castsi256_ps(_mm256_slli_epi32(hi_u32, 16));
+
+    a.v[2 * i] += f32x8{_mm256_mul_ps(lo_f32, lo_f32)};
+    a.v[2 * i + 1] += f32x8{_mm256_mul_ps(hi_f32, hi_f32)};
+  }
+
+  return a;
+}
+
+static f32x8 reduce_add(
+    f32x8 a, bf16x16 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  __m256 mask = _mm256_castsi256_ps(_mm256_set1_epi32(0xFFFF0000));
+  __m256 evens = _mm256_castsi256_ps(_mm256_slli_epi32(b.v, 16));
+  __m256 odds = _mm256_and_ps(_mm256_castsi256_ps(b.v), mask);
+  __m256 sq_evens = _mm256_mul_ps(evens, evens);
+  __m256 sq_odds  = _mm256_mul_ps(odds, odds);
+  return a += f32x8{_mm256_add_ps(sq_evens, sq_odds)};
+}
+
 }  // namespace simd
 
 using simd::s32x8;
 using simd::s32x8x2;
 using simd::s32x8x4;
 using simd::f32x8;
 using simd::f32x8x8;
+using simd::f32x8x16;
 using simd::bf16x16;
+using simd::bf16x16x8;
 using simd::f16x16;
 using simd::s16x16;
 using simd::s8x16;
@@ -233,6 +293,40 @@ void sum_squared_uint8_int32_avx2(size_t n, size_t k3, size_t k2, size_t k1,
   }
 }
 
+void sum_bf16_fp32_avx2(size_t n, size_t k3, size_t k2, size_t k1,
+                        size_t a_stride_n, size_t a_stride_k3,
+                        size_t a_stride_k2, const void* a, size_t, void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x16x8, f32x8x16>, bfloat16, float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x8, 16>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
+void sum_squared_bf16_fp32_avx2(size_t n, size_t k3, size_t k2, size_t k1,
+                                size_t a_stride_n, size_t a_stride_k3,
+                                size_t a_stride_k2, const void* a, size_t,
+                                void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x16x8, f32x8x16, Square>, bfloat16,
+      float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x8, 16, Square>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
 void sum_squared_fp32_avx2(size_t n, size_t k3, size_t k2, size_t k1,
                            size_t a_stride_n, size_t a_stride_k3,
                            size_t a_stride_k2, const void* a, size_t, void* c) {
diff --git a/ynnpack/kernels/reduce/x86_avx2_fma3.cc b/ynnpack/kernels/reduce/x86_avx2_fma3.cc