google
diff --git a/‎ynnpack/BUILD‎
Lines changed: 8 additions & 0 deletions b/‎ynnpack/BUILD‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎ynnpack/build_defs.bzl‎
Lines changed: 4 additions & 0 deletions b/‎ynnpack/build_defs.bzl‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎ynnpack/kernels/reduce/BUILD‎
Lines changed: 2 additions & 0 deletions b/‎ynnpack/kernels/reduce/BUILD‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎ynnpack/kernels/reduce/sum.inc‎
Lines changed: 9 additions & 0 deletions b/‎ynnpack/kernels/reduce/sum.inc‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎ynnpack/kernels/reduce/sum_squared.inc‎
Lines changed: 9 additions & 0 deletions b/‎ynnpack/kernels/reduce/sum_squared.inc‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎ynnpack/kernels/reduce/x86_avx2.cc‎
Lines changed: 95 additions & 0 deletions b/‎ynnpack/kernels/reduce/x86_avx2.cc‎
Lines changed: 95 additions & 0 deletions
diff --git a/‎ynnpack/kernels/reduce/x86_avx2_fma3.cc‎
Lines changed: 128 additions & 0 deletions b/‎ynnpack/kernels/reduce/x86_avx2_fma3.cc‎
Lines changed: 128 additions & 0 deletions
@@ -213,6 +213,14 @@ define_build_option(
     default_all = [":ynn_enable_x86_avx512"],
 )
 
+define_build_option(
+    name = "ynn_enable_x86_avx512bw_fma3",
+    default_all = [
+        ":ynn_enable_x86_avx512bw",
+        ":ynn_enable_x86_fma3",
+    ],
+)
+
 define_build_option(
     name = "ynn_enable_x86_avx512bf16",
     default_all = [
 
@@ -174,6 +174,10 @@ _YNN_PARAMS_FOR_ARCH = {
         "cond": "//ynnpack:ynn_enable_x86_avx512bw",
         "copts": ["-mavx512bw"],
     },
+    "x86_avx512bw_fma3": {
+        "cond": "//ynnpack:ynn_enable_x86_avx512bw_fma3",
+        "copts": ["-mavx512bw", "-mfma"],
+    },
     "x86_avx512bf16": {
         "cond": "//ynnpack:ynn_enable_x86_avx512bf16",
         "copts": ["-mavx512bf16", "-mavx512dq"],
 
@@ -51,10 +51,12 @@ ynn_cc_library(
         "x86_sse41": ["x86_sse41.cc"],
         "x86_avx512bf16": ["x86_avx512bf16.cc"],
         "x86_avx512bw": ["x86_avx512bw.cc"],
+        "x86_avx512bw_fma3": ["x86_avx512bw_fma3.cc"],
         "x86_avx512f": ["x86_avx512f.cc"],
         "x86_f16c": ["x86_f16c.cc"],
         "x86_avx512fp16": ["x86_avx512fp16.cc"],
         "x86_avx2": ["x86_avx2.cc"],
+        "x86_avx2_fma3": ["x86_avx2_fma3.cc"],
     },
     visibility = ["//ynnpack:__subpackages__"],
     deps = [
 
@@ -21,15 +21,23 @@ YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bf16, sum_bf16_fp32_avx512bf16, bfloat1
 #ifdef YNN_ARCH_X86_AVX512FP16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512fp16, sum_fp16_fp32_avx512fp16, half, float)
 #endif  // YNN_ARCH_X86_AVX512FP16
+#ifdef YNN_ARCH_X86_AVX512BW_FMA3
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw | arch_flag::fma3, sum_bf16_fp32_avx512bw_fma3, bfloat16, float)
+#endif  // YNN_ARCH_X86_AVX512BW_FMA3
 #ifdef YNN_ARCH_X86_AVX512BW
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw, sum_bf16_fp32_avx512bw, bfloat16, float)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw, sum_uint8_int32_avx512bw, uint8_t, int32_t)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw, sum_int8_int32_avx512bw, int8_t, int32_t)
 #endif  // YNN_ARCH_X86_AVX512BW
 #ifdef YNN_ARCH_X86_AVX512F
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512f, sum_fp32_avx512f, float, float)
 #endif  // YNN_ARCH_X86_AVX512F
+#ifdef YNN_ARCH_X86_AVX2_FMA3
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2 | arch_flag::fma3, sum_bf16_fp32_avx2_fma3, bfloat16, float)
+#endif  // YNN_ARCH_X86_AVX2_FMA3
 #ifdef YNN_ARCH_X86_AVX2
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_fp32_avx2, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_bf16_fp32_avx2, bfloat16, float)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_uint8_int32_avx2, uint8_t, int32_t)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_int8_int32_avx2, int8_t, int32_t)
 #endif  // YNN_ARCH_X86_AVX2
@@ -42,6 +50,7 @@ YNN_UNARY_REDUCE_KERNEL(arch_flag::sse41, sum_int8_int32_sse41, int8_t, int32_t)
 #endif  // YNN_ARCH_X86_SSE41
 #ifdef YNN_ARCH_X86_SSE2
 YNN_UNARY_REDUCE_KERNEL(arch_flag::sse2, sum_fp32_sse2, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::sse2, sum_bf16_fp32_sse2, bfloat16, float)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::sse2, sum_uint8_int32_sse2, uint8_t, int32_t)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::sse2, sum_int8_int32_sse2, int8_t, int32_t)
 #endif  // YNN_ARCH_X86_SSE2
 
@@ -21,15 +21,23 @@ YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bf16, sum_squared_bf16_fp32_avx512bf16,
 #ifdef YNN_ARCH_X86_AVX512FP16
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512fp16, sum_squared_fp16_fp32_avx512fp16, half, float)
 #endif  // YNN_ARCH_X86_AVX512FP16
+#ifdef YNN_ARCH_X86_AVX512BW_FMA3
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw | arch_flag::fma3, sum_squared_bf16_fp32_avx512bw_fma3, bfloat16, float)
+#endif  // YNN_ARCH_X86_AVX512BW_FMA3
 #ifdef YNN_ARCH_X86_AVX512BW
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw, sum_squared_bf16_fp32_avx512bw, bfloat16, float)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw, sum_squared_uint8_int32_avx512bw, uint8_t, int32_t)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512bw, sum_squared_int8_int32_avx512bw, int8_t, int32_t)
 #endif  // YNN_ARCH_X86_AVX512BW
 #ifdef YNN_ARCH_X86_AVX512F
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx512f, sum_squared_fp32_avx512f, float, float)
 #endif  // YNN_ARCH_X86_AVX512F
+#ifdef YNN_ARCH_X86_AVX2_FMA3
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2 | arch_flag::fma3, sum_squared_bf16_fp32_avx2_fma3, bfloat16, float)
+#endif  // YNN_ARCH_X86_AVX2_FMA3
 #ifdef YNN_ARCH_X86_AVX2
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_squared_fp32_avx2, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_squared_bf16_fp32_avx2, bfloat16, float)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_squared_int8_int32_avx2, int8_t, int32_t)
 YNN_UNARY_REDUCE_KERNEL(arch_flag::avx2, sum_squared_uint8_int32_avx2, uint8_t, int32_t)
 #endif  // YNN_ARCH_X86_AVX2
@@ -42,6 +50,7 @@ YNN_UNARY_REDUCE_KERNEL(arch_flag::sse41, sum_squared_uint8_int32_sse41, uint8_t
 #endif  // YNN_ARCH_X86_SSE41
 #ifdef YNN_ARCH_X86_SSE2
 YNN_UNARY_REDUCE_KERNEL(arch_flag::sse2, sum_squared_fp32_sse2, float, float)
+YNN_UNARY_REDUCE_KERNEL(arch_flag::sse2, sum_squared_bf16_fp32_sse2, bfloat16, float)
 #endif  // YNN_ARCH_X86_SSE2
 
 YNN_UNARY_REDUCE_KERNEL(arch_flag::none, sum_squared_fp32, float, float)
 
@@ -13,6 +13,7 @@
 #include <cstring>
 #include <type_traits>
 
+#include "ynnpack/base/base.h"
 #include "ynnpack/base/bfloat16.h"
 #include "ynnpack/base/half.h"
 #include "ynnpack/base/simd/multi_vec.h"
@@ -26,8 +27,10 @@ namespace ynn {
 namespace simd {
 
 using f32x8x8 = simd::multi_vec<f32x8, 8>;
+using f32x8x16 = simd::multi_vec<f32x8, 16>;
 using s32x8x2 = multi_vec<s32x8, 2>;
 using s32x8x4 = multi_vec<s32x8, 4>;
+using bf16x16x8 = multi_vec<bf16x16, 8>;
 
 static s32x8x4& operator+=(s32x8x4& a, s8x32 b) {
   s8x16 b_lo = extract<0>(b, s8x16{});
@@ -115,14 +118,72 @@ static s32x8 reduce_add(
   return a += s32x8(_mm256_madd_epi16(b_16, b_16));
 }
 
+static f32x8x16 reduce_add(
+    f32x8x16 a, bf16x16x8 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    __m256i lo = _mm256_cvtepu16_epi32(_mm256_castsi256_si128(b.v[i].v));
+    __m256i hi = _mm256_cvtepu16_epi32(_mm256_extracti128_si256(b.v[i].v, 1));
+
+    a.v[2 * i + 0] += f32x8{_mm256_castsi256_ps(_mm256_slli_epi32(lo, 16))};
+    a.v[2 * i + 1] += f32x8{_mm256_castsi256_ps(_mm256_slli_epi32(hi, 16))};
+  }
+
+  return a;
+}
+
+static f32x8 reduce_add(
+    f32x8 a, bf16x16 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  __m256 mask = _mm256_castsi256_ps(_mm256_set1_epi32(0xFFFF0000));
+  __m256 evens = _mm256_castsi256_ps(_mm256_slli_epi32(b.v, 16));
+  __m256 odds = _mm256_and_ps(_mm256_castsi256_ps(b.v), mask);
+
+  a += f32x8{odds};
+  a += f32x8{evens};
+  return a;
+}
+
+static f32x8x16 reduce_add(
+    f32x8x16 a, bf16x16x8 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    __m256i lo_u32 = _mm256_cvtepu16_epi32(_mm256_castsi256_si128(b.v[i].v));
+    __m256i hi_u32 =
+        _mm256_cvtepu16_epi32(_mm256_extracti128_si256(b.v[i].v, 1));
+    __m256 lo_f32 = _mm256_castsi256_ps(_mm256_slli_epi32(lo_u32, 16));
+    __m256 hi_f32 = _mm256_castsi256_ps(_mm256_slli_epi32(hi_u32, 16));
+
+    a.v[2 * i + 0] += f32x8{_mm256_mul_ps(lo_f32, lo_f32)};
+    a.v[2 * i + 1] += f32x8{_mm256_mul_ps(hi_f32, hi_f32)};
+  }
+
+  return a;
+}
+
+static f32x8 reduce_add(
+    f32x8 a, bf16x16 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  __m256 mask = _mm256_castsi256_ps(_mm256_set1_epi32(0xFFFF0000));
+  __m256 evens = _mm256_castsi256_ps(_mm256_slli_epi32(b.v, 16));
+  __m256 odds = _mm256_and_ps(_mm256_castsi256_ps(b.v), mask);
+  a += f32x8{_mm256_mul_ps(odds, odds)};
+  a += f32x8{_mm256_mul_ps(evens, evens)};
+  return a;
+}
+
 }  // namespace simd
 
 using simd::s32x8;
 using simd::s32x8x2;
 using simd::s32x8x4;
 using simd::f32x8;
 using simd::f32x8x8;
+using simd::f32x8x16;
 using simd::bf16x16;
+using simd::bf16x16x8;
 using simd::f16x16;
 using simd::s16x16;
 using simd::s8x16;
@@ -233,6 +294,40 @@ void sum_squared_uint8_int32_avx2(size_t n, size_t k3, size_t k2, size_t k1,
   }
 }
 
+void sum_bf16_fp32_avx2(size_t n, size_t k3, size_t k2, size_t k1,
+                        size_t a_stride_n, size_t a_stride_k3,
+                        size_t a_stride_k2, const void* a, size_t, void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x16x8, f32x8x16>, bfloat16, float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x8, 16>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
+void sum_squared_bf16_fp32_avx2(size_t n, size_t k3, size_t k2, size_t k1,
+                                size_t a_stride_n, size_t a_stride_k3,
+                                size_t a_stride_k2, const void* a, size_t,
+                                void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x16x8, f32x8x16, Square>, bfloat16,
+      float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x8, 16, Square>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
 void sum_squared_fp32_avx2(size_t n, size_t k3, size_t k2, size_t k1,
                            size_t a_stride_n, size_t a_stride_k3,
                            size_t a_stride_k2, const void* a, size_t, void* c) {
 
@@ -0,0 +1,128 @@
+// Copyright 2025 Google LLC
+//
+// This source code is licensed under the BSD-style license found in the
+// LICENSE file in the root directory of this source tree.
+
+#include "ynnpack/base/simd/x86_avx2.h"
+
+#include <immintrin.h>
+
+#include <cassert>
+#include <cstddef>
+#include <cstring>
+#include <type_traits>
+
+#include "ynnpack/base/base.h"
+#include "ynnpack/base/bfloat16.h"
+#include "ynnpack/base/simd/multi_vec.h"
+#include "ynnpack/kernels/reduce/generic.h"
+#include "ynnpack/kernels/reduce/sum_accumulator.h"
+
+namespace ynn {
+
+namespace simd {
+
+using f32x8x16 = simd::multi_vec<f32x8, 16>;
+using bf16x16x8 = multi_vec<bf16x16, 8>;
+
+static f32x8x16 reduce_add(
+    f32x8x16 a, bf16x16x8 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    __m256i lo = _mm256_cvtepu16_epi32(_mm256_castsi256_si128(b.v[i].v));
+    __m256i hi = _mm256_cvtepu16_epi32(_mm256_extracti128_si256(b.v[i].v, 1));
+
+    a.v[2 * i + 0] += f32x8{_mm256_castsi256_ps(_mm256_slli_epi32(lo, 16))};
+    a.v[2 * i + 1] += f32x8{_mm256_castsi256_ps(_mm256_slli_epi32(hi, 16))};
+  }
+
+  return a;
+}
+
+static f32x8 reduce_add(
+    f32x8 a, bf16x16 b, Identity /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  __m256 mask = _mm256_castsi256_ps(_mm256_set1_epi32(0xFFFF0000));
+  __m256 evens = _mm256_castsi256_ps(_mm256_slli_epi32(b.v, 16));
+  __m256 odds = _mm256_and_ps(_mm256_castsi256_ps(b.v), mask);
+
+  a += f32x8{odds};
+  a += f32x8{evens};
+  return a;
+}
+
+static f32x8x16 reduce_add(
+    f32x8x16 a, bf16x16x8 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 1> /*horizontal_factor*/) {
+  YNN_UNROLL
+  for (int i = 0; i < 8; ++i) {
+    __m256i lo = _mm256_cvtepu16_epi32(_mm256_castsi256_si128(b.v[i].v));
+    __m256i hi = _mm256_cvtepu16_epi32(_mm256_extracti128_si256(b.v[i].v, 1));
+    __m256 lo_f32 = _mm256_castsi256_ps(_mm256_slli_epi32(lo, 16));
+    __m256 hi_f32 = _mm256_castsi256_ps(_mm256_slli_epi32(hi, 16));
+
+    a.v[2 * i + 0].v = _mm256_fmadd_ps(lo_f32, lo_f32, a.v[2 * i + 0].v);
+    a.v[2 * i + 1].v = _mm256_fmadd_ps(hi_f32, hi_f32, a.v[2 * i + 1].v);
+  }
+
+  return a;
+}
+
+static f32x8 reduce_add(
+    f32x8 a, bf16x16 b, Square /*map_fn*/,
+    std::integral_constant<size_t, 2> /*horizontal_factor*/) {
+  __m256 mask = _mm256_castsi256_ps(_mm256_set1_epi32(0xFFFF0000));
+  __m256 evens = _mm256_castsi256_ps(_mm256_slli_epi32(b.v, 16));
+  __m256 odds = _mm256_and_ps(_mm256_castsi256_ps(b.v), mask);
+  a.v = _mm256_fmadd_ps(odds, odds, a.v);
+  a.v = _mm256_fmadd_ps(evens, evens, a.v);
+  return a;
+}
+
+}  // namespace simd
+
+using simd::f32x8;
+using simd::f32x8x16;
+using simd::bf16x16;
+using simd::bf16x16x8;
+using simd::s16x16;
+
+using bf16x16_rvar = float16_wrapper<bf16x16, s16x16>;
+
+void sum_bf16_fp32_avx2_fma3(size_t n, size_t k3, size_t k2, size_t k1,
+                             size_t a_stride_n, size_t a_stride_k3,
+                             size_t a_stride_k2, const void* a, size_t,
+                             void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x16x8, f32x8x16>, bfloat16, float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x8, 16>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
+void sum_squared_bf16_fp32_avx2_fma3(size_t n, size_t k3, size_t k2, size_t k1,
+                                     size_t a_stride_n, size_t a_stride_k3,
+                                     size_t a_stride_k2, const void* a, size_t,
+                                     void* c) {
+  if (k1 == 1 && a_stride_n == sizeof(bfloat16)) {
+    tiled_reduce<sum_accumulator_k1_1<bf16x16x8, f32x8x16, Square>, bfloat16,
+      float>(
+        n, k3, k2, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  } else {
+    tiled_reduce<sum_accumulator_x32<f32x8, 16, Square>, bfloat16, float>(
+        n, k3, k2, k1, a_stride_n, a_stride_k3, a_stride_k2,
+        reinterpret_cast<const bfloat16*>(a), /*C_stride_m=*/0,
+        reinterpret_cast<float*>(c));
+  }
+}
+
+}  // namespace ynn