uxlfoundation
diff --git a/‎src/cpu/aarch64/brgemm/jit_brgemm_kernel.cpp‎
Lines changed: 11 additions & 22 deletions b/‎src/cpu/aarch64/brgemm/jit_brgemm_kernel.cpp‎
Lines changed: 11 additions & 22 deletions
diff --git a/‎src/cpu/aarch64/jit_generator.hpp‎
Lines changed: 14 additions & 0 deletions b/‎src/cpu/aarch64/jit_generator.hpp‎
Lines changed: 14 additions & 0 deletions
@@ -223,19 +223,6 @@ struct jit_brgemm_kernel_t : public jit_generator_t {
     PReg ld_tail_mask = PReg(3);
     PReg gemv_tail_mask = PReg(4);
 
-    void add_vl_or_imm(XReg dst, XReg src, int offset) {
-        // If offset is a multiple of the vector length and
-        // offset / vector_length is compatible with addvl
-        // use the addvl instruction. Refer to https://developer.arm.com/documentation/ddi0596/2021-03/SVE-Instructions/ADDVL--Add-multiple-of-vector-register-size-to-scalar-register-
-        // for details.
-        if ((offset % cpu_sveLen == 0)
-                && (offset / static_cast<int>(cpu_sveLen) >= -32)
-                && (offset / cpu_sveLen <= 31))
-            addvl(dst, src, offset / cpu_sveLen);
-        else
-            add_imm(dst, src, offset, X_TMP_0);
-    }
-
     ZReg accm(int ld_block, int bd, int ld) const {
         return ZReg(max_effective_vregs - 1 - (bd * ld_block + ld));
     }
@@ -727,7 +714,7 @@ void jit_brgemm_kernel_t::zero_accumulators(int bd_block2, bool is_bdb_tail,
             const int offset = C_offset(bd, ld);
 
             if (!use_mul_vl(offset - base_offset, 4, cpu_sveLen)) {
-                add_vl_or_imm(reg_tmp_, x_addr, offset - base_offset);
+                add_vl_or_imm(reg_tmp_, x_addr, offset - base_offset, X_TMP_0);
                 base_offset = offset;
                 x_addr = reg_tmp_;
             }
@@ -1061,7 +1048,7 @@ void jit_brgemm_kernel_t::store_accumulators_apply_post_ops(
             const int offset = D_offset(bd, ld);
             if (!use_mul_vl(offset - base_offset,
                         types::data_type_size(brg.dt_d), cpu_sveLen)) {
-                add_vl_or_imm(reg_tmp_, x_addr, offset - base_offset);
+                add_vl_or_imm(reg_tmp_, x_addr, offset - base_offset, X_TMP_0);
                 base_offset = offset;
                 x_addr = reg_tmp_;
             }
@@ -1207,7 +1194,7 @@ void jit_brgemm_kernel_t::store_accumulators_without_post_ops(
             const auto mask = is_ld_tail ? ld_tail_mask : P_ALL_ONE;
             const int offset = C_offset(bd, ld);
             if (!use_mul_vl(offset - base_offset, 4, cpu_sveLen)) {
-                add_vl_or_imm(reg_tmp_, x_addr, offset - base_offset);
+                add_vl_or_imm(reg_tmp_, x_addr, offset - base_offset, X_TMP_0);
                 base_offset = offset;
                 x_addr = reg_tmp_;
             }
@@ -1522,7 +1509,8 @@ void jit_brgemm_kernel_t::gemm_microkernel(int bd_block2, bool is_bdb_tail,
                 auto offset_ = offset - base_offset;
                 // The ld1rw immediate must be <=252 and a multiple of 4
                 // refer to https://developer.arm.com/documentation/ddi0602/2025-09/SVE-Instructions/LD1RW--Load-and-broadcast-unsigned-word-to-vector-
-                if ((offset_ > 252 || offset_ % 4 != 0) && !brg.is_gemv) {
+                if ((offset_ < 0 || offset_ > 252 || offset_ % 4 != 0)
+                        && !brg.is_gemv) {
                     add_imm(X_TMP_2, X_TMP_2, offset_, X_TMP_0);
                     base_offset += offset_;
                     offset_ = 0;
@@ -1573,7 +1561,7 @@ void jit_brgemm_kernel_t::gemm_microkernel(int bd_block2, bool is_bdb_tail,
                     auto vmm = accm(ld_block2, bd, ld);
                     if (is_emdbd) {
                         // The ld1rw immediate must be <=252 and a multiple of 4
-                        if (A_offset(bd, rd) <= 252
+                        if (A_offset(bd, rd) >= 0 && A_offset(bd, rd) <= 252
                                 && A_offset(bd, rd) % 4 == 0) {
                             ld1rw(load().s, mask / T_z,
                                     ptr(reg_aux_A, A_offset(bd, rd)));
@@ -1602,7 +1590,8 @@ void jit_brgemm_kernel_t::gemm_microkernel(int bd_block2, bool is_bdb_tail,
                 } else {
                     const int offset = B_offset(ld, rd);
                     if (!use_mul_vl(offset - base_offset, 4, cpu_sveLen)) {
-                        add_vl_or_imm(reg_tmp_, x_addr, offset - base_offset);
+                        add_vl_or_imm(reg_tmp_, x_addr, offset - base_offset,
+                                X_TMP_0);
                         base_offset = offset;
                         x_addr = reg_tmp_;
                     }
@@ -1631,7 +1620,7 @@ void jit_brgemm_kernel_t::gemm_microkernel(int bd_block2, bool is_bdb_tail,
                                 ? gemv_tail_mask
                                 : P_ALL_ONE;
                         // The ld1rw immediate must be <= 252 and a multiple of 4
-                        if (A_offset(bd, rd) <= 252
+                        if (A_offset(bd, rd) >= 0 && A_offset(bd, rd) <= 252
                                 && A_offset(bd, rd) % 4 == 0) {
                             ld1rw(z_tmp_1().s, mask / T_z,
                                     ptr(reg_aux_A, A_offset(bd, rd)));
@@ -1690,9 +1679,9 @@ void jit_brgemm_kernel_t::ldb_loop(int bd_block2, bool is_bdb_tail,
                         is_ld_tail, vpad, rows_for_rd_tail);
 
                 add_vl_or_imm(reg_aux_A, reg_aux_A,
-                        brg.is_gemv ? cpu_sveLen : rdb_A_offset());
+                        brg.is_gemv ? cpu_sveLen : rdb_A_offset(), X_TMP_0);
                 add_vl_or_imm(reg_aux_B, reg_aux_B,
-                        brg.is_gemv ? cpu_sveLen : rdb_B_offset());
+                        brg.is_gemv ? cpu_sveLen : rdb_B_offset(), X_TMP_0);
 
                 subs(reg_rdb_loop, reg_rdb_loop, 1);
             }
 
@@ -261,6 +261,20 @@ class jit_generator_t : public Xbyak_aarch64::CodeGenerator,
         return (off_mod == 0 && -8 <= off_mul_vl && off_mul_vl <= 7);
     }
 
+    inline void add_vl_or_imm(Xbyak_aarch64::XReg dst, Xbyak_aarch64::XReg src,
+            int offset, Xbyak_aarch64::XReg tmp) {
+        // If offset is a multiple of the vector length and
+        // offset / vector_length is compatible with addvl
+        // use the addvl instruction. Refer to https://developer.arm.com/documentation/ddi0596/2021-03/SVE-Instructions/ADDVL--Add-multiple-of-vector-register-size-to-scalar-register-
+        // for details.
+        if ((offset % cpu_sveLen == 0)
+                && (offset / static_cast<int>(cpu_sveLen) >= -32)
+                && (offset / cpu_sveLen <= 31))
+            addvl(dst, src, offset / cpu_sveLen);
+        else
+            add_imm(dst, src, offset, tmp);
+    }
+
     template <typename PRegBHSD, typename T>
     void set_preg(const PRegBHSD &p, T tail_size,
             const Xbyak_aarch64::XReg x_tmp0 = Xbyak_aarch64::XReg(DUMMY_IDX),