Use scalar emulation of gather instruction for arg methods

Raghuveer Devulapalli · Raghuveer Devulapalli · commit 323f2479e0fb · 2023-08-21T14:27:06.000-07:00
diff --git a/src/avx512-64bit-argsort.hpp b/src/avx512-64bit-argsort.hpp
@@ -85,7 +85,7 @@ X86_SIMD_SORT_INLINE void argsort_16_64bit(type_t *arr, int64_t *arg, int32_t N)
     typename vtype::opmask_t load_mask = (0x01 << (N - 8)) - 0x01;
     argzmm_t argzmm1 = argtype::loadu(arg);
     argzmm_t argzmm2 = argtype::maskz_loadu(load_mask, arg + 8);
-    zmm_t arrzmm1 = vtype::template i64gather<sizeof(type_t)>(argzmm1, arr);
+    zmm_t arrzmm1 = vtype::i64gather(arr, arg);
     zmm_t arrzmm2 = vtype::template mask_i64gather<sizeof(type_t)>(
             vtype::zmm_max(), load_mask, argzmm2, arr);
     arrzmm1 = sort_zmm_64bit<vtype, argtype>(arrzmm1, argzmm1);
@@ -111,7 +111,7 @@ X86_SIMD_SORT_INLINE void argsort_32_64bit(type_t *arr, int64_t *arg, int32_t N)
 #pragma GCC unroll 2
     for (int ii = 0; ii < 2; ++ii) {
         argzmm[ii] = argtype::loadu(arg + 8 * ii);
-        arrzmm[ii] = vtype::template i64gather<sizeof(type_t)>(argzmm[ii], arr);
+        arrzmm[ii] = vtype::i64gather(arr, arg + 8 * ii);
         arrzmm[ii] = sort_zmm_64bit<vtype, argtype>(arrzmm[ii], argzmm[ii]);
     }
 
@@ -154,7 +154,7 @@ X86_SIMD_SORT_INLINE void argsort_64_64bit(type_t *arr, int64_t *arg, int32_t N)
 #pragma GCC unroll 4
     for (int ii = 0; ii < 4; ++ii) {
         argzmm[ii] = argtype::loadu(arg + 8 * ii);
-        arrzmm[ii] = vtype::template i64gather<sizeof(type_t)>(argzmm[ii], arr);
+        arrzmm[ii] = vtype::i64gather(arr, arg + 8 * ii);
         arrzmm[ii] = sort_zmm_64bit<vtype, argtype>(arrzmm[ii], argzmm[ii]);
     }
 
@@ -206,7 +206,7 @@ X86_SIMD_SORT_INLINE void argsort_64_64bit(type_t *arr, int64_t *arg, int32_t N)
 //#pragma GCC unroll 8
 //    for (int ii = 0; ii < 8; ++ii) {
 //        argzmm[ii] = argtype::loadu(arg + 8*ii);
-//        arrzmm[ii] = vtype::template i64gather<sizeof(type_t)>(argzmm[ii], arr);
+//        arrzmm[ii] = vtype::i64gather(argzmm[ii], arr);
 //        arrzmm[ii] = sort_zmm_64bit<vtype, argtype>(arrzmm[ii], argzmm[ii]);
 //    }
 //
@@ -257,17 +257,14 @@ type_t get_pivot_64bit(type_t *arr,
         // median of 8
         int64_t size = (right - left) / 8;
         using zmm_t = typename vtype::zmm_t;
-        // TODO: Use gather here too:
-        __m512i rand_index = _mm512_set_epi64(arg[left + size],
-                                              arg[left + 2 * size],
-                                              arg[left + 3 * size],
-                                              arg[left + 4 * size],
-                                              arg[left + 5 * size],
-                                              arg[left + 6 * size],
-                                              arg[left + 7 * size],
-                                              arg[left + 8 * size]);
-        zmm_t rand_vec
-                = vtype::template i64gather<sizeof(type_t)>(rand_index, arr);
+        zmm_t rand_vec = vtype::set(arr[arg[left + size]],
+                                    arr[arg[left + 2 * size]],
+                                    arr[arg[left + 3 * size]],
+                                    arr[arg[left + 4 * size]],
+                                    arr[arg[left + 5 * size]],
+                                    arr[arg[left + 6 * size]],
+                                    arr[arg[left + 7 * size]],
+                                    arr[arg[left + 8 * size]]);
         // pivot will never be a nan, since there are no nan's!
         zmm_t sort = sort_zmm_64bit<vtype>(rand_vec);
         return ((type_t *)&sort)[4];
diff --git a/src/avx512-64bit-common.h b/src/avx512-64bit-common.h
@@ -39,12 +39,22 @@ struct ymm_vector<float> {
     {
         return _mm256_set1_ps(type_max());
     }
-
     static zmmi_t
     seti(int v1, int v2, int v3, int v4, int v5, int v6, int v7, int v8)
     {
         return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static zmm_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm256_set_ps(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static opmask_t kxor_opmask(opmask_t x, opmask_t y)
     {
         return _kxor_mask8(x, y);
@@ -80,10 +90,16 @@ struct ymm_vector<float> {
     {
         return _mm512_mask_i64gather_ps(src, mask, index, base, scale);
     }
-    template <int scale>
-    static zmm_t i64gather(__m512i index, void const *base)
+    static zmm_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_ps(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static zmm_t loadu(void const *mem)
     {
@@ -189,6 +205,17 @@ struct ymm_vector<uint32_t> {
     {
         return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static zmm_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static opmask_t kxor_opmask(opmask_t x, opmask_t y)
     {
         return _kxor_mask8(x, y);
@@ -215,10 +242,16 @@ struct ymm_vector<uint32_t> {
     {
         return _mm512_mask_i64gather_epi32(src, mask, index, base, scale);
     }
-    template <int scale>
-    static zmm_t i64gather(__m512i index, void const *base)
+    static zmm_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_epi32(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static zmm_t loadu(void const *mem)
     {
@@ -318,6 +351,17 @@ struct ymm_vector<int32_t> {
     {
         return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static zmm_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static opmask_t kxor_opmask(opmask_t x, opmask_t y)
     {
         return _kxor_mask8(x, y);
@@ -344,10 +388,16 @@ struct ymm_vector<int32_t> {
     {
         return _mm512_mask_i64gather_epi32(src, mask, index, base, scale);
     }
-    template <int scale>
-    static zmm_t i64gather(__m512i index, void const *base)
+    static zmm_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_epi32(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static zmm_t loadu(void const *mem)
     {
@@ -448,6 +498,17 @@ struct zmm_vector<int64_t> {
     {
         return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static zmm_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static opmask_t kxor_opmask(opmask_t x, opmask_t y)
     {
         return _kxor_mask8(x, y);
@@ -474,10 +535,16 @@ struct zmm_vector<int64_t> {
     {
         return _mm512_mask_i64gather_epi64(src, mask, index, base, scale);
     }
-    template <int scale>
-    static zmm_t i64gather(__m512i index, void const *base)
+    static zmm_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_epi64(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static zmm_t loadu(void const *mem)
     {
@@ -566,16 +633,33 @@ struct zmm_vector<uint64_t> {
     {
         return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
     }
+    static zmm_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     template <int scale>
     static zmm_t
     mask_i64gather(zmm_t src, opmask_t mask, __m512i index, void const *base)
     {
         return _mm512_mask_i64gather_epi64(src, mask, index, base, scale);
     }
-    template <int scale>
-    static zmm_t i64gather(__m512i index, void const *base)
+    static zmm_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_epi64(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static opmask_t knot_opmask(opmask_t x)
     {
@@ -666,13 +750,22 @@ struct zmm_vector<double> {
     {
         return _mm512_set1_pd(type_max());
     }
-
     static zmmi_t
     seti(int v1, int v2, int v3, int v4, int v5, int v6, int v7, int v8)
     {
         return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);
     }
-
+    static zmm_t set(type_t v1,
+                     type_t v2,
+                     type_t v3,
+                     type_t v4,
+                     type_t v5,
+                     type_t v6,
+                     type_t v7,
+                     type_t v8)
+    {
+        return _mm512_set_pd(v1, v2, v3, v4, v5, v6, v7, v8);
+    }
     static zmm_t maskz_loadu(opmask_t mask, void const *mem)
     {
         return _mm512_maskz_loadu_pd(mask, mem);
@@ -704,10 +797,16 @@ struct zmm_vector<double> {
     {
         return _mm512_mask_i64gather_pd(src, mask, index, base, scale);
     }
-    template <int scale>
-    static zmm_t i64gather(__m512i index, void const *base)
+    static zmm_t i64gather(type_t *arr, int64_t *ind)
     {
-        return _mm512_i64gather_pd(index, base, scale);
+        return set(arr[ind[7]],
+                   arr[ind[6]],
+                   arr[ind[5]],
+                   arr[ind[4]],
+                   arr[ind[3]],
+                   arr[ind[2]],
+                   arr[ind[1]],
+                   arr[ind[0]]);
     }
     static zmm_t loadu(void const *mem)
     {
@@ -794,15 +893,14 @@ X86_SIMD_SORT_INLINE type_t get_pivot_64bit(type_t *arr,
     // median of 8
     int64_t size = (right - left) / 8;
     using zmm_t = typename vtype::zmm_t;
-    __m512i rand_index = _mm512_set_epi64(left + size,
-                                          left + 2 * size,
-                                          left + 3 * size,
-                                          left + 4 * size,
-                                          left + 5 * size,
-                                          left + 6 * size,
-                                          left + 7 * size,
-                                          left + 8 * size);
-    zmm_t rand_vec = vtype::template i64gather<sizeof(type_t)>(rand_index, arr);
+    zmm_t rand_vec = vtype::set(arr[left + size],
+                                arr[left + 2 * size],
+                                arr[left + 3 * size],
+                                arr[left + 4 * size],
+                                arr[left + 5 * size],
+                                arr[left + 6 * size],
+                                arr[left + 7 * size],
+                                arr[left + 8 * size]);
     // pivot will never be a nan, since there are no nan's!
     zmm_t sort = sort_zmm_64bit<vtype>(rand_vec);
     return ((type_t *)&sort)[4];
diff --git a/src/avx512-common-argsort.h b/src/avx512-common-argsort.h
@@ -75,7 +75,7 @@ static inline int64_t partition_avx512(type_t *arr,
 
     if (right - left == vtype::numlanes) {
         argzmm_t argvec = argtype::loadu(arg + left);
-        zmm_t vec = vtype::template i64gather<sizeof(type_t)>(argvec, arr);
+        zmm_t vec = vtype::i64gather(arr, arg + left);
         int32_t amount_gt_pivot = partition_vec<vtype>(arg,
                                                        left,
                                                        left + vtype::numlanes,
@@ -91,11 +91,9 @@ static inline int64_t partition_avx512(type_t *arr,
 
     // first and last vtype::numlanes values are partitioned at the end
     argzmm_t argvec_left = argtype::loadu(arg + left);
-    zmm_t vec_left
-            = vtype::template i64gather<sizeof(type_t)>(argvec_left, arr);
+    zmm_t vec_left = vtype::i64gather(arr, arg + left);
     argzmm_t argvec_right = argtype::loadu(arg + (right - vtype::numlanes));
-    zmm_t vec_right
-            = vtype::template i64gather<sizeof(type_t)>(argvec_right, arr);
+    zmm_t vec_right = vtype::i64gather(arr, arg + (right - vtype::numlanes));
     // store points of the vectors
     int64_t r_store = right - vtype::numlanes;
     int64_t l_store = left;
@@ -113,11 +111,11 @@ static inline int64_t partition_avx512(type_t *arr,
         if ((r_store + vtype::numlanes) - right < left - l_store) {
             right -= vtype::numlanes;
             arg_vec = argtype::loadu(arg + right);
-            curr_vec = vtype::template i64gather<sizeof(type_t)>(arg_vec, arr);
+            curr_vec = vtype::i64gather(arr, arg + right);
         }
         else {
             arg_vec = argtype::loadu(arg + left);
-            curr_vec = vtype::template i64gather<sizeof(type_t)>(arg_vec, arr);
+            curr_vec = vtype::i64gather(arr, arg + left);
             left += vtype::numlanes;
         }
         // partition the current vector and save it on both sides of the array
@@ -201,12 +199,11 @@ static inline int64_t partition_avx512_unrolled(type_t *arr,
 #pragma GCC unroll 8
     for (int ii = 0; ii < num_unroll; ++ii) {
         argvec_left[ii] = argtype::loadu(arg + left + vtype::numlanes * ii);
-        vec_left[ii] = vtype::template i64gather<sizeof(type_t)>(
-                argvec_left[ii], arr);
+        vec_left[ii] = vtype::i64gather(arr, arg + left + vtype::numlanes * ii);
         argvec_right[ii] = argtype::loadu(
                 arg + (right - vtype::numlanes * (num_unroll - ii)));
-        vec_right[ii] = vtype::template i64gather<sizeof(type_t)>(
-                argvec_right[ii], arr);
+        vec_right[ii] = vtype::i64gather(
+                arr, arg + (right - vtype::numlanes * (num_unroll - ii)));
     }
     // store points of the vectors
     int64_t r_store = right - vtype::numlanes;
@@ -228,16 +225,16 @@ static inline int64_t partition_avx512_unrolled(type_t *arr,
             for (int ii = 0; ii < num_unroll; ++ii) {
                 arg_vec[ii]
                         = argtype::loadu(arg + right + ii * vtype::numlanes);
-                curr_vec[ii] = vtype::template i64gather<sizeof(type_t)>(
-                        arg_vec[ii], arr);
+                curr_vec[ii] = vtype::i64gather(
+                        arr, arg + right + ii * vtype::numlanes);
             }
         }
         else {
 #pragma GCC unroll 8
             for (int ii = 0; ii < num_unroll; ++ii) {
                 arg_vec[ii] = argtype::loadu(arg + left + ii * vtype::numlanes);
-                curr_vec[ii] = vtype::template i64gather<sizeof(type_t)>(
-                        arg_vec[ii], arr);
+                curr_vec[ii] = vtype::i64gather(
+                        arr, arg + left + ii * vtype::numlanes);
             }
             left += num_unroll * vtype::numlanes;
         }

Original file line number	Diff line number	Diff line change
`@@ -39,12 +39,22 @@ struct ymm_vector<float> {`
`39`	`39`	`{`
`40`	`40`	`return _mm256_set1_ps(type_max());`
`41`	`41`	`}`
`42`		`-`
`43`	`42`	`static zmmi_t`
`44`	`43`	`seti(int v1, int v2, int v3, int v4, int v5, int v6, int v7, int v8)`
`45`	`44`	`{`
`46`	`45`	`return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
`47`	`46`	`}`
	`47`	`+ static zmm_t set(type_t v1,`
	`48`	`+ type_t v2,`
	`49`	`+ type_t v3,`
	`50`	`+ type_t v4,`
	`51`	`+ type_t v5,`
	`52`	`+ type_t v6,`
	`53`	`+ type_t v7,`
	`54`	`+ type_t v8)`
	`55`	`+ {`
	`56`	`+ return _mm256_set_ps(v1, v2, v3, v4, v5, v6, v7, v8);`
	`57`	`+ }`
`48`	`58`	`static opmask_t kxor_opmask(opmask_t x, opmask_t y)`
`49`	`59`	`{`
`50`	`60`	`return _kxor_mask8(x, y);`
`@@ -80,10 +90,16 @@ struct ymm_vector<float> {`
`80`	`90`	`{`
`81`	`91`	`return _mm512_mask_i64gather_ps(src, mask, index, base, scale);`
`82`	`92`	`}`
`83`		`- template <int scale>`
`84`		`- static zmm_t i64gather(__m512i index, void const *base)`
	`93`	`+ static zmm_t i64gather(type_t arr, int64_t ind)`
`85`	`94`	`{`
`86`		`- return _mm512_i64gather_ps(index, base, scale);`
	`95`	`+ return set(arr[ind[7]],`
	`96`	`+ arr[ind[6]],`
	`97`	`+ arr[ind[5]],`
	`98`	`+ arr[ind[4]],`
	`99`	`+ arr[ind[3]],`
	`100`	`+ arr[ind[2]],`
	`101`	`+ arr[ind[1]],`
	`102`	`+ arr[ind[0]]);`
`87`	`103`	`}`
`88`	`104`	`static zmm_t loadu(void const *mem)`
`89`	`105`	`{`
`@@ -189,6 +205,17 @@ struct ymm_vector<uint32_t> {`
`189`	`205`	`{`
`190`	`206`	`return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
`191`	`207`	`}`
	`208`	`+ static zmm_t set(type_t v1,`
	`209`	`+ type_t v2,`
	`210`	`+ type_t v3,`
	`211`	`+ type_t v4,`
	`212`	`+ type_t v5,`
	`213`	`+ type_t v6,`
	`214`	`+ type_t v7,`
	`215`	`+ type_t v8)`
	`216`	`+ {`
	`217`	`+ return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
	`218`	`+ }`
`192`	`219`	`static opmask_t kxor_opmask(opmask_t x, opmask_t y)`
`193`	`220`	`{`
`194`	`221`	`return _kxor_mask8(x, y);`
`@@ -215,10 +242,16 @@ struct ymm_vector<uint32_t> {`
`215`	`242`	`{`
`216`	`243`	`return _mm512_mask_i64gather_epi32(src, mask, index, base, scale);`
`217`	`244`	`}`
`218`		`- template <int scale>`
`219`		`- static zmm_t i64gather(__m512i index, void const *base)`
	`245`	`+ static zmm_t i64gather(type_t arr, int64_t ind)`
`220`	`246`	`{`
`221`		`- return _mm512_i64gather_epi32(index, base, scale);`
	`247`	`+ return set(arr[ind[7]],`
	`248`	`+ arr[ind[6]],`
	`249`	`+ arr[ind[5]],`
	`250`	`+ arr[ind[4]],`
	`251`	`+ arr[ind[3]],`
	`252`	`+ arr[ind[2]],`
	`253`	`+ arr[ind[1]],`
	`254`	`+ arr[ind[0]]);`
`222`	`255`	`}`
`223`	`256`	`static zmm_t loadu(void const *mem)`
`224`	`257`	`{`
`@@ -318,6 +351,17 @@ struct ymm_vector<int32_t> {`
`318`	`351`	`{`
`319`	`352`	`return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
`320`	`353`	`}`
	`354`	`+ static zmm_t set(type_t v1,`
	`355`	`+ type_t v2,`
	`356`	`+ type_t v3,`
	`357`	`+ type_t v4,`
	`358`	`+ type_t v5,`
	`359`	`+ type_t v6,`
	`360`	`+ type_t v7,`
	`361`	`+ type_t v8)`
	`362`	`+ {`
	`363`	`+ return _mm256_set_epi32(v1, v2, v3, v4, v5, v6, v7, v8);`
	`364`	`+ }`
`321`	`365`	`static opmask_t kxor_opmask(opmask_t x, opmask_t y)`
`322`	`366`	`{`
`323`	`367`	`return _kxor_mask8(x, y);`
`@@ -344,10 +388,16 @@ struct ymm_vector<int32_t> {`
`344`	`388`	`{`
`345`	`389`	`return _mm512_mask_i64gather_epi32(src, mask, index, base, scale);`
`346`	`390`	`}`
`347`		`- template <int scale>`
`348`		`- static zmm_t i64gather(__m512i index, void const *base)`
	`391`	`+ static zmm_t i64gather(type_t arr, int64_t ind)`
`349`	`392`	`{`
`350`		`- return _mm512_i64gather_epi32(index, base, scale);`
	`393`	`+ return set(arr[ind[7]],`
	`394`	`+ arr[ind[6]],`
	`395`	`+ arr[ind[5]],`
	`396`	`+ arr[ind[4]],`
	`397`	`+ arr[ind[3]],`
	`398`	`+ arr[ind[2]],`
	`399`	`+ arr[ind[1]],`
	`400`	`+ arr[ind[0]]);`
`351`	`401`	`}`
`352`	`402`	`static zmm_t loadu(void const *mem)`
`353`	`403`	`{`
`@@ -448,6 +498,17 @@ struct zmm_vector<int64_t> {`
`448`	`498`	`{`
`449`	`499`	`return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
`450`	`500`	`}`
	`501`	`+ static zmm_t set(type_t v1,`
	`502`	`+ type_t v2,`
	`503`	`+ type_t v3,`
	`504`	`+ type_t v4,`
	`505`	`+ type_t v5,`
	`506`	`+ type_t v6,`
	`507`	`+ type_t v7,`
	`508`	`+ type_t v8)`
	`509`	`+ {`
	`510`	`+ return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
	`511`	`+ }`
`451`	`512`	`static opmask_t kxor_opmask(opmask_t x, opmask_t y)`
`452`	`513`	`{`
`453`	`514`	`return _kxor_mask8(x, y);`
`@@ -474,10 +535,16 @@ struct zmm_vector<int64_t> {`
`474`	`535`	`{`
`475`	`536`	`return _mm512_mask_i64gather_epi64(src, mask, index, base, scale);`
`476`	`537`	`}`
`477`		`- template <int scale>`
`478`		`- static zmm_t i64gather(__m512i index, void const *base)`
	`538`	`+ static zmm_t i64gather(type_t arr, int64_t ind)`
`479`	`539`	`{`
`480`		`- return _mm512_i64gather_epi64(index, base, scale);`
	`540`	`+ return set(arr[ind[7]],`
	`541`	`+ arr[ind[6]],`
	`542`	`+ arr[ind[5]],`
	`543`	`+ arr[ind[4]],`
	`544`	`+ arr[ind[3]],`
	`545`	`+ arr[ind[2]],`
	`546`	`+ arr[ind[1]],`
	`547`	`+ arr[ind[0]]);`
`481`	`548`	`}`
`482`	`549`	`static zmm_t loadu(void const *mem)`
`483`	`550`	`{`
`@@ -566,16 +633,33 @@ struct zmm_vector<uint64_t> {`
`566`	`633`	`{`
`567`	`634`	`return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
`568`	`635`	`}`
	`636`	`+ static zmm_t set(type_t v1,`
	`637`	`+ type_t v2,`
	`638`	`+ type_t v3,`
	`639`	`+ type_t v4,`
	`640`	`+ type_t v5,`
	`641`	`+ type_t v6,`
	`642`	`+ type_t v7,`
	`643`	`+ type_t v8)`
	`644`	`+ {`
	`645`	`+ return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
	`646`	`+ }`
`569`	`647`	`template <int scale>`
`570`	`648`	`static zmm_t`
`571`	`649`	`mask_i64gather(zmm_t src, opmask_t mask, __m512i index, void const *base)`
`572`	`650`	`{`
`573`	`651`	`return _mm512_mask_i64gather_epi64(src, mask, index, base, scale);`
`574`	`652`	`}`
`575`		`- template <int scale>`
`576`		`- static zmm_t i64gather(__m512i index, void const *base)`
	`653`	`+ static zmm_t i64gather(type_t arr, int64_t ind)`
`577`	`654`	`{`
`578`		`- return _mm512_i64gather_epi64(index, base, scale);`
	`655`	`+ return set(arr[ind[7]],`
	`656`	`+ arr[ind[6]],`
	`657`	`+ arr[ind[5]],`
	`658`	`+ arr[ind[4]],`
	`659`	`+ arr[ind[3]],`
	`660`	`+ arr[ind[2]],`
	`661`	`+ arr[ind[1]],`
	`662`	`+ arr[ind[0]]);`
`579`	`663`	`}`
`580`	`664`	`static opmask_t knot_opmask(opmask_t x)`
`581`	`665`	`{`
`@@ -666,13 +750,22 @@ struct zmm_vector<double> {`
`666`	`750`	`{`
`667`	`751`	`return _mm512_set1_pd(type_max());`
`668`	`752`	`}`
`669`		`-`
`670`	`753`	`static zmmi_t`
`671`	`754`	`seti(int v1, int v2, int v3, int v4, int v5, int v6, int v7, int v8)`
`672`	`755`	`{`
`673`	`756`	`return _mm512_set_epi64(v1, v2, v3, v4, v5, v6, v7, v8);`
`674`	`757`	`}`
`675`		`-`
	`758`	`+ static zmm_t set(type_t v1,`
	`759`	`+ type_t v2,`
	`760`	`+ type_t v3,`
	`761`	`+ type_t v4,`
	`762`	`+ type_t v5,`
	`763`	`+ type_t v6,`
	`764`	`+ type_t v7,`
	`765`	`+ type_t v8)`
	`766`	`+ {`
	`767`	`+ return _mm512_set_pd(v1, v2, v3, v4, v5, v6, v7, v8);`
	`768`	`+ }`
`676`	`769`	`static zmm_t maskz_loadu(opmask_t mask, void const *mem)`
`677`	`770`	`{`
`678`	`771`	`return _mm512_maskz_loadu_pd(mask, mem);`
`@@ -704,10 +797,16 @@ struct zmm_vector<double> {`
`704`	`797`	`{`
`705`	`798`	`return _mm512_mask_i64gather_pd(src, mask, index, base, scale);`
`706`	`799`	`}`
`707`		`- template <int scale>`
`708`		`- static zmm_t i64gather(__m512i index, void const *base)`
	`800`	`+ static zmm_t i64gather(type_t arr, int64_t ind)`
`709`	`801`	`{`
`710`		`- return _mm512_i64gather_pd(index, base, scale);`
	`802`	`+ return set(arr[ind[7]],`
	`803`	`+ arr[ind[6]],`
	`804`	`+ arr[ind[5]],`
	`805`	`+ arr[ind[4]],`
	`806`	`+ arr[ind[3]],`
	`807`	`+ arr[ind[2]],`
	`808`	`+ arr[ind[1]],`
	`809`	`+ arr[ind[0]]);`
`711`	`810`	`}`
`712`	`811`	`static zmm_t loadu(void const *mem)`
`713`	`812`	`{`
`@@ -794,15 +893,14 @@ X86_SIMD_SORT_INLINE type_t get_pivot_64bit(type_t *arr,`
`794`	`893`	`// median of 8`
`795`	`894`	`int64_t size = (right - left) / 8;`
`796`	`895`	`using zmm_t = typename vtype::zmm_t;`
`797`		`- __m512i rand_index = _mm512_set_epi64(left + size,`
`798`		`- left + 2 * size,`
`799`		`- left + 3 * size,`
`800`		`- left + 4 * size,`
`801`		`- left + 5 * size,`
`802`		`- left + 6 * size,`
`803`		`- left + 7 * size,`
`804`		`- left + 8 * size);`
`805`		`- zmm_t rand_vec = vtype::template i64gather<sizeof(type_t)>(rand_index, arr);`
	`896`	`+ zmm_t rand_vec = vtype::set(arr[left + size],`
	`897`	`+ arr[left + 2 * size],`
	`898`	`+ arr[left + 3 * size],`
	`899`	`+ arr[left + 4 * size],`
	`900`	`+ arr[left + 5 * size],`
	`901`	`+ arr[left + 6 * size],`
	`902`	`+ arr[left + 7 * size],`
	`903`	`+ arr[left + 8 * size]);`
`806`	`904`	`// pivot will never be a nan, since there are no nan's!`
`807`	`905`	`zmm_t sort = sort_zmm_64bit<vtype>(rand_vec);`
`808`	`906`	`return ((type_t *)&sort)[4];`