Per @iotamudelta suggestion until the deadlocks issue is better understood

gshtras · gshtras · commit 481bf03483b0 · 2024-08-15T15:31:26.000Z
Revert "Make CAR ROCm 6.1 compatible. (#137)" This reverts commit 4d2dda6.
diff --git a/csrc/custom_all_reduce.cuh b/csrc/custom_all_reduce.cuh
@@ -145,17 +145,18 @@ DINLINE O downcast(array_t<float, O::size> val) {
 template <int ngpus>
 #ifdef USE_ROCM
 DINLINE void start_sync(const RankSignals& sg, Signal* self_sg, int rank) {
+  uint32_t flag = self_sg->_flag[blockIdx.x] + 1;
   if (threadIdx.x < ngpus) {
-    __atomic_store_n(&self_sg->end[blockIdx.x][threadIdx.x], 0,
-                     __ATOMIC_RELAXED);
+    __scoped_atomic_store_n(&self_sg->end[blockIdx.x][threadIdx.x], 0,
+                            __ATOMIC_RELAXED, __MEMORY_SCOPE_DEVICE);
     // simultaneously write to the corresponding flag of all ranks.
     // Latency = 1 p2p write
-    __atomic_store_n(&sg.signals[threadIdx.x]->start[blockIdx.x][rank], 1,
-                     __ATOMIC_RELAXED);
+    __scoped_atomic_store_n(&sg.signals[threadIdx.x]->start[blockIdx.x][rank],
+                            1, __ATOMIC_RELAXED, __MEMORY_SCOPE_SYSTEM);
     __atomic_thread_fence(__ATOMIC_ACQ_REL);
     // wait until we got true from all ranks
-    while (!__atomic_load_n(&self_sg->start[blockIdx.x][threadIdx.x],
-                                   __ATOMIC_RELAXED);
+    while (!__scoped_atomic_load_n(&self_sg->start[blockIdx.x][threadIdx.x],
+                                   __ATOMIC_RELAXED, __MEMORY_SCOPE_DEVICE));
   }
   __syncthreads();
 }
@@ -189,16 +190,16 @@ DINLINE void end_sync(const RankSignals& sg, Signal* self_sg, int rank) {
   // the memory model.
   if (threadIdx.x < ngpus) {
     // reset flag for next time
-    __atomic_store_n(&self_sg->start[blockIdx.x][threadIdx.x], 0,
-                     __ATOMIC_RELAXED);
+    __scoped_atomic_store_n(&self_sg->start[blockIdx.x][threadIdx.x], 0,
+                            __ATOMIC_RELAXED, __MEMORY_SCOPE_DEVICE);
     // simultaneously write to the corresponding flag of all ranks.
     // Latency = 1 p2p write
-    __atomic_store_n(&sg.signals[threadIdx.x]->end[blockIdx.x][rank], 1,
-                     __ATOMIC_RELAXED);
+    __scoped_atomic_store_n(&sg.signals[threadIdx.x]->end[blockIdx.x][rank], 1,
+                            __ATOMIC_RELAXED, __MEMORY_SCOPE_SYSTEM);
     __atomic_thread_fence(__ATOMIC_ACQ_REL);
     // wait until we got true from all ranks
-    while (!__atomic_load_n(&self_sg->end[blockIdx.x][threadIdx.x],
-                            __ATOMIC_RELAXED));
+    while (!__scoped_atomic_load_n(&self_sg->end[blockIdx.x][threadIdx.x],
+                                   __ATOMIC_RELAXED, __MEMORY_SCOPE_DEVICE));
   }
   if constexpr (!final_sync) __syncthreads();
 }
diff --git a/csrc/custom_all_reduce_test.cu b/csrc/custom_all_reduce_test.cu
@@ -330,7 +330,7 @@ int main(int argc, char** argv) {
   //     run<half>(myRank, nRanks, comm, threads, block_limit, 4096 * 1024);
   //   }
   // }
-#ifdef USE_ROCM
+#ifdef USE _ROCM
   for (int sz = 512; sz <= (8 << 22); sz *= 2) {
     run<half>(myRank, nRanks, comm, 512, 18, sz + 8 * 47, performance_test);
   }

Original file line number	Diff line number	Diff line change
`@@ -330,7 +330,7 @@ int main(int argc, char** argv) {`
`330`	`330`	`// run<half>(myRank, nRanks, comm, threads, block_limit, 4096 * 1024);`
`331`	`331`	`// }`
`332`	`332`	`// }`
`333`		`-#ifdef USE_ROCM`
	`333`	`+#ifdef USE _ROCM`
`334`	`334`	`for (int sz = 512; sz <= (8 << 22); sz *= 2) {`
`335`	`335`	`run<half>(myRank, nRanks, comm, 512, 18, sz + 8 * 47, performance_test);`
`336`	`336`	`}`