PDL (#172)

xay5421 · zheanxu · LyricZhao · web-flow · commit bd743767fae4 · 2026-03-20T14:39:50.000+08:00
* Add PDL for sm90 gemm

* Remove __ldg

* Fix PDL

* Add PDL for sm100 gemm

* Add explicit cudaTriggerProgrammaticLaunchCompletion

* Minor Fix

* remove __ldg

* Minor fix

* Add enable_pdl in launch config

* Set enable_pdl for gemm

* Add DG_DISABLE_PDL

* Minor fix

* Set enable_pdl for smxx_layout

* Add PDL to all kernels except backward kernels

* Remove cudaTriggerProgrammaticLaunchCompletion

* Minor fix

* Minor fix

* Minor fix

* Minor fix

* Remove useless PDL

* revert some change

* revert some changes

* Minor fix

* Refactor pointer arithmetic to array indexing

* Add grid-dependency sync and remove __ldg in kernels

* Minor fix

* Add runtime API PDL toggle

* Minor fix

* Drop explicit LaunchArgs enable_pdl arguments

* Simplify LaunchArgs construction

* Update comments

* Minor fix

* Minor fix

* Update device_runtime.hpp

---------

Co-authored-by: Zhean Xu &lt;xza@deepseek.com&gt;
Co-authored-by: Chenggang Zhao &lt;chenggangz@deepseek.com&gt;
diff --git a/csrc/apis/runtime.hpp b/csrc/apis/runtime.hpp
@@ -21,6 +21,12 @@ static void register_apis(pybind11::module_& m) {
     m.def("get_tc_util", [&]() {
         return device_runtime->get_tc_util();
     });
+    m.def("set_pdl", [&](const bool& new_enable_pdl) {
+        device_runtime->set_pdl(new_enable_pdl);
+    });
+    m.def("get_pdl", [&]() {
+        return device_runtime->get_pdl();
+    });
     m.def("set_ignore_compile_dims", [&](const bool& new_value) {
         heuristics_runtime->set_ignore_compile_dims(new_value);
     });
diff --git a/csrc/jit/device_runtime.hpp b/csrc/jit/device_runtime.hpp
@@ -13,6 +13,7 @@ namespace deep_gemm {
 
 class DeviceRuntime {
     int num_sms = 0, tc_util = 0;
+    bool enable_pdl = false;
     std::shared_ptr<cudaDeviceProp> cached_prop;
 
     // cuBLASLt utils
@@ -114,6 +115,14 @@ class DeviceRuntime {
     int get_tc_util() const {
         return tc_util == 0 ? 100 : tc_util;
     }
+
+    void set_pdl(const bool& new_enable_pdl) {
+        enable_pdl = new_enable_pdl;
+    }
+
+    bool get_pdl() const {
+        return enable_pdl;
+    }
 };
 
 static auto device_runtime = LazyInit<DeviceRuntime>([](){ return std::make_shared<DeviceRuntime>(); });
diff --git a/csrc/jit/handle.hpp b/csrc/jit/handle.hpp
@@ -74,7 +74,7 @@ static void unload_library(const LibraryHandle& library) {
 
 static LaunchConfigHandle construct_launch_config(const KernelHandle& kernel,
                                                   const cudaStream_t& stream, const int& smem_size,
-                                                  const dim3& grid_dim, const dim3& block_dim, const int& cluster_dim) {
+                                                  const dim3& grid_dim, const dim3& block_dim, const int& cluster_dim, const bool& enable_pdl) {
     if (smem_size > 0)
         DG_CUDA_RUNTIME_CHECK(cudaFuncSetAttribute(kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, smem_size));
 
@@ -83,17 +83,27 @@ static LaunchConfigHandle construct_launch_config(const KernelHandle& kernel,
     config.blockDim = block_dim;
     config.dynamicSmemBytes = smem_size;
     config.stream = stream;
-    config.numAttrs = 0;
-    config.attrs = nullptr;
 
+    // Create attributes
     // NOTES: must use `static` or the `attr` will be deconstructed
-    static LaunchAttrHandle attr;
+    static LaunchAttrHandle attrs[2];
+    config.numAttrs = 0;
+    config.attrs = attrs;
+
+    // Cluster size
     if (cluster_dim > 1) {
+        auto& attr = attrs[config.numAttrs ++];
         attr.id = cudaLaunchAttributeClusterDimension;
         attr.val.clusterDim = {static_cast<unsigned>(cluster_dim), 1, 1};
-        config.attrs = &attr;
-        config.numAttrs = 1;
     }
+
+    // Dependent kernel launch
+    if (enable_pdl) {
+        auto& attr = attrs[config.numAttrs ++];
+        attr.id = cudaLaunchAttributeProgrammaticStreamSerialization;
+        attr.val.programmaticStreamSerializationAllowed = 1;
+    }
+
     return config;
 }
 
@@ -155,8 +165,8 @@ static void unload_library(const LibraryHandle& library) {
 }
 
 static LaunchConfigHandle construct_launch_config(const KernelHandle& kernel,
-                                                  const cudaStream_t& stream, const int& smem_size,
-                                                  const dim3& grid_dim, const dim3& block_dim, const int& cluster_dim) {
+                                                 const cudaStream_t& stream, const int& smem_size,
+                                                 const dim3& grid_dim, const dim3& block_dim, const int& cluster_dim, const bool& enable_pdl) {
     if (smem_size > 0)
         DG_CUDA_DRIVER_CHECK(lazy_cuFuncSetAttribute(kernel, CU_FUNC_ATTRIBUTE_MAX_DYNAMIC_SHARED_SIZE_BYTES, smem_size));
 
@@ -169,19 +179,29 @@ static LaunchConfigHandle construct_launch_config(const KernelHandle& kernel,
     config.blockDimZ = block_dim.z;
     config.sharedMemBytes = smem_size;
     config.hStream = stream;
+    
+    // Create attributes
+    // NOTES: must use `static` or the `attr` will be deconstructed
+    static LaunchAttrHandle attrs[2];
     config.numAttrs = 0;
-    config.attrs = nullptr;
+    config.attrs = attrs;
 
-    // NOTES: must use `static` or the `attr` will be deconstructed
-    static LaunchAttrHandle attr;
+    // Cluster size
     if (cluster_dim > 1) {
+        auto& attr = attrs[config.numAttrs ++];
         attr.id = CU_LAUNCH_ATTRIBUTE_CLUSTER_DIMENSION;
-        attr.value.clusterDim.x = cluster_dim;
+        attr.value.clusterDim.x = static_cast<unsigned>(cluster_dim);
         attr.value.clusterDim.y = 1;
         attr.value.clusterDim.z = 1;
-        config.attrs = &attr;
-        config.numAttrs = 1;
     }
+
+    // Dependent kernel launch
+    if (enable_pdl) {
+        auto& attr = attrs[config.numAttrs ++];
+        attr.id = CU_LAUNCH_ATTRIBUTE_PROGRAMMATIC_STREAM_SERIALIZATION;
+        attr.value.programmaticStreamSerializationAllowed = 1;
+    }
+
     return config;
 }
 
diff --git a/csrc/jit/kernel_runtime.hpp b/csrc/jit/kernel_runtime.hpp
@@ -16,12 +16,13 @@ struct LaunchArgs {
     int num_threads;
     int smem_size;
     int cluster_dim;
+    bool enable_pdl;
 
-    LaunchArgs(const int& grid_dim_x, const int& num_threads, const int& smem_size = 0, const int& cluster_dim = 1):
-        grid_dim({grid_dim_x, 1}), num_threads(num_threads), smem_size(smem_size), cluster_dim(cluster_dim) {}
+    LaunchArgs(const int& grid_dim_x, const int& num_threads, const int& smem_size = 0, const int& cluster_dim = 1, const bool& enable_pdl = true):
+        grid_dim({grid_dim_x, 1}), num_threads(num_threads), smem_size(smem_size), cluster_dim(cluster_dim), enable_pdl(enable_pdl) {}
 
-    LaunchArgs(const std::pair<int, int>& grid_dim, const int& num_threads, const int& smem_size = 0, const int& cluster_dim = 1):
-        grid_dim(grid_dim), num_threads(num_threads), smem_size(smem_size), cluster_dim(cluster_dim) {}
+    LaunchArgs(const std::pair<int, int>& grid_dim, const int& num_threads, const int& smem_size = 0, const int& cluster_dim = 1, const bool& enable_pdl = true):
+        grid_dim(grid_dim), num_threads(num_threads), smem_size(smem_size), cluster_dim(cluster_dim), enable_pdl(enable_pdl) {}
 };
 
 class KernelRuntime final {
@@ -127,20 +128,24 @@ class LaunchRuntime {
     static void launch(const std::shared_ptr<KernelRuntime>& kernel_runtime, const Args& args) {
         const auto kernel = kernel_runtime->kernel;
         const auto stream = at::cuda::getCurrentCUDAStream();
-        const LaunchArgs launch_args = args.launch_args;
+        LaunchArgs launch_args = args.launch_args;
+
+        // Allow runtime override from Python.
+        // NOTES: the default is enabled.
+        launch_args.enable_pdl = device_runtime->get_pdl();
 
         const dim3 grid_dim = {static_cast<unsigned>(launch_args.grid_dim.first),
                                static_cast<unsigned>(launch_args.grid_dim.second),
                                1};
         const dim3 block_dim = {static_cast<unsigned>(launch_args.num_threads), 1, 1};
         auto config = construct_launch_config(kernel, stream, launch_args.smem_size,
-                                              grid_dim, block_dim, launch_args.cluster_dim);
+                                              grid_dim, block_dim, launch_args.cluster_dim, launch_args.enable_pdl);
 
         // Launch in the derived class
         if (get_env<int>("DG_JIT_DEBUG")) {
-            printf("Launch kernel with {%d, %d} x %d, shared memory: %d bytes, cluster: %d, stream: %ld\n",
+            printf("Launch kernel with {%d, %d} x %d, shared memory: %d bytes, cluster: %d, enable_pdl: %d, stream: %ld\n",
                    launch_args.grid_dim.first, launch_args.grid_dim.second, launch_args.num_threads,
-                   launch_args.smem_size, launch_args.cluster_dim, stream.id());
+                   launch_args.smem_size, launch_args.cluster_dim, launch_args.enable_pdl, stream.id());
         }
         Derived::launch_impl(kernel, config, args);
     }
diff --git a/csrc/jit_kernels/impls/sm100_tf32_hc_prenorm_gemm.hpp b/csrc/jit_kernels/impls/sm100_tf32_hc_prenorm_gemm.hpp
@@ -135,7 +135,7 @@ static void sm100_tf32_hc_prenorm_gemm(const torch::Tensor& a,
         .num_stages = num_stages,
         .num_mma_threads = num_mma_threads,
         .num_cast_and_reduce_threads = num_cast_and_reduce_threads,
-        .launch_args = LaunchArgs(num_splits * ceil_div(m, block_m), num_mma_threads + num_cast_and_reduce_threads, smem_size, 1),
+        .launch_args = LaunchArgs(num_splits * ceil_div(m, block_m), num_mma_threads + num_cast_and_reduce_threads, smem_size),
         .tensor_map_a = tensor_map_a,
         .tensor_map_b = tensor_map_b,
         .tensor_map_d = tensor_map_d,
diff --git a/csrc/jit_kernels/impls/sm90_tf32_hc_prenorm_gemm.hpp b/csrc/jit_kernels/impls/sm90_tf32_hc_prenorm_gemm.hpp
@@ -138,7 +138,7 @@ static void sm90_tf32_hc_prenorm_gemm(const torch::Tensor& a,
         .num_stages = num_stages,
         .num_math_threads = num_math_threads,
         .num_tma_threads = num_tma_threads,
-        .launch_args = LaunchArgs(num_splits * ceil_div(m, block_m), num_threads, smem_size, 1),
+        .launch_args = LaunchArgs(num_splits * ceil_div(m, block_m), num_threads, smem_size),
         .tensor_map_a = tensor_map_a,
         .tensor_map_b = tensor_map_b,
         .tensor_map_d = tensor_map_d,
diff --git a/deep_gemm/__init__.py b/deep_gemm/__init__.py
@@ -21,6 +21,8 @@
     get_tc_util,
     set_ignore_compile_dims,
     set_block_size_multiple_of,
+    set_pdl,
+    get_pdl,
 )
 
 # cuBLASLt Kernels
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_bf16_gemm.cuh b/deep_gemm/include/deep_gemm/impls/sm100_bf16_gemm.cuh
@@ -164,6 +164,9 @@ sm100_bf16_gemm_impl(int* grouped_layout,
     }
     kNumMulticast > 1 ? cute::cluster_sync() : __syncthreads();
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     // Block scheduler
     uint32_t m_block_idx, n_block_idx;
     auto scheduler = sched::Scheduler<kGemmType, BLOCK_M, BLOCK_N, kNumGroups, kNumMulticast, kIsMulticastOnA, kNumSMs>(
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_bmk_bnk_mn.cuh b/deep_gemm/include/deep_gemm/impls/sm100_bmk_bnk_mn.cuh
@@ -102,6 +102,9 @@ sm100_bmn_bnk_mn_gemm_impl(uint32_t shape_s,
     const uint32_t m_block_idx = mn_block_idx / num_n_blocks;
     const uint32_t num_total_stages = cute::min(kSplitFactor, shape_s * (SHAPE_K / BLOCK_K) - sk_block_idx * kSplitFactor);
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     if (warp_idx == 0) {
         // TMA load warp
         for (uint32_t s = 0; s < num_total_stages; ++ s) {
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_fp4_mqa_logits.cuh b/deep_gemm/include/deep_gemm/impls/sm100_fp4_mqa_logits.cuh
@@ -157,8 +157,8 @@ void sm100_fp4_mqa_logits(const uint32_t seq_len, const uint32_t seq_len_kv,
         #pragma unroll
         for (uint32_t i = 0; i < BLOCK_Q; ++ i) {
             const auto row_idx = min(q_idx * BLOCK_Q + i, seq_len - 1);
-            seq_k_start[i] = min(__ldg(cu_seq_len_k_start + row_idx), seq_len_kv);
-            seq_k_end[i] = min(__ldg(cu_seq_len_k_end + row_idx), seq_len_kv);
+            seq_k_start[i] = min(cu_seq_len_k_start[row_idx], seq_len_kv);
+            seq_k_end[i] = min(cu_seq_len_k_end[row_idx], seq_len_kv);
             start = min(start, seq_k_start[i]);
             end = max(end, seq_k_end[i]);
         }
@@ -184,6 +184,9 @@ void sm100_fp4_mqa_logits(const uint32_t seq_len, const uint32_t seq_len_kv,
     constexpr uint32_t kNumSpecializedRegisters = 40;
     constexpr uint32_t kNumMathRegisters = 232;
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     if (is_tma_q_warp) {
         // TMA warp for loading Q
         cutlass::arch::warpgroup_reg_dealloc<kNumSpecializedRegisters>();
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_fp4_paged_mqa_logits.cuh b/deep_gemm/include/deep_gemm/impls/sm100_fp4_paged_mqa_logits.cuh
@@ -150,6 +150,9 @@ void sm100_fp4_paged_mqa_logits(const uint32_t batch_size,
     }
     __syncthreads();
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     // Scheduler
     constexpr uint32_t kNumBlocksPerSplit = SPLIT_KV / BLOCK_KV;
     auto scheduler = sched::PagedMQALogitsScheduler<kNextN, kIsContextLens2D, BLOCK_KV, kNumBlocksPerSplit>(
@@ -210,7 +213,7 @@ void sm100_fp4_paged_mqa_logits(const uint32_t batch_size,
             // Coalesced load of block table
             if (kv_idx == 0 or kv_block_idx_ptr == 32) {
                 kv_block_idx_ptr = 0;
-                kv_block_idx_storage = (kv_idx + lane_idx < num_kv ? __ldg(block_table + q_idx * block_table_stride + (kv_idx + lane_idx)) : 0);
+                kv_block_idx_storage = (kv_idx + lane_idx < num_kv ? block_table[q_idx * block_table_stride + (kv_idx + lane_idx)] : 0);
             }
 
             // Broadcast KV block indices 
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_fp8_fp4_gemm_1d1d.cuh b/deep_gemm/include/deep_gemm/impls/sm100_fp8_fp4_gemm_1d1d.cuh
@@ -178,6 +178,9 @@ sm100_fp8_fp4_gemm_1d1d_impl(int* grouped_layout,
     }
     kNumMulticast > 1 ? cute::cluster_sync() : __syncthreads();
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     // Block scheduler
     uint32_t m_block_idx, n_block_idx;
     auto scheduler = sched::Scheduler<kGemmType, BLOCK_M, BLOCK_N, kNumGroups, kNumMulticast, kIsMulticastOnA, kNumSMs>(
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_fp8_fp4_mega_moe.cuh b/deep_gemm/include/deep_gemm/impls/sm100_fp8_fp4_mega_moe.cuh
@@ -158,6 +158,9 @@ sm100_fp8_fp4_mega_moe_impl(void* x, int64_t* topk_idx,
     constexpr uint32_t kDispatchBarrierIdx = 0;
     constexpr uint32_t kEpilogueBarrierIdx = 1;
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     // Different warp roles
     if (warp_idx < kNumDispatchWarps) {
         // Dispatch warps
@@ -171,7 +174,7 @@ sm100_fp8_fp4_mega_moe_impl(void* x, int64_t* topk_idx,
                     // Allocate slots for each token-topk
                     int expert_idx = -1;
                     if (i + (lane_idx / kNumTopk) < num_tokens and lane_idx < kNumActivateLanes) {
-                        expert_idx = static_cast<int>(__ldg(topk_idx + i * kNumTopk + lane_idx));
+                        expert_idx = static_cast<int>(topk_idx[i * kNumTopk + lane_idx]);
                         if (expert_idx >= 0)
                             process(i * kNumTopk + lane_idx, expert_idx);
                     }
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_fp8_mqa_logits.cuh b/deep_gemm/include/deep_gemm/impls/sm100_fp8_mqa_logits.cuh
@@ -154,8 +154,8 @@ void sm100_fp8_mqa_logits(const uint32_t seq_len, const uint32_t seq_len_kv,
         #pragma unroll
         for (uint32_t i = 0; i < BLOCK_Q; ++ i) {
             const auto q_idx = min(block_q_idx * BLOCK_Q + i, seq_len - 1);
-            seq_k_start[i] = __ldg(cu_seq_len_k_start + q_idx);
-            seq_k_end[i] = __ldg(cu_seq_len_k_end + q_idx);
+            seq_k_start[i] = cu_seq_len_k_start[q_idx];
+            seq_k_end[i] = cu_seq_len_k_end[q_idx];
             start = min(start, min(seq_k_start[i], seq_len_kv));
             end = max(end, min(seq_k_end[i], seq_len_kv));
         }
@@ -181,6 +181,9 @@ void sm100_fp8_mqa_logits(const uint32_t seq_len, const uint32_t seq_len_kv,
     constexpr uint32_t UMMA_K = 32 / sizeof(cutlass::float_e4m3_t);
     constexpr uint32_t UMMA_N = BLOCK_Q * kNumHeads;
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     if (is_tma_load_warp) {
         cutlass::arch::warpgroup_reg_dealloc<kNumSpecializedRegisters>();
 
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_fp8_paged_mqa_logits.cuh b/deep_gemm/include/deep_gemm/impls/sm100_fp8_paged_mqa_logits.cuh
@@ -128,6 +128,9 @@ void sm100_fp8_paged_mqa_logits(const uint32_t batch_size,
     constexpr uint32_t kNumSpecializedRegisters = 40;
     constexpr uint32_t kNumMathRegisters = 232;
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     // Scheduler
     constexpr uint32_t kNumBlocksPerSplit = SPLIT_KV / BLOCK_KV;
     auto scheduler = sched::PagedMQALogitsScheduler<kNextN, kIsContextLens2D, BLOCK_KV, kNumBlocksPerSplit>(
@@ -185,7 +188,7 @@ void sm100_fp8_paged_mqa_logits(const uint32_t batch_size,
             // TODO(xuzhean): consider -1
             if (kv_idx == 0 or kv_block_idx_ptr == 32) {
                 kv_block_idx_ptr = 0;
-                kv_block_idx_storage = (kv_idx + lane_idx < num_kv ? __ldg(block_table + q_idx * block_table_stride + (kv_idx + lane_idx)) : 0);
+                kv_block_idx_storage = (kv_idx + lane_idx < num_kv ? block_table[q_idx * block_table_stride + (kv_idx + lane_idx)] : 0);
             }
             DG_STATIC_ASSERT(32 % kNumBlocksPerSplit == 0, "Invalid `UMMA_M`");
 
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_sparse_mqa_logits_bwd.cuh b/deep_gemm/include/deep_gemm/impls/sm100_sparse_mqa_logits_bwd.cuh
@@ -393,6 +393,9 @@ void sm100_sparse_mqa_logits_bwd(const uint32_t seq_len,
     };
     RingBufferState ring_buffer_state;
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     if (warpgroup_idx == 0) {
         // Vector ops warpgroup
         cutlass::arch::warpgroup_reg_alloc<200>();
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_sparse_mqa_logits_bwd_epilogue.cuh b/deep_gemm/include/deep_gemm/impls/sm100_sparse_mqa_logits_bwd_epilogue.cuh
@@ -49,9 +49,13 @@ void sm100_sparse_mqa_logits_bwd_epilogue(const uint32_t num_packs,
                                           const uint64_t d_k_stride_0,
                                           float* d_k,   // [kNumDKBufs, num_packs*16]
                                           nv_bfloat16* final_d_k) {
-    
+
     // NOTES: See comments in `csrc/jit_kernels/impls/sm100_sparse_mqa_logits_bwd_epilogue.hpp` for explanations of this kernel.
     static constexpr uint32_t kPackSize = 16;
+
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     // NOTES: To avoid register spilling, we disable loop unrolling when kNumDKBufs > 1
     #pragma unroll (kNumDKBufs > 1 ? 1 : 4)
     for (int token_idx = threadIdx.x + blockIdx.x * blockDim.x; token_idx < num_packs; token_idx += gridDim.x * blockDim.x) {
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_tf32_hc_prenorm_bwd_gemm.cuh b/deep_gemm/include/deep_gemm/impls/sm100_tf32_hc_prenorm_bwd_gemm.cuh
@@ -270,6 +270,9 @@ sm100_tf32_hc_prenorm_bwd_gemm_impl(uint32_t shape_m, float* ds, float* db,
     }
     __syncthreads();
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     // Scheduler
     uint32_t k_block_idx = __shfl_sync(0xffffffff, blockIdx.x, 0);
     uint32_t num_total_stages = math::ceil_div(shape_m, BLOCK_M);
diff --git a/deep_gemm/include/deep_gemm/impls/sm100_tf32_hc_prenorm_gemm.cuh b/deep_gemm/include/deep_gemm/impls/sm100_tf32_hc_prenorm_gemm.cuh
@@ -133,6 +133,9 @@ sm100_tf32_hc_prenorm_gemm_impl(const uint32_t shape_m,
     const uint32_t m_offset = shape_m * k_split_idx;
     const uint32_t num_total_stages = kNumKBlocksPerSplit + (k_split_idx < kRemainKBlocks);
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     // Dispatch warps into different roles
     if (warp_idx < kNumMMAThreads / 32) {
         // TMA load warp
diff --git a/deep_gemm/include/deep_gemm/impls/sm90_bf16_gemm.cuh b/deep_gemm/include/deep_gemm/impls/sm90_bf16_gemm.cuh
@@ -124,6 +124,9 @@ sm90_bf16_gemm_impl(int* grouped_layout,
     constexpr uint32_t kNumTMARegisters = 48;
     constexpr uint32_t kNumMathRegisters = kNumMathThreads == 128 ? 248 : 224;
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     // Block scheduler
     uint32_t m_block_idx, n_block_idx;
     auto scheduler = sched::Scheduler<kGemmType, BLOCK_M, BLOCK_N, kNumGroups, kNumTMAMulticast, kIsTMAMulticastOnA, kNumSMs>(shape_m, shape_n, shape_k, grouped_layout);
diff --git a/deep_gemm/include/deep_gemm/impls/sm90_bmk_bnk_mn.cuh b/deep_gemm/include/deep_gemm/impls/sm90_bmk_bnk_mn.cuh
@@ -94,6 +94,9 @@ sm90_bmn_bnk_mn_gemm_impl(const uint32_t shape_s,
     const uint32_t m_block_idx = mn_block_idx / num_n_blocks;
     const uint32_t num_total_stages = cute::min(kSplitFactor, shape_s * (SHAPE_K / BLOCK_K) - sk_block_idx * kSplitFactor);
 
+    // Wait for primary kernel completion
+    cudaGridDependencySynchronize();
+
     if (warp_idx >= kNumMathThreads / 32) {
         // TMA warp-group for loading data
         cutlass::arch::warpgroup_reg_dealloc<kNumTMARegisters>();
diff --git a/deep_gemm/include/deep_gemm/impls/sm90_fp8_gemm_1d1d.cuh b/deep_gemm/include/deep_gemm/impls/sm90_fp8_gemm_1d1d.cuh
diff --git a/deep_gemm/include/deep_gemm/impls/sm90_fp8_gemm_1d2d.cuh b/deep_gemm/include/deep_gemm/impls/sm90_fp8_gemm_1d2d.cuh
diff --git a/deep_gemm/include/deep_gemm/impls/sm90_fp8_mqa_logits.cuh b/deep_gemm/include/deep_gemm/impls/sm90_fp8_mqa_logits.cuh
diff --git a/deep_gemm/include/deep_gemm/impls/sm90_fp8_paged_mqa_logits.cuh b/deep_gemm/include/deep_gemm/impls/sm90_fp8_paged_mqa_logits.cuh
diff --git a/deep_gemm/include/deep_gemm/impls/sm90_tf32_hc_prenorm_gemm.cuh b/deep_gemm/include/deep_gemm/impls/sm90_tf32_hc_prenorm_gemm.cuh
diff --git a/deep_gemm/include/deep_gemm/impls/smxx_clean_logits.cuh b/deep_gemm/include/deep_gemm/impls/smxx_clean_logits.cuh
diff --git a/deep_gemm/include/deep_gemm/impls/smxx_layout.cuh b/deep_gemm/include/deep_gemm/impls/smxx_layout.cuh
diff --git a/deep_gemm/include/deep_gemm/scheduler/gemm.cuh b/deep_gemm/include/deep_gemm/scheduler/gemm.cuh
diff --git a/deep_gemm/include/deep_gemm/scheduler/paged_mqa_logits.cuh b/deep_gemm/include/deep_gemm/scheduler/paged_mqa_logits.cuh

Original file line number	Diff line number	Diff line change
`@@ -21,6 +21,8 @@`
`21`	`21`	`get_tc_util,`
`22`	`22`	`set_ignore_compile_dims,`
`23`	`23`	`set_block_size_multiple_of,`
	`24`	`+ set_pdl,`
	`25`	`+ get_pdl,`
`24`	`26`	`)`
`25`	`27`
`26`	`28`	`# cuBLASLt Kernels`
Original file line number	Diff line number	Diff line change
`@@ -164,6 +164,9 @@ sm100_bf16_gemm_impl(int* grouped_layout,`
`164`	`164`	`}`
`165`	`165`	`kNumMulticast > 1 ? cute::cluster_sync() : __syncthreads();`
`166`	`166`
	`167`	`+ // Wait for primary kernel completion`
	`168`	`+ cudaGridDependencySynchronize();`
	`169`	`+`
`167`	`170`	`// Block scheduler`
`168`	`171`	`uint32_t m_block_idx, n_block_idx;`
`169`	`172`	`auto scheduler = sched::Scheduler<kGemmType, BLOCK_M, BLOCK_N, kNumGroups, kNumMulticast, kIsMulticastOnA, kNumSMs>(`