NVIDIA · cliffburdick · May 30, 2024 · May 30, 2024
diff --git a/include/matx/executors/device.h b/include/matx/executors/device.h
@@ -98,11 +98,7 @@ namespace matx
             bool stride = detail::get_grid_dims<Op::Rank()>(blocks, threads, sizes, 256);
 
             if constexpr (Op::Rank() == 1) {
-              if(stride) {
-                detail::matxOpT1StrideKernel<<<blocks, threads, 0, stream_>>>(op, sizes[0]);
-              } else {
-                detail::matxOpT1Kernel<<<blocks, threads, 0, stream_>>>(op, sizes[0]);
-              }
+              detail::matxOpT1Kernel<<<blocks, threads, 0, stream_>>>(op, sizes[0]);
             }
             else if constexpr (Op::Rank() == 2) {
               if(stride) {

diff --git a/include/matx/executors/kernel.h b/include/matx/executors/kernel.h
@@ -62,19 +62,6 @@ __global__ void matxOpT1Kernel(Op op, index_t size0) {
   }
 }
 
-template <class Op>
-__global__ void matxOpT1StrideKernel(Op op, index_t size0) {
-  for(index_t idx = static_cast<index_t>(blockIdx.x) * blockDim.x + threadIdx.x; 
-      idx < size0;
-      idx += blockDim.x * gridDim.x) {
-    if constexpr (std::is_pointer_v<Op>) {
-      (*op)(idx); 
-    }
-    else {
-      op(idx);
-    }
-  }
-}
 
 template <class Op>
 __global__ void matxOpT2Kernel(Op op, index_t size0, index_t size1) {

diff --git a/test/00_tensor/BasicTensorTests.cu b/test/00_tensor/BasicTensorTests.cu
@@ -455,6 +455,60 @@ TYPED_TEST(BasicTensorTestsIntegral, InitAssign)
   MATX_EXIT_HANDLER();
 }
 
+TYPED_TEST(BasicTensorTestsIntegral, StridedKernels)
+{
+  MATX_ENTER_HANDLER();
+
+  using TestType = std::tuple_element_t<0, TypeParam>;
+
+  {
+    auto ta = make_tensor<TestType>({70000 * 1024, 1});
+    auto tb = make_tensor<TestType>({70000 * 1024, 1});
+    auto tc = make_tensor<TestType>({70000 * 1024, 1});
+
+    (ta = 1, tb = 2).run();
+    (tc = ta + tb).run();
+
+    cudaStreamSynchronize(0);
+
+    for (index_t i = 0; i < tc.Size(0); i++) {
+      ASSERT_EQ(tc(i, 0), 3);
+    }    
+  }
+
+  {
+    auto ta = make_tensor<TestType>({70000 * 1024, 1, 1});
+    auto tb = make_tensor<TestType>({70000 * 1024, 1, 1});
+    auto tc = make_tensor<TestType>({70000 * 1024, 1, 1});
+
+    (ta = 1, tb = 2).run();
+    (tc = ta + tb).run();
+
+    cudaStreamSynchronize(0);
+
+    for (index_t i = 0; i < tc.Size(0); i++) {
+      ASSERT_EQ(tc(i, 0, 0), 3);
+    }    
+  }
+
+  {
+    auto ta = make_tensor<TestType>({70000 * 1024, 1, 1, 1});
+    auto tb = make_tensor<TestType>({70000 * 1024, 1, 1, 1});
+    auto tc = make_tensor<TestType>({70000 * 1024, 1, 1, 1});
+
+    (ta = 1, tb = 2).run();
+    (tc = ta + tb).run();
+
+    cudaStreamSynchronize(0);
+
+    for (index_t i = 0; i < tc.Size(0); i++) {
+      ASSERT_EQ(tc(i, 0, 0, 0), 3);
+    }    
+  }  
+
+  MATX_EXIT_HANDLER();
+}
+
 
 TYPED_TEST(BasicTensorTestsAll, Print)
 {