ROCm · matthiasdiener · Jan 16, 2026 · Jan 16, 2026 · alextmagro · Jan 16, 2026
@@ -74,7 +74,7 @@ if(USE_CUDA)
   list(APPEND test_operator_LINKER_LIBS CUDA::cudart GTest::gtest_main ${TE_LIB} CUDA::nvrtc CUDNN::cudnn)
   target_link_libraries(test_operator PUBLIC ${test_operator_LINKER_LIBS} OpenMP::OpenMP_CXX)
 else()
-  target_link_libraries(test_operator PUBLIC hip::host hip::device GTest::gtest_main ${TE_LIB} OpenMP::OpenMP_CXX)
+  target_link_libraries(test_operator PUBLIC hip::host hip::device GTest::gtest_main ${TE_LIB} OpenMP::OpenMP_CXX rocrand)
 endif()
 target_compile_options(test_operator PRIVATE -O2 -fopenmp)
 

@@ -783,7 +783,6 @@ std::pair<double, double> getTolerances(const DType type) {
 template <typename T>
 void generate_data_uniformly(T* data, const size_t size, std::mt19937* gen) {
 #ifdef __HIP_PLATFORM_AMD__
-  // TODO: Introduce a parallel RNG library (Random123, PCG, rocRAND)
   std::uniform_real_distribution<> dis(-2.0, 1.0);
   for (int i = 0; i < size; i++) {
     data[i] = static_cast<T>(dis(*gen));
@@ -822,21 +821,71 @@ void generate_data_uniformly(T* data, const size_t size, std::mt19937* gen) {
 #endif
 }
 
+#ifdef __HIP_PLATFORM_AMD__
+#include <rocrand/rocrand.h>
+
+template <typename T>
+__global__ void affine_transform_and_cast(float* __restrict__ in, T* __restrict__ out, size_t n, float lo, float hi) {
+  // Clamp values in *in* to [lo, hi] and cast to type *T* for *out*.
+  size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
+  if (idx < n) {
+    in[idx] = lo + (hi - lo) * in[idx];
+    out[idx] = static_cast<T>(in[idx]);
+  }
+}
+
+void fillUniformDevice(Tensor* t) {
+  void* dst = t->rowwise() ? t->rowwise_dptr() : t->columnwise_dptr();
+  const auto shape = t->rowwise() ? t->rowwise_shape() : t->columnwise_shape();
+  const size_t N = product(shape);
+
+  float* tmp = nullptr;
+  hipMalloc(&tmp, N * sizeof(float));
+
+  // per-tensor deterministic seed
+  const unsigned long long seed = static_cast<unsigned long long>(t->gen()());
+  rocrand_generator gen;
+  rocrand_create_generator(&gen, ROCRAND_RNG_PSEUDO_PHILOX4_32_10);
+  rocrand_set_seed(gen, seed);
+
+  rocrand_generate_uniform(gen, tmp, N);
+
+  // map to [-2.0, 1.0] (like generate_data_uniformly) and cast into tensor dtype
+  TRANSFORMER_ENGINE_TYPE_SWITCH_ALL(t->dtype(), T, {
+    dim3 block(256);
+    dim3 grid((N + block.x - 1) / block.x);
+    hipLaunchKernelGGL(affine_transform_and_cast<T>, grid, block, 0, 0,
+                       tmp, reinterpret_cast<T*>(dst), N, -2.0f, 1.0f);
+  });
+
+  rocrand_destroy_generator(gen);
+  hipFree(tmp);
+}
+#endif
+
 void fillUniform(Tensor *t) {
   if (t->rowwise()) {
     const size_t size = product(t->rowwise_shape());
     TRANSFORMER_ENGINE_TYPE_SWITCH_ALL(t->dtype(), T,
       {
+#ifdef __HIP_PLATFORM_AMD__
+        fillUniformDevice(t);
+#else
         T *data = t->rowwise_cpu_dptr<T>();
         generate_data_uniformly(data, size, &(t->gen()));
+#endif
       }
     );
   } else {
     const size_t size = product(t->columnwise_shape());
     TRANSFORMER_ENGINE_TYPE_SWITCH_ALL(t->dtype(), T,
       {
+#ifdef __HIP_PLATFORM_AMD__
+        fillUniformDevice(t);
+#else
         T *data = t->columnwise_cpu_dptr<T>();
         generate_data_uniformly(data, size, &(t->gen()));
+#endif
       }
     );
   }

@@ -21,7 +21,7 @@ find_package(OpenMP REQUIRED)
 if(USE_CUDA)
 target_link_libraries(test_util PUBLIC CUDA::cudart GTest::gtest_main ${TE_LIB} CUDA::nvrtc CUDNN::cudnn OpenMP::OpenMP_CXX)
 else()
-target_link_libraries(test_util PUBLIC hip::host hip::device GTest::gtest_main ${TE_LIB} OpenMP::OpenMP_CXX)
+target_link_libraries(test_util PUBLIC hip::host hip::device GTest::gtest_main ${TE_LIB} OpenMP::OpenMP_CXX rocrand)
 endif()
 target_compile_options(test_util PRIVATE -O2 -fopenmp)