如题;
数据:训练数据使用的是aishell,
模型:LLM模型是Qwen2.5 1.5B,encoder paraformer;
训练使用2张GPU;
模型只能训练一个epoch,执行第二个echo会报错:错误如下:

当输出显示 :
“2025-06-09 16:34:19 | INFO | mooer.utils.checpoint_io | checpoint_io.py:10 | Rank 1--> saving model ...”
时,会长时间停止; 此时GPU 利用率100%; 然后会报错,并退出;