Address convergence and nan issues #61

jundi69 · 2025-05-05T08:48:18Z

Does the following:

Gradient clip after allreduce to enhance stability of gradients
Zero outer optimizer grads to avoid accumulating gradients in the outer optimizer
Remove gradscaler as we are training in bfloat16
Reduce effective batch size back to 512 as per diloco paper

… + reduce effective batch size

jundi69 added 3 commits May 5, 2025 08:45

Clip after allreduce + Zero outer optimizer grads + remove gradscaler…

cdded6e

… + reduce effective batch size

Fix: switch param copying to correct params

ac24a01

Fix: change wrong var

678e7f0

Provide feedback