InternLM · HAOCHENYE · Dec 12, 2025
diff --git a/xtuner/v1/model/base.py b/xtuner/v1/model/base.py
diff --git a/xtuner/v1/model/compose/intern_s1/modeling_intern_s1.py b/xtuner/v1/model/compose/intern_s1/modeling_intern_s1.py
@@ -136,7 +136,7 @@ def fully_shard(
         # Note: 非常关键，不能删除这个 assert
         assert self.fsdp_mesh is not None
 
-        fully_shard(
+        self._fully_shard(
             self,
             mesh=self.fsdp_mesh,
             mp_policy=mp_policy,

diff --git a/xtuner/v1/model/compose/qwen3_vl/modeling_projector.py b/xtuner/v1/model/compose/qwen3_vl/modeling_projector.py
@@ -108,7 +108,7 @@ def fully_shard(
             for param in self.parameters():
                 param.requires_grad = False
 
-        fully_shard(
+        self._fully_shard(
             self,
             mesh=self.fsdp_mesh,
             mp_policy=mp_policy,

diff --git a/xtuner/v1/model/compose/qwen3_vl/modeling_qwen3_vl.py b/xtuner/v1/model/compose/qwen3_vl/modeling_qwen3_vl.py
@@ -8,7 +8,6 @@
 from torch.distributed.fsdp import (
     CPUOffloadPolicy,
     MixedPrecisionPolicy,
-    fully_shard,
     FSDPModule,
 )
 import torch.distributed as dist
@@ -90,7 +89,7 @@ def fully_shard(
         # Note: 非常关键，不能删除这个 assert
         assert self.fsdp_mesh is not None
 
-        fully_shard(
+        self._fully_shard(
             self,
             mesh=self.fsdp_mesh,
             mp_policy=mp_policy,

diff --git a/xtuner/v1/model/compose/qwen3_vl/modeling_vision.py b/xtuner/v1/model/compose/qwen3_vl/modeling_vision.py
@@ -14,7 +14,6 @@
 from torch.distributed.fsdp import (
     CPUOffloadPolicy,
     MixedPrecisionPolicy,
-    fully_shard,
 )
 from transformers.models.llama.modeling_llama import repeat_kv
 from xtuner.v1.float8.float8_handler import Float8Handler
@@ -349,7 +348,7 @@ def fully_shard(
 
             self.blocks[layer_idx] = layer
 
-            fully_shard(
+            self._fully_shard(
                 layer,
                 mesh=self.fsdp_mesh,
                 mp_policy=mp_policy,
@@ -362,7 +361,7 @@ def fully_shard(
         for layer_cur, layer_next in zip(self.blocks[:-1],  self.blocks[1:]):
             layer_cur.set_modules_to_forward_prefetch([layer_next])
 
-        fully_shard(
+        self._fully_shard(
             self,
             mesh=self.fsdp_mesh,
             mp_policy=mp_policy,

diff --git a/xtuner/v1/model/dense/dense.py b/xtuner/v1/model/dense/dense.py
@@ -11,7 +11,6 @@
 from torch.distributed.fsdp import (
     CPUOffloadPolicy,
     MixedPrecisionPolicy,
-    fully_shard,
 )
 from torch.distributed.tensor import DTensor
 from tqdm import tqdm
@@ -223,7 +222,7 @@ def fully_shard(
                     layer.forward = torch.compile(layer.forward, fullgraph=True)
 
             self.layers[str(layer_idx)] = layer
-            fully_shard(
+            self._fully_shard(
                 layer,
                 mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
                 mp_policy=mp_policy,
@@ -237,31 +236,31 @@ def fully_shard(
         ):
             layer_cur.set_modules_to_forward_prefetch([layer_next])  # type: ignore
 
-        fully_shard(
+        self._fully_shard(
             self.embed_tokens,
             mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
             mp_policy=mp_policy,
             reshard_after_forward=self.fsdp_config.reshard_after_forward,
             offload_policy=CPUOffloadPolicy() if self.fsdp_config.cpu_offload else None,
         )
 
-        fully_shard(
+        self._fully_shard(
             self.norm,
             mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
             mp_policy=mp_policy,
             reshard_after_forward=self.fsdp_config.reshard_after_forward,
             offload_policy=CPUOffloadPolicy() if self.fsdp_config.cpu_offload else None,
         )
 
-        fully_shard(
+        self._fully_shard(
             self.lm_head,
             mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
             mp_policy=mp_policy,
             reshard_after_forward=self.fsdp_config.reshard_after_forward,
             offload_policy=CPUOffloadPolicy() if self.fsdp_config.cpu_offload else None,
         )
 
-        fully_shard(
+        self._fully_shard(
             self,
             mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
             mp_policy=mp_policy,

diff --git a/xtuner/v1/model/moe/moe.py b/xtuner/v1/model/moe/moe.py
@@ -18,7 +18,6 @@
 from torch.distributed.fsdp import (
     CPUOffloadPolicy,
     MixedPrecisionPolicy,
-    fully_shard,
 )
 from torch.distributed.tensor import DTensor, Replicate, distribute_tensor
 from tqdm import tqdm
@@ -733,7 +732,7 @@ def fully_shard(
                 reshard_after_forward = False
             else:
                 reshard_after_forward = self.fsdp_config.reshard_after_forward
-            fully_shard(
+            self._fully_shard(
                 layer,
                 mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
                 mp_policy=mp_policy,
@@ -747,31 +746,31 @@ def fully_shard(
         ):
             layer_cur.set_modules_to_forward_prefetch([layer_next])  # type: ignore
 
-        fully_shard(
+        self._fully_shard(
             self.embed_tokens,
             mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
             mp_policy=mp_policy,
             reshard_after_forward=self.fsdp_config.reshard_after_forward,
             offload_policy=CPUOffloadPolicy() if self.fsdp_config.cpu_offload else None,
         )
 
-        fully_shard(
+        self._fully_shard(
             self.norm,
             mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
             mp_policy=mp_policy,
             reshard_after_forward=self.fsdp_config.reshard_after_forward,
             offload_policy=CPUOffloadPolicy() if self.fsdp_config.cpu_offload else None,
         )
 
-        fully_shard(
+        self._fully_shard(
             self.lm_head,
             mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
             mp_policy=mp_policy,
             reshard_after_forward=self.fsdp_config.reshard_after_forward,
             offload_policy=CPUOffloadPolicy() if self.fsdp_config.cpu_offload else None,
         )
 
-        fully_shard(
+        self._fully_shard(
             self,
             mesh=self.fsdp_mesh if self.hsdp_mesh is None else self.hsdp_mesh,
             mp_policy=mp_policy,

diff --git a/xtuner/v1/utils/load_spec.py b/xtuner/v1/utils/load_spec.py
@@ -1,4 +1,5 @@
 import torch.distributed as dist
+from torch.distributed.device_mesh import DeviceMesh
 from pydantic import BaseModel, ConfigDict
 
 from .enum_helper import StrEnum
@@ -21,6 +22,7 @@ class LoadSpec(BaseModel):
     shard_start: int | None = None
     shard_end: int | None = None
     group: dist.ProcessGroup | None = None
+    fsdp_mesh: DeviceMesh | None = None  # TODO: (yehaochen) Only a workaround
 
     def model_post_init(self, _) -> None:
         if self.load_enum == LoadEnum.SAME: