Skip to content

Commit 00edb46

Browse files
committed
fix: Correct some errors in 'Pixtral 12B'
1 parent 85b6364 commit 00edb46

File tree

2 files changed

+81
-82
lines changed

2 files changed

+81
-82
lines changed

_posts/2025-10-05-deepseek-v2--a-strong--economical--and-efficient-mixture-of-experts-language-model.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -309,7 +309,7 @@ DeepSeek-V2의 사전 훈련을 위한 데이터 구축 과정은 이전 DeepSee
309309

310310
데이터 양뿐만 아니라 품질에도 중점을 두었습니다. 다양한 소스에서 고품질 데이터로 사전 훈련 코퍼스를 풍부하게 만들었으며, 동시에 품질 기반 필터링 알고리즘을 개선했습니다. 개선된 알고리즘은 대량의 비유익한 데이터를 제거하면서도 가치 있는 데이터는 대부분 보존하도록 보장합니다. 이는 정교한 체질 과정과 같아서, 불순물은 걸러내면서 영양분은 최대한 보존하는 것과 유사합니다.
311311

312-
또한 특정 지역 문화에서 비롯된 데이터 편향을 완화하기 위해 사전 훈련 코퍼스에서 논란이 될 수 있는 콘텐츠를 필터링했습니다. 이러한 필터링 전략의 영향에 대한 자세한 논의는 부록 E에서 제시되어 있습니다.
312+
또한 특정 지역 문화에서 비롯된 데이터 편향을 완화하기 위해 사전 훈련 코퍼스에서 논란이 될 수 있는 콘텐츠를 필터링했습니다. 이러한 필터링 전략의 영향에 대한 자세한 논의는 부록에서 제시되어 있습니다.
313313

314314
토크나이저는 DeepSeek 67B에서 사용된 것과 동일한 것을 채택했으며, 이는 Byte-level Byte-Pair Encoding(BBPE) 알고리즘을 기반으로 구축되었고 어휘 크기는 100K입니다. 토큰화된 사전 훈련 코퍼스는 총 8.1T 토큰을 포함하며, 중국어 토큰이 영어 토큰보다 약 12% 더 많습니다. 이러한 언어 분포는 DeepSeek-V2가 진정한 이중 언어 모델로서 기능할 수 있도록 하는 중요한 기반이 됩니다.
315315

@@ -386,7 +386,7 @@ DeepSeek-V2는 이중 언어 코퍼스에서 사전 훈련되었기 때문에
386386

387387
이전 연구(DeepSeek-AI, 2024)를 따라 HellaSwag, PIQA, WinoGrande, RACE-Middle, RACE-High, MMLU, ARC-Easy, ARC-Challenge, CHID, C-Eval, CMMLU, C3, CCPM을 포함한 데이터셋에 대해서는 퍼플렉시티 기반 평가를 채택했고, TriviaQA, NaturalQuestions, DROP, MATH, GSM8K, HumanEval, MBPP, CRUXEval, BBH, AGIEval, CLUEWSC, CMRC, CMath에 대해서는 생성 기반 평가를 채택했습니다.
388388

389-
또한 Pile-test에 대해서는 언어 모델링 기반 평가를 수행하고 서로 다른 토크나이저를 가진 모델들 간의 공정한 비교를 보장하기 위해 Bits-Per-Byte(BPB)를 메트릭으로 사용했습니다. 이러한 벤치마크들에 대한 직관적인 개요를 위해 각 벤치마크에 대한 평가 형식을 부록 G에 추가로 제공했습니다.
389+
또한 Pile-test에 대해서는 언어 모델링 기반 평가를 수행하고 서로 다른 토크나이저를 가진 모델들 간의 공정한 비교를 보장하기 위해 Bits-Per-Byte(BPB)를 메트릭으로 사용했습니다. 이러한 벤치마크들에 대한 직관적인 개요를 위해 각 벤치마크에 대한 평가 형식을 부록에 추가로 제공했습니다.
390390

391391
#### 평가 결과
392392

0 commit comments

Comments
 (0)