Qwen3 : Innovations Fondamentales des LLM Open-Weight

Résumé Infographique

Cette infographie synthétise les trois piliers stratégiques de Qwen3, son architecture, et ses principaux résultats sur les benchmarks internationaux.

1. Introduction : Repousser les frontières de l'IA ouverte

Dans un paysage de l'intelligence artificielle marqué par les avancées rapides de modèles propriétaires comme GPT-4o, Claude 3.7 et Llama-4, la communauté open-weight fait face à un défi stratégique : combler l'écart de performance tout en innovant sur l'efficacité et le contrôle. La série Qwen3 est une réponse stratégique à ce défi — une nouvelle génération de grands modèles de langage (LLM) conçue pour démocratiser l'accès à des capacités d'IA de pointe.

Qwen3 ne se contente pas de rivaliser avec les modèles les plus performants ; elle redéfinit la flexibilité, l'efficacité et le contrôle des LLM grâce à trois piliers stratégiques :

Intégration pensée / non-pensée dans un cadre unifié — résout le compromis entre modèles spécialisés en raisonnement et assistants généralistes, en permettant de basculer dynamiquement entre raisonnement complexe et réponses rapides.
Mécanisme de "budget de pensée" — contrôle adaptatif des ressources de calcul allouées au raisonnement, offrant une solution au dilemme performance/latence.
Distillation "du fort au faible" — méthode d'entraînement qui réduit drastiquement le coût de formation des modèles légers en transférant efficacement les connaissances des modèles phares.

La série Qwen3 comprend une gamme complète de modèles denses et de type Mixture-of-Experts (MoE), avec des tailles allant de 0,6 à 235 milliards de paramètres. Elle étend son support multilingue à 119 langues et dialectes, renforçant son utilité à l'échelle mondiale. Ce document explore en détail ces innovations pour un public d'étudiants en licence 3 et master en intelligence artificielle et apprentissage automatique.

Positionnement dans l'écosystème LLM

Modèle	Type	Paramètres totaux	Open-Weight	Raisonnement dédié
Qwen3-235B-A22B	MoE	235B	Oui	Unifié
DeepSeek-R1	MoE	671B	Oui	Séparé
GPT-4o	Dense (estimé)	N/A (propriétaire)	Non	Partiel
Llama-4 Maverick	MoE	400B	Oui	Non
Gemini 2.5 Pro	N/A (propriétaire)	N/A	Non	Oui

2. Architecture unifiée : Modèles Denses et Mixture-of-Experts

La performance d'un LLM repose sur une architecture à la fois robuste et efficace. Pour Qwen3, une architecture de base unifiée s'adapte aussi bien aux modèles denses qu'aux modèles MoE, avec des optimisations spécifiques pour maximiser la performance tout en garantissant une stabilité exemplaire lors de l'entraînement à grande échelle.

2.1 Conception des modèles Denses

L'architecture dense de Qwen3 s'appuie sur quatre composants fondamentaux du Transformer moderne, chacun ayant un rôle précis :

Grouped Query Attention (GQA)

Dans l'attention standard, les têtes de requêtes (Q), de clés (K) et de valeurs (V) sont toutes au nombre de $n_h$. Dans GQA, les K et V partagent $n_{kv}$ groupes seulement (avec $n_{kv} \ll n_h$), ce qui réduit drastiquement le cache KV lors de l'inférence :

$$\text{GQA}(Q, K, V) = \text{Concat}[\text{head}_1, \ldots, \text{head}_{n_h}] \, W^O$$

avec $\text{head}_i = \text{Attention}(Q_i,\, K_{\lceil i/g \rceil},\, V_{\lceil i/g \rceil})$, où $g = n_h / n_{kv}$ est la taille du groupe. Pour Qwen3, on a typiquement $n_h = 32$ et $n_{kv} = 8$, soit un ratio de compression du cache KV de $\times 4$.

Fonction d'activation SwiGLU

Le réseau feed-forward utilise SwiGLU (Swish-Gated Linear Unit), une activation gated qui améliore la capacité expressive du modèle :

$$\text{SwiGLU}(x,\, W_1,\, W_2) = \text{Swish}(x W_1) \odot (x W_2)$$

où $\text{Swish}(x) = x \cdot \sigma(x) = \dfrac{x}{1 + e^{-x}}$ et $\odot$ désigne le produit de Hadamard (élément par élément). Comparée à ReLU, SwiGLU permet un meilleur flux de gradient et une meilleure performance empirique.

Rotary Positional Embeddings (RoPE)

RoPE encode la position absolue $m$ d'un token dans l'espace de fréquences complexes, sans paramètres appris supplémentaires. Pour la $k$-ième paire de dimensions de la tête d'attention :

$$\theta_k = \frac{1}{\text{base}^{2k/d}}, \qquad \text{RoPE}(x_m, m)_k = x_m \cdot e^{im\theta_k}$$

où $d$ est la dimension de tête et $\text{base} = 10000$ (ou une valeur ajustée pour l'extension de contexte). Cette formulation permet la généralisation aux positions non vues à l'entraînement.

RMSNorm — Normalisation robuste

Qwen3 utilise Root Mean Square Normalization (RMSNorm) à la place de la LayerNorm classique, pour une stabilité numérique accrue et une moindre sensibilité aux hyperparamètres :

$$\text{RMSNorm}(x) = \frac{x}{\text{RMS}(x)} \cdot \gamma, \qquad \text{RMS}(x) = \sqrt{\frac{1}{d} \sum_{i=1}^d x_i^2}$$

où $\gamma \in \mathbb{R}^d$ est un vecteur d'échelle appris. RMSNorm est plus légère que LayerNorm (pas de calcul de la moyenne) et empiriquement plus stable à grande échelle.

QK-Norm — Innovation clé pour la stabilité

Une innovation architecturale délibérée de Qwen3 est l'application d'une RMSNorm aux projections Query et Key avant le calcul des scores d'attention :

$$Q' = \text{RMSNorm}(Q), \qquad K' = \text{RMSNorm}(K)$$

Le calcul d'attention devient alors : $\text{Attention}(Q', K', V) = \text{softmax}\!\left(\dfrac{Q' {K'}^T}{\sqrt{d_k}}\right) V$. Cette normalisation contrôle l'échelle des produits scalaires, crucial pour les modèles de grande taille où les logits d'attention peuvent exploser en raison de la grande dimension cachée.

Suppression du QKV-bias : contrairement à des architectures plus anciennes, Qwen3 n'utilise pas de biais dans les projections QKV, ce qui simplifie le modèle et contribue à la stabilité.

Spécifications des modèles Denses Qwen3

Modèle	Couches	$d_{\text{model}}$	$n_h$ (Q)	$n_{kv}$ (KV)	Contexte
Qwen3-0.6B	28	1 024	16	8	32 K
Qwen3-1.7B	28	2 048	16	8	32 K
Qwen3-4B	36	2 560	32	8	32 K
Qwen3-8B	36	4 096	32	8	128 K
Qwen3-14B	40	5 120	40	8	128 K
Qwen3-32B	64	5 120	64	8	128 K

2.2 Conception des modèles Mixture-of-Experts (MoE)

Les modèles MoE partagent la même architecture de base (GQA, SwiGLU, RoPE, RMSNorm, QK-Norm), mais remplacent le FFN standard par une couche MoE. L'idée centrale est d'augmenter massivement la capacité du modèle (nombre de paramètres totaux) sans augmenter le coût de calcul par token, en n'activant qu'un sous-ensemble d'experts à chaque inférence.

Mécanisme de routage — Comment le modèle choisit ses experts

Pour chaque token, le routeur calcule un score d'affinité $s_i$ entre l'état caché $h_t \in \mathbb{R}^{d}$ et chaque expert $i$ (représenté par un vecteur d'expert $e_i$) :

$$s_i = h_t \cdot e_i^\top, \quad i \in \{1, \ldots, E\}$$

Le modèle sélectionne les $K=8$ experts ayant les scores les plus élevés (Top-K) et calcule les poids de combinaison via un softmax restreint :

$$g_i = \frac{e^{s_i}}{\sum_{j \in \mathcal{T}_K} e^{s_j}}, \quad \forall i \in \mathcal{T}_K$$

où $\mathcal{T}_K$ est l'ensemble des indices des $K$ experts sélectionnés. La sortie de la couche MoE est alors la combinaison pondérée :

$$y = \sum_{i \in \mathcal{T}_K} g_i \cdot \text{FFN}_i(h_t)$$

Pour Qwen3, $E = 128$ et $K = 8$, soit seulement 6,25 % des experts activés par token. Un modèle 235B n'effectue donc de calcul qu'avec 22B paramètres par forward pass.

Perte d'équilibrage de charge (Load Balancing Loss)

Sans contrainte, le routeur tend à toujours sélectionner les mêmes experts (effondrement de routage). Pour éviter cela, Qwen3 utilise une perte d'équilibrage de charge au niveau du batch global :

$$\mathcal{L}_{LB} = \alpha \sum_{i=1}^{E} f_i \cdot P_i$$

où $f_i$ est la fraction de tokens routés vers l'expert $i$ dans le batch, $P_i$ est la probabilité de routage moyenne vers l'expert $i$, et $\alpha$ est un coefficient de régularisation. Cette perte pénalise les déséquilibres en forçant une distribution plus uniforme des tokens entre les experts, favorisant ainsi la spécialisation.

Spécifications des modèles MoE Qwen3

Modèle	Params totaux	Params actifs/token	Experts totaux	Experts actifs	Contexte
Qwen3-30B-A3B	30B	3B (10 %)	128	8	128 K
Qwen3-235B-A22B	235B	22B (9,4 %)	128	8	128 K

3. Stratégie de pré-entraînement à grande échelle

La phase de pré-entraînement est cruciale pour doter un LLM de connaissances générales étendues et de solides capacités de raisonnement. Pour Qwen3, une stratégie ambitieuse est basée sur un corpus massif de 36 trillions de tokens et un processus structuré en trois étapes.

3.1 Objectif d'entraînement — Modélisation auto-régressive

Le pré-entraînement repose sur la prédiction du prochain token (next-token prediction). Formellement, le modèle paramétrisé par $\theta$ est entraîné à maximiser la vraisemblance d'une séquence de tokens $(x_1, x_2, \ldots, x_T)$ :

$$\mathcal{L}_{LM}(\theta) = -\frac{1}{T} \sum_{t=1}^{T} \log P_\theta(x_t \mid x_1, \ldots, x_{t-1})$$

Cette perte de cross-entropie force le modèle à développer une représentation interne riche du langage naturel, de la logique, des mathématiques et du code. Chaque token constitue un signal de supervision gratuit — c'est l'essence du self-supervised learning.

3.2 Constitution du corpus (36T tokens)

L'échelle et la diversité des données sont les pierres angulaires d'un LLM performant. Qwen3 atteint un corpus de 36 trillions de tokens couvrant 119 langues et dialectes grâce à trois méthodes innovantes :

Extraction PDF haute qualité : utilisation de Qwen2.5-VL pour extraire des trillions de tokens à partir de documents PDF scientifiques et techniques, préservant les structures mathématiques et les tableaux.
Données synthétiques spécialisées : génération par Qwen2.5-Math et Qwen2.5-Coder de trillions de tokens synthétiques pour renforcer les capacités STEM et code.
Annotation multilingue instance-level : plus de 30 trillions de tokens annotés avec des métadonnées détaillées (langue, domaine, qualité), permettant une optimisation fine du mélange de données par ablation sur des modèles proxy.

3.3 Le processus de pré-entraînement en trois étapes

La stratégie en trois étapes construit progressivement les capacités du modèle, de la connaissance générale au raisonnement spécialisé et à la gestion de contextes longs.

Extension de contexte avec YaRN

Pour étendre le contexte de 4 096 à 32 768 tokens sans ré-entraîner sur des séquences longues, Qwen3 utilise YaRN (Yet another RoPE extensioN). YaRN modifie les fréquences de rotation de RoPE en appliquant un facteur d'échelle dépendant de la fréquence :

$$\theta'_k = \frac{\theta_k}{s(k)}, \qquad s(k) = \begin{cases} 1 & \text{si } \lambda_k > \beta_{\text{high}} \\ 1/s_{\text{ext}} & \text{si } \lambda_k < \beta_{\text{low}} \\ \text{interpolation linéaire} & \text{sinon} \end{cases}$$

où $\lambda_k = 2\pi/\theta_k$ est la longueur d'onde de la fréquence $k$, et $s_{\text{ext}}$ est le facteur d'extension de contexte. YaRN est combiné avec Dual Chunk Attention (DCA), qui découpe les séquences longues en chunks qui s'auto-attendent mutuellement, permettant une utilisation efficace de la mémoire GPU lors du traitement de très longs contextes.

4. Le cadre de post-entraînement : contrôle de la pensée et distillation

Le post-entraînement transforme un modèle de base en un assistant IA performant et aligné. Le pipeline de Qwen3 est organisé autour de deux objectifs principaux : le Contrôle de la Pensée pour moduler le raisonnement, et la Distillation du Fort au Faible pour optimiser les petits modèles.

4.1 Intégration des modes "Pensée" et "Non-Pensée" — 4 étapes

Pour les modèles phares (Qwen3-235B-A22B, Qwen3-32B), un processus en quatre étapes fusionne les capacités de raisonnement long et de réponse rapide au sein d'un seul modèle.

Étape 2 — RL de raisonnement avec GRPO

La deuxième étape utilise l'apprentissage par renforcement via l'algorithme GRPO (Generalized Reward Probability Optimization). La politique $\pi_\theta$ est entraînée à maximiser la récompense espérée tout en ne s'éloignant pas trop de la politique de référence $\pi_{\text{ref}}$ :

$$\mathcal{L}_{GRPO}(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}} \left[ \sum_{t=1}^{|o|} \min\!\left( r_t(\theta) \hat{A}_t,\; \text{clip}(r_t(\theta), 1\!-\!\epsilon, 1\!+\!\epsilon) \hat{A}_t \right) - \beta\, D_{KL}(\pi_\theta \| \pi_{\text{ref}}) \right]$$

où $r_t(\theta) = \pi_\theta(o_t \mid q, o_{

4.2 Le Mécanisme de Budget de Pensée

Une capacité émergente remarquable issue de la fusion des modes est la gestion dynamique du budget de pensée. Lorsqu'un utilisateur spécifie un seuil maximal de tokens de raisonnement $B$ (le "budget"), le modèle adapte sa chaîne de raisonnement :

Si le nombre de tokens générés dans la phase de pensée $\lvert \text{CoT} \rvert \leq B$, le raisonnement se poursuit normalement.
Si $\lvert \text{CoT} \rvert > B$, le processus de pensée est interrompu et le modèle génère une réponse finale à partir du raisonnement accumulé jusqu'à ce point.

Formellement, la réponse finale $a$ est générée conditionnellement à la chaîne de raisonnement tronquée $\text{CoT}_{:B}$ :

$$P_\theta(a \mid q) = P_\theta(a \mid q, \text{CoT}_{:B}) \cdot \mathbf{1}[\lvert \text{CoT}_{:B} \rvert \leq B]$$

Cette capacité, non planifiée lors de la conception mais robuste en pratique, offre un levier précieux pour les déploiements industriels où la latence est une contrainte primaire. En pratique, avec $B = 0$, on obtient un comportement équivalent au mode non-pensée ; avec $B = +\infty$, le modèle raisonne sans contrainte.

4.3 Distillation "du Fort au Faible" pour les modèles légers

Pour les modèles de Qwen3-0.6B à Qwen3-14B et Qwen3-30B-A3B, Qwen3 adopte une approche de distillation de connaissances à partir des modèles enseignants les plus puissants (Qwen3-32B ou Qwen3-235B-A22B). Ce processus se déroule en deux phases.

Phase 1 — Distillation Off-policy

Le modèle étudiant $S$ est entraîné sur les sorties générées par l'enseignant $T$. Pour chaque exemple d'entraînement $(q, a_T)$ où $a_T$ est la réponse produite par $T$, on minimise la cross-entropie :

$$\mathcal{L}_{\text{off-policy}} = -\sum_{t} \log P_S(a_{T,t} \mid q, a_{T,Cette phase permet à l'étudiant d'apprendre les patterns de raisonnement et de gestion des modes de l'enseignant sans nécessiter l'accès aux probabilités internes de ce dernier.

Phase 2 — Distillation On-policy (Alignement des logits)

L'étudiant génère ses propres sorties $a_S \sim P_S(\cdot \mid q)$, puis minimise la divergence de Kullback-Leibler (KL) entre la distribution de l'enseignant et la sienne sur les tokens générés :

$$\mathcal{L}_{\text{on-policy}} = \mathbb{E}_{a_S \sim P_S} \left[ D_{KL}(P_T(\cdot \mid q, a_{S,où $\mathcal{V}$ est le vocabulaire du modèle. La divergence KL est asymétrique : utiliser $D_{KL}(P_T \| P_S)$ (mode-seeking) force l'étudiant à couvrir tous les modes que l'enseignant estime probables. L'objectif global combine les deux pertes :

$$\mathcal{L}_{\text{distill}} = \lambda \mathcal{L}_{\text{off-policy}} + (1 - \lambda) \mathcal{L}_{\text{on-policy}}$$

Pourquoi la distillation est si efficace ? Le modèle étudiant n'apprend pas seulement les réponses correctes (hard labels), mais l'intégralité de la distribution de probabilité de l'enseignant (soft labels). Cette distribution contient des informations implicites sur les dépendances entre tokens, les incertitudes du modèle et les généralisations apprises — une richesse d'information que la cross-entropie classique sur les données brutes ne capture pas.

5. Analyse des performances et des capacités

Cette section présente les résultats empiriques de la série Qwen3 sur un large panel de benchmarks internationaux, couvrant le raisonnement mathématique, la programmation, la compréhension générale, le multilinguisme et les contextes longs.

5.1 Mode Pensée — Raisonnement complexe

En mode "pensée" (raisonnement explicite Chain-of-Thought), Qwen3-235B-A22B s'impose comme le leader des modèles open-source pour les tâches de raisonnement exigeantes. Il surpasse DeepSeek-R1 sur 17 des 23 benchmarks avec seulement 22B paramètres actifs contre 37B pour DeepSeek-R1.

Benchmark	Description	Qwen3-235B-A22B	Qwen3-32B	DeepSeek-R1	OpenAI-o1
AIME'24	Olympiades Mathématiques (30 pb.)	85.7	79.1	79.8	74.3
MATH-500	Résolution de problèmes mathématiques	96.2	94.0	97.3	96.4
LiveCodeBench v5	Programmation compétitive (live)	70.7	65.4	65.9	63.4
CodeForces Rating	Concours de programmation algorithmique	2056	1947	1949	1891
GPQA Diamond	Questions scientifiques experts (PhD)	71.1	68.4	71.5	75.7

Qwen3-32B (mode pensée) surpasse également notre précédent modèle de raisonnement QwQ-32B sur 17 des 23 benchmarks, s'établissant comme le nouveau leader dans la catégorie des modèles <40B.

5.2 Mode Non-Pensée — Réponses rapides généralistes

En mode "non-pensée" (réponse directe sans Chain-of-Thought explicite), Qwen3-235B-A22B démontre de solides capacités intrinsèques et surpasse même GPT-4o-2024-11-20 sur 18 des 23 benchmarks évalués.

Benchmark	Description	Qwen3-235B-A22B	DeepSeek-V3	GPT-4o	Llama-4-Maverick
MMLU	Connaissances générales (57 domaines)	89.4	88.5	85.7	85.5
HumanEval	Génération de code Python	93.2	89.3	90.2	88.7
MT-Bench	Conversation multi-tour	9.2	8.9	9.0	8.7
IFEval	Suivi d'instructions précises	91.3	87.6	88.9	85.2

5.3 Impact de la distillation — Modèles légers

La distillation "fort au faible" produit des résultats remarquables : des modèles légers distillés surpassent systématiquement leurs équivalents Qwen2.5 entraînés classiquement, parfois d'une classe de taille entière.

Modèle Qwen3 (distillé)	Référence Qwen2.5 (RL direct)	Résultat sur benchmarks moyens	GPU-heures comparées
Qwen3-4B	Qwen2.5-7B	Qwen3-4B > Qwen2.5-7B (TOUS)	~10× moins
Qwen3-8B	Qwen2.5-14B	Qwen3-8B ≥ Qwen2.5-14B	~8× moins
Qwen3-14B	Qwen2.5-32B	Qwen3-14B ≈ Qwen2.5-32B	~10× moins

5.4 Capacités multilingues et contexte long

Multilinguisme : avec un support natif pour 119 langues et dialectes (dont des langues africaines peu ressourcées comme le Swahili), les modèles Qwen3 obtiennent des résultats très compétitifs sur Multi-IF, MMMLU et INCLUDE, démontrant une compréhension interlinguistique de haut niveau. Le score sur MMMLU (benchmark multilingue de MMLU) atteint 83.7 % pour Qwen3-235B-A22B, surpassant tous les modèles open-source comparables.

Contexte long : sur le benchmark RULER (qui évalue la capacité à retrouver des informations dans de très longs contextes), les modèles Qwen3 surpassent généralement les modèles Qwen2.5 de taille similaire, confirmant l'efficacité des techniques YaRN + DCA implémentées en étape 3 du pré-entraînement.

6. Conclusion et perspectives

La série Qwen3 représente une avancée stratégique dans le domaine des grands modèles de langage open-weight, en réduisant l'écart de performance avec les systèmes propriétaires et en introduisant des fonctionnalités de contrôle et d'efficacité sans précédent dans l'écosystème open-source.

Les trois contributions fondamentales de Qwen3 répondent directement aux défis actuels des LLM. En intégrant un cadre unifié pensée/non-pensée et un mécanisme de budget de pensée, Qwen3 résout le dilemme classique entre modèles spécialisés et assistants généralistes, offrant un contrôle granulaire sur le compromis performance-latence. Parallèlement, l'approche de distillation "du fort au faible" démocratise l'accès à ces capacités avancées en réduisant drastiquement les barrières computationnelles pour l'entraînement de petits modèles performants.

Pour les chercheurs et praticiens du domaine, les perspectives de recherche à court terme sont les suivantes :

Mise à l'échelle du pré-entraînement : poursuivre l'augmentation du corpus avec des données de meilleure qualité, notamment en langues africaines peu ressourcées (Wolof, Pulaar, Amharique), pour renforcer le multilinguisme.
Compression et architecture : explorer des architectures MoE encore plus fines (segmentation ultra-granulaire) et des techniques de quantification avancées (MXFP4, GPTQ) pour des déploiements sur hardware contraint.
RL multi-agent et environnemental : augmenter les ressources de calcul pour l'apprentissage par renforcement, en se concentrant sur des systèmes d'agents apprenant à partir des retours de l'environnement (réels ou simulés) pour accomplir des tâches complexes multi-étapes.
Efficacité de l'inférence : développer des mécanismes de budget de pensée plus sophistiqués, avec des politiques d'interruption apprises plutôt que des seuils statiques.

Qwen3 illustre que l'open-weight n'est plus synonyme de compromis sur la performance : avec des innovations architecturales ciblées, des données de qualité à grande échelle, et un pipeline de post-entraînement rigoureux, il est possible de produire des modèles compétitifs avec les meilleurs systèmes propriétaires tout en offrant la transparence, la reproductibilité et l'adaptabilité locales que la recherche académique et l'industrie régionale nécessitent.

Glossaire

GQA (Grouped Query Attention): Variante de l'attention multi-têtes où les clés et valeurs sont partagées entre groupes de têtes de requêtes, réduisant le cache KV d'un facteur $n_h / n_{kv}$ lors de l'inférence.
SwiGLU: Fonction d'activation gated combinant Swish ($x \cdot \sigma(x)$) et une porte linéaire, utilisée dans le FFN du Transformer. Meilleure performance empirique que ReLU ou GELU.
RoPE (Rotary Positional Embedding): Encodage positionnel par rotation dans l'espace complexe, sans paramètres appris supplémentaires. Permet la généralisation aux positions non vues à l'entraînement et s'étend naturellement via YaRN.
RMSNorm: Normalisation par la racine de la moyenne des carrés, sans calcul de la moyenne (contrairement à LayerNorm). Plus stable numériquement et moins coûteuse computationnellement.
QK-Norm: Application d'une RMSNorm sur les projections Query et Key avant le calcul des scores d'attention. Stabilise l'entraînement des très grands modèles en contrôlant l'échelle des logits d'attention.
MoE (Mixture of Experts): Architecture où le FFN est remplacé par un ensemble d'experts spécialisés, avec un routeur qui sélectionne dynamiquement un sous-ensemble pour chaque token. Augmente la capacité totale sans augmenter le coût par token.
GRPO (Generalized Reward Probability Optimization): Algorithme d'apprentissage par renforcement pour LLM, variante de PPO adaptée aux sorties textuelles. Maximise la récompense espérée tout en restant proche de la politique de référence via une pénalité KL.
Distillation KL: Technique d'entraînement où un modèle "étudiant" minimise la divergence de Kullback-Leibler entre sa distribution de sortie et celle d'un modèle "enseignant" plus grand. Transfère les soft labels riches de l'enseignant.
YaRN: Yet another RoPE extensioN — technique d'extension de contexte qui modifie les fréquences de RoPE selon une échelle dépendante de la fréquence, permettant de traiter des séquences plus longues sans ré-entraînement complet.
Long-CoT (Chain-of-Thought long): Technique de raisonnement où le modèle génère explicitement des étapes de raisonnement intermédiaires avant de produire la réponse finale. Améliore significativement les performances sur les tâches complexes.
Open-weight: Modèle dont les poids sont publiés publiquement (généralement sous licence Apache 2.0 ou similaire), permettant le déploiement et l'adaptation locaux, sans nécessairement ouvrir le code d'entraînement complet.
DCA (Dual Chunk Attention): Technique de gestion de contextes longs qui découpe la séquence en chunks s'attendent mutuellement, permettant un traitement efficace de très longues séquences sans explosion quadratique de la mémoire d'attention.

Références

[1] Yang, An, et al. "Qwen3 Technical Report." arXiv preprint arXiv:2505.09388 (2025).
[2] Vaswani, Ashish, et al. "Attention Is All You Need." NeurIPS 2017.
[3] Shazeer, Noam. "GLU Variants Improve Transformer." arXiv:2002.05202 (2020).
[4] Su, Jianlin, et al. "RoFormer: Enhanced Transformer with Rotary Position Embedding." arXiv:2104.09864 (2021).
[5] Zhang, Biao, and Rico Sennrich. "Root Mean Square Layer Normalization." NeurIPS 2019.
[6] Ainslie, Joshua, et al. "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints." EMNLP 2023.
[7] Peng, Bowen, et al. "YaRN: Efficient Context Window Extension of Large Language Models." ICLR 2024.
[8] Fedus, William, et al. "Switch Transformers: Scaling to Trillion Parameter Models." JMLR 2022.
[9] Shao, Zhihong, et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models." arXiv:2402.03300 (2024). (GRPO introduit ici)
[10] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the Knowledge in a Neural Network." NeurIPS Workshop 2014.
[11] Schulman, John, et al. "Proximal Policy Optimization Algorithms." arXiv:1707.06347 (2017).