70 % du corpus LLM est en anglais — pourquoi le FR compte quand même
Selon les études les plus récentes (Common Crawl 2025, Stanford CRFM 2024), les principaux corpus d'entraînement des LLM sont composés à ~65-75 % d'anglais, ~3-5 % de français, ~3-4 % d'espagnol/allemand. À première vue, on pourrait conclure qu'il faut tout publier en anglais.
C'est une erreur. La phase d'entraînement n'est qu'une partie du jeu : le RAG en production interroge un index web plus récent et plus localisé, et le modèle privilégie fortement la langue de la requête utilisateur. Quand un acheteur français demande à ChatGPT « quel ERP français pour PME industrielle ? », l'IA va chercher d'abord dans le contenu francophone.
L'IA répond dans la langue de la requête — et cite en conséquence
Tests NEXUS GEO mai 2026, sur 50 prompts B2B FR vs EN identiques en sens : ChatGPT-4o cite des sources FR dans 78 % des réponses FR (vs 12 % dans les réponses EN). Claude 3.5 Sonnet : 71 % vs 9 %. Perplexity : 84 % vs 18 %. Conclusion claire : si votre marché parle français à l'IA, votre contenu doit être prioritairement en français.
3 buyer personas B2B FR — 3 stratégies différentes
Persona A — Le directeur PME 100 % France (60 % du marché)
Achète en France, parle français, interroge ChatGPT en français. Stratégie : 90-100 % du contenu en FR. Pas besoin de version anglaise sauf pour la presse internationale. C'est le cas de la plupart des clients NEXUS GEO (cabinets, ETI industrielles, agences de service).
Persona B — Le head of revenue SaaS EU (25 % du marché)
Vend dans 4-8 pays européens, navigue en anglais entre partenaires. Interroge l'IA en anglais le matin pour la veille concurrentielle, en français l'après-midi pour les ops FR. Stratégie : 50/50 FR/EN avec hreflang strict, contenu sur-mesure par langue (pas de traduction).
Persona C — Le founder tech mondial (15 % du marché)
Vend SaaS B2B à des clients globaux, basé en France mais marché US/UK dominant. Stratégie : 80 % EN, 20 % FR (pour le marché domestique + presse FR + recrutement). Voir Mistral, HuggingFace, Datadog (cas extrême).
Patterns hreflang qui fonctionnent en 2026
- Sous-dossiers (/fr/, /en/) : préféré par Google et les LLM, simple à gérer, pas de duplication de domaine.
- Sous-domaines (fr.site.com, en.site.com) : OK mais demande une gestion DNS et SSL plus lourde, pas d'avantage GEO réel.
- ccTLD (site.fr + site.com) : excellent pour le SEO local, mais double les coûts et l'entretien — non recommandé sauf gros budget.
- Pas de hreflang du tout : à éviter, l'IA peut servir la mauvaise version selon la géo de la requête.
Pattern recommandé NEXUS GEO en 2026 : sous-dossiers /fr/ et /en/ sur le même domaine, balises hreflang complètes (FR+EN+x-default), llms.txt distinct pour chaque langue, schema Organization unique (pas dupliqué).
Plan d'action 90 jours selon votre cas
| Si vous êtes... | Jours 1-30 | Jours 31-60 | Jours 61-90 |
|---|---|---|---|
| Persona A (PME FR) | Audit GEO FR + llms.txt | Articles longs FR + FAQ + schema | Mesure citations FR multi-modèles |
| Persona B (SaaS EU) | Audit bilingue + hreflang | Refonte 10 pages clés en FR ET EN natif | llms.txt FR + EN, mesure 30 prompts par langue |
| Persona C (founder global) | Audit EN + Reddit/HN strat | Pile 80 % articles EN, 20 % FR | Suivi citations EN globales + FR FR |
FAQ
Sources
- Common Crawl — Statistiques de composition linguistique 2025.
- Stanford CRFM — « Foundation Model Datasets » 2024.
- Profound — Étude sur la pénalisation des contenus traduits machine, mars 2026.
- Google Search Central — Documentation hreflang.
- Tests internes NEXUS GEO — 50 prompts FR/EN multi-modèles, mai 2026.
Stratégie multilingue à clarifier ?
L'audit GEO NEXUS à 1 750 € TTC inclut un diagnostic linguistique de votre marché cible et une recommandation de ratio FR/EN. Livré en 10 jours.
