Réponse courte : robots.txt, llms.txt et ai.txt répondent à trois questions différentes. robots.txt dit « qui peut crawler quoi ». llms.txt dit « voici l'essentiel de mon site, en Markdown, pour que tu le comprennes sans tout crawler ». ai.txt dit « voici ce que tu peux faire avec mon contenu ». Les trois sont complémentaires et s'adressent à des moments différents de l'interaction entre votre site et un crawler IA.
llms.txt vs robots.txt vs ai.txt : tableau comparatif
Avant d'entrer dans le détail de chaque fichier, voici leur positionnement côte à côte. Les trois coexistent et ne se remplacent pas.
| Fichier | Rôle | Format | Emplacement | Question à laquelle il répond |
|---|---|---|---|---|
| robots.txt | Contrôle d'accès au crawl | Texte brut (directives) | /robots.txt (racine) | Quel bot peut accéder à quelle URL ? |
| llms.txt | Guidage du contenu pour les LLM | Markdown structuré | /llms.txt (racine) | Qu'est-ce que ce site, et que vaut-il la peine de lire ? |
| ai.txt | Déclaration d'usage et de licence | Texte brut (clé-valeur) | /ai.txt (racine) | Mon contenu peut-il être utilisé pour entraîner des IA ? |
robots.txt : le contrôle d'accès au crawl
robots.txt est le fichier le plus ancien et le plus respecté. Défini par le Robots Exclusion Protocol (1994), il indique aux bots quelles parties du site ils peuvent ou ne peuvent pas explorer. Il s'applique avant même qu'un crawler lise une seule page.
Pour les crawlers IA, robots.txt reste la première ligne de défense. Des agents comme GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended ou PerplexityBot sont identifiés par leur user-agent. Vous pouvez les bloquer sélectivement — par exemple, autoriser le crawl pour le SEO classique mais bloquer GPTBot pour éviter l'entraînement de données.
- Ouvrez votre fichier /robots.txt à la racine du site. S'il n'existe pas, créez-le.
- Identifiez les crawlers IA que vous souhaitez gérer : GPTBot, ClaudeBot, Google-Extended, PerplexityBot, CCBot et anthropic-ai sont les principaux en 2026.
- La configuration fine (règles Allow/Disallow par user-agent, surveillance trimestrielle des nouveaux agents) est arbitrée dans notre audit NEXUS GEO.
llms.txt : la feuille de route pour les LLM
llms.txt est une proposition de standard formulée en 2024 par Jeremy Howard (fast.ai). L'idée : placer à la racine du site un fichier Markdown qui résume le contenu essentiel — pages importantes, structure, liens clés — de façon à ce qu'un modèle de langage puisse le lire en une seule passe, sans avoir à crawler des centaines de pages.
La différence fondamentale avec robots.txt : llms.txt ne bloque rien. Il guide. Il dit à l'IA « voici ce que je suis, voici ce qui compte sur mon site, voici comment l'interpréter ». C'est un outil de visibilité, pas de restriction. Notre guide complet llms.txt et notre article comment rédiger un llms.txt avec exemples couvrent la mise en pratique en détail.
- Créez un fichier llms.txt à la racine de votre domaine (accessible à `https://votresite.fr/llms.txt`) en Markdown, avec un H1, un blockquote de résumé et vos pages essentielles groupées par sections H2.
- Vérifiez l'accessibilité : le fichier doit retourner HTTP 200 et Content-Type text/plain, sans redirection ni authentification. Un llms-full.txt complémentaire peut inliner vos contenus prioritaires.
Pour la syntaxe complète et les exemples de structure llms.txt (H1, blockquote, sections H2 avec listes de liens), consultez notre guide dédié : comment rédiger son llms.txt avec exemples.
ai.txt : déclarer l'usage autorisé de votre contenu
ai.txt est une initiative distincte, portée notamment par Spawning.ai. Son objectif est différent : il ne guide pas le crawl ni le contenu, il déclare les conditions d'usage de votre contenu. Peut-il être utilisé pour entraîner des modèles d'IA ? Peut-il être résumé et republié ? Ces questions légales et éditoriales n'ont pas de réponse dans robots.txt ni dans llms.txt.
Le format est simple : des paires clé-valeur en texte brut. On y précise si le contenu est optIn ou optOut pour l'entraînement IA, si la génération d'images à partir du contenu est autorisée, etc. Comme llms.txt, le respect de ai.txt dépend entièrement de la bonne volonté des acteurs qui crawlent.
- Créez un fichier ai.txt à la racine (`https://votresite.fr/ai.txt`) en texte brut, avec des paires clé-valeur déclarant votre position sur l'usage de votre contenu.
- Déclarez votre position sur l'entraînement, la synthèse et la génération à partir de votre contenu — puis combinez avec une mention dans vos CGU, qui reste le seul document juridiquement opposable.
L'approche en couches : combiner les trois fichiers
Les trois fichiers ne se substituent pas : ils répondent à trois moments distincts de la relation entre votre site et un crawler IA. L'approche recommandée les empile en couches, du plus contraignant au plus informatif.
- Couche 1 — robots.txt (accès). C'est la porte d'entrée. Vous décidez quels bots peuvent entrer et sur quelles pages. C'est le seul fichier qui a un effet technique direct sur le comportement des crawlers qui le respectent.
- Couche 2 — llms.txt (guidage). Pour les bots que vous laissez entrer, llms.txt leur indique quoi lire en priorité. C'est un levier de visibilité GEO : orientez les IA vers vos meilleures pages, votre entité, vos contenus d'autorité. Voir aussi notre guide schema.org pour l'IA qui complète ce guidage côté balisage structuré.
- Couche 3 — ai.txt (usage). Quel que soit le contenu que les bots récupèrent, ai.txt déclare ce qu'ils ont le droit d'en faire. C'est la couche éditoriale et juridique.
En pratique, une stratégie cohérente commence par auditer ce que vous autorisez dans robots.txt, puis rédige un llms.txt qui met en valeur vos pages les plus citables, et enfin place un ai.txt qui formalise votre position sur l'entraînement des modèles. Ce n'est pas une tâche ponctuelle : la liste des crawlers IA évolue, les standards se précisent, et vos contenus changent.
FAQ
Vos fichiers robots.txt, llms.txt et ai.txt sont-ils correctement configurés pour les crawlers IA ? L'audit NEXUS GEO évalue votre configuration technique et votre citabilité sur 47 critères, sous 10 jours ouvrés.
Audit GEO
Configurez votre stratégie fichiers pour les crawlers IA
NEXUS GEO audite votre configuration robots.txt, llms.txt et ai.txt, vérifie votre citabilité dans ChatGPT, Claude, Gemini, Perplexity, Copilot et Mistral, et livre un plan d'action sur 6 mois. Audit affiché à 1 750 €, livré sous 10 jours ouvrés. Méthodologie : Référentiel GEO-47.
