Chunking et Passage Retrieval : Structurer pour l’IA (2026)




Chunking et Passage Retrieval : structurer ses contenus pour l’indexation IA en 2026

Rédigé par Ulysse Berthelot – Co-Fondateur & Président de iaba. Mis à jour le · Temps de lecture : 12 min.

Schéma simplifié du processus de chunking et de récupération de passages pour l'optimisation RAG
Du document source au passage cité : la chaîne chunking → embedding → retrieval.

En 2026, on n’optimise plus une page : on optimise des passages. Le chunking passage retrieval impose une ingénierie éditoriale stricte où chaque paragraphe doit survivre, seul, à son extraction par un LLM.

  • Le chunking passage retrieval segmente vos pages en blocs de 256 à 512 tokens que les LLM indexent puis citent indépendamment.
  • Un H2 formulé en question + une réponse autonome de 2-3 phrases = un chunk parfaitement extractible.
  • En 2026, la densité factuelle d’un passage prime sur l’autorité globale de la page pour déclencher une citation par ChatGPT, Perplexity ou Google AI Overviews.

Le chunking est le processus technique de découpage d’un document en segments (chunks) sémantiquement cohérents pour faciliter leur indexation par l’IA. Le passage retrieval désigne ensuite l’extraction algorithmique de ces segments pertinents par un grand modèle de langage (LLM) pour formuler sa réponse. En SEO technique (GEO), optimiser le chunking implique de structurer ses pages avec des titres interrogatifs suivis de paragraphes autonomes de deux à trois phrases contenant l’information complète.

Pour comprendre l’architecture technique globale dans laquelle s’inscrit cette segmentation, consultez notre analyse détaillée sur l’optimisation GEO et le fonctionnement exhaustif du pipeline RAG. Cet article descend d’un cran : il traite uniquement de la couche de segmentation et de récupération de passages — celle qui décide, in fine, si votre paragraphe est cité ou ignoré.

Définition GEO : le Generative Engine Optimization est la discipline qui consiste à structurer un site et ses contenus pour maximiser la probabilité d’être cité par les moteurs génératifs (ChatGPT, Perplexity, Gemini, Claude, Google AI Overviews) — pas seulement classé.

Comment les LLM segmentent-ils les contenus lors du parsing ?

Lors du parsing, les LLM utilisent des analyseurs qui divisent le code source d’une page en segments traitables, appelés chunks. Cette segmentation s’appuie sur le DOM HTML, les balises sémantiques et le nombre de tokens pour créer des blocs d’information isolés avant leur vectorisation et leur stockage dans un index.

Concrètement, un crawler IA comme GPTBot, ClaudeBot ou PerplexityBot ne traite pas votre page comme un document monolithique. Il la décompose en unités de récupération : un H2 et son paragraphe immédiat, une liste, un tableau, un bloc de code. Chaque unité devient un candidat indépendant à la citation.

Le pipeline standard observé sur les principaux moteurs se déroule en quatre temps : fetch HTML → nettoyage DOM (suppression nav, footer, scripts) → segmentation structurelle ou récursive → vectorisation via un modèle d’embedding. C’est à l’étape de segmentation que se joue 80 % de votre extractabilité.

1. FetchGPTBot/ClaudeBot récupère le HTML brut
2. Parse DOMnettoyage et extraction de la zone main
3. Chunkingdécoupage en passages de 256-512 tokens
4. Embeddingvectorisation et indexation

Quel rôle jouent robots.txt, llms.txt et llms-full.txt dans ce parsing ?

Ces trois fichiers orientent le moteur vers la version la plus « propre » de votre contenu, réduisant le bruit lors du chunking. Le robots.txt autorise ou bloque les agents (cf. notre dossier sur les crawlers IA GPTBot ClaudeBot). Le llms.txt et le llms-full.txt exposent une version markdown structurée que les moteurs préfèrent au HTML bruité.

L’observation que nous faisons sur la majorité des sites B2B accompagnés : un site sans llms-full.txt force le moteur à parser un HTML pollué (CSS inline, scripts, modales), ce qui dégrade la qualité des chunks générés. À l’inverse, exposer une version markdown améliore la cohérence sémantique des segments extraits.

Conseil actionnable : auditez vos logs serveur. Si GPTBot consomme 20 % de votre HTML pour ne récupérer que 5 % de contenu utile, votre ratio signal/bruit pénalise activement vos chunks.

Quelle est la taille idéale d’un passage (chunk) en optimisation GEO ?

La taille idéale d’un chunk pour l’optimisation GEO se situe entre 256 et 512 tokens, soit un paragraphe de 2 à 4 phrases. Cette granularité maintient une haute densité d’information sans diluer la similarité sémantique lors de la recherche vectorielle.

Granularité de chunk vs précision du retrieval (observation marché 2026)

58 %
87 %
82 %
64 %

Sources sectorielles ( Pinecone, T1 2026 ; Mix-of-Granularity, arXiv 2406.00456) convergent : sous 200 tokens, le chunk perd son contexte ; au-delà de 600 tokens, son vecteur devient un « sac sémantique » qui dilue la pertinence d’une requête précise.

Pourquoi le passage retrieval exige-t-il la rédaction de paragraphes autonomes ?

Le passage retrieval évalue la similarité sémantique segment par segment, indépendamment du reste de la page. Si un paragraphe nécessite le contexte du paragraphe précédent pour être compris, l’IA risque de le rejeter ou de générer une hallucination, d’où la nécessité de paragraphes sémantiquement autonomes.

Le problème technique sous-jacent porte un nom : la résolution des co-références. Quand un paragraphe commence par « Cette technique permet… », le pronom « cette » n’a aucun référent dans l’espace vectoriel du chunk isolé. Le moteur d’embedding produit alors un vecteur ambigu, et le passage retrieval rejette le segment au profit d’un concurrent mieux ancré.

Schéma : Processus en 4 étapes du chunking passage retrieval illustrant la segmentation d'un document long en segments cohérents, leur vectorisation, et la récupération précise par un moteur de recherche IA.
Les 4 étapes du chunking passage retrieval, du document brut au passage cité.

Avant — paragraphe dépendant

  • « Cela permet d’améliorer significativement les résultats. »
  • Pronom non résolu
  • Aucune entité nommée
  • Vecteur sémantiquement flou
  • Rejeté au reranking

Après — paragraphe autonome

  • « Le chunking sémantique améliore le recall RAG de 22 % vs. le chunking fixe (Pinecone, 2026). »
  • Sujet nommé
  • Entité + donnée chiffrée
  • Vecteur dense et précis
  • Cité par Perplexity

Une avancée récente, le Late Chunking (Jina AI, arXiv 2409.04701), pallie partiellement ce problème en encodant le document long en entier avant de découper les vecteurs. Mais cette technique est appliquée côté moteur — vous n’en avez pas le contrôle. La base reste un texte structuré à la source, où chaque paragraphe est par construction autonome.

« Sur les sites B2B techniques que nous accompagnons, le simple fait de réécrire les ouvertures de paragraphes en sujet-verbe-complément — sans toucher au reste — augmente notablement le taux de citation par les moteurs génératifs. C’est le gain le plus rentable du GEO. »

Ulysse Berthelot, Co-Fondateur & Président de iaba

Comment formuler ses H2 pour déclencher une citation par l’IA ?

Pour déclencher une citation, un H2 doit être formulé comme une question explicite d’utilisateur, agissant comme un ancrage sémantique pour le chunking. Le LLM associe directement cette question-titre à la réponse claire située dans les 300 premiers tokens qui suivent la balise.

Le couplage H2 + paragraphe immédiat constitue l’unité de récupération idéale : la question vectorise l’intent, la réponse vectorise le content. Quand un utilisateur pose une question similaire à ChatGPT ou Perplexity, ce couple obtient un score de similarité cosinus très élevé, qui le projette en tête du reranking.

Formulation de H2 et probabilité d’extraction
Type de H2 Citable Indexable Reranking
« Le chunking » ~
« Stratégies avancées » ~
« Qu’est-ce que le chunking en RAG ? »
« Quelle taille de chunk choisir ? »

Quelles stratégies de chunking technique appliquer à ses pages web ?

Les stratégies de chunking pour le web reposent sur la segmentation structurelle basée sur le HTML (Header-based) et le chunking sémantique. L’objectif est d’aligner l’architecture de la page avec la logique de découpage des outils comme LangChain ou LlamaIndex utilisés par les moteurs IA.

Graphique comparant la précision du recall entre chunking fixe et chunking sémantique
Le chunking sémantique surpasse le chunking fixe de ~22 % en précision contextuelle.

Quatre familles de stratégies dominent la littérature 2026. Vous devez comprendre laquelle s’applique côté moteur pour structurer votre page en miroir.

Comparatif des stratégies de chunking passage retrieval
Stratégie Logique Précision RAG Implication éditoriale
Fixed-size Découpe brute tous les N tokens Faible (~58 %) Risque élevé de coupure en milieu de phrase
Recursive Découpe par séparateurs (\n\n, \n, .) Moyenne (~72 %) Soignez vos sauts de paragraphe
Header-based Découpe sur H1/H2/H3 Élevée (~84 %) Un sujet = un H2 = un chunk
Semantic Découpe sur changement de sujet vectoriel Très élevée (~87 %) Maintenez la cohésion thématique par bloc
The 5 Levels Of Text Splitting For Retrieval — Greg Kamradt

📝 En résumé : Greg Kamradt détaille les 5 niveaux de chunking, du character splitter naïf jusqu’à l’agentic chunking. La conclusion opérationnelle pour le GEO : si vos contenus web sont déjà découpés sémantiquement à la source (un H2 = une idée close), vous facilitez la vie de tous les niveaux, du plus basique au plus sophistiqué.

Comment construire une page selon le principe de Mix-of-Granularity ?

Le principe (Mix-of-Granularity, arXiv 2406.00456) consiste à faire cohabiter sur une même page des chunks étroits (réponse courte et factuelle) et des chunks larges (élaboration contextuelle). En pratique : ouvrez chaque section par une réponse de 2-3 phrases citable, puis développez.

  1. Réponse directe en tête

    2-3 phrases autonomes répondant au H2-question. C’est le chunk étroit, optimal pour les requêtes factuelles dans ChatGPT.

  2. Mécanisme expliqué

    Pourquoi cela fonctionne, comment le moteur traite l’information. Chunk moyen, mobilisé sur les requêtes « comment ».

  3. Exemple concret ou comparatif

    Tableau, avant/après, données chiffrées sourcées. Chunk dense en entités, fortement reranké.

  4. Action ou conséquence

    Ce que le lecteur doit faire. Chunk court, citable par les AI Overviews orientés « to-do ».

Erreur fréquente observée : placer la définition d’un terme à la fin d’une section. Les moteurs récupèrent les 300 premiers tokens après le H2 en priorité. Une définition cachée en fin de section est ignorée au profit d’un concurrent qui l’a mise en tête.

Quels outils de chunking utilisent les moteurs IA ?

Côté infrastructure, LangChain et LlamaIndex dominent l’écosystème open source ; Pinecone, Weaviate et Vertex AI Vector Search côté vector stores managés. La plupart implémentent par défaut un RecursiveCharacterTextSplitter avec séparateurs hiérarchiques [`\n\n`, `\n`, `. `, ` `]. Conséquence directe : votre HTML doit présenter des sauts de paragraphe nets, sans bloc compact de 800 mots.

LangChainLlamaIndexPineconeWeaviateVertex AIAzure Document IntelligenceJina Late ChunkingAnthropic Contextual Retrieval

Comment optimiser le passage ranking face à Google-Extended et PerplexityBot ?

Pour optimiser le passage ranking face à des bots comme Google-Extended ou PerplexityBot, il faut maximiser la densité factuelle du segment. Les algorithmes de reranking privilégient les passages contenant des entités nommées claires, des données chiffrées sourcées et une structure logique irréprochable.

Tableau comparatif des méthodes de chunking pour le passage retrieval
Matrice de décision : choisir sa stratégie selon le type de contenu.

Le passage retrieval n’est qu’une première étape : une fois 20 à 50 passages candidats récupérés par similarité cosinus, un second modèle (le reranker) les classe selon des critères de pertinence affinés. C’est à cette étape que la densité factuelle de votre passage fait la différence.

78 %des passages cités par Perplexity contiennent ≥1 chiffre sourcé
3entités nommées en moyenne par chunk extrait
256 tklongueur médiane d’un passage cité (2026)
The Art of Document Chunking — Zilliz

📝 En résumé : Zilliz rappelle que la qualité du retrieval dépend à 70 % de la stratégie de chunking en amont. Un passage bien découpé et dense factuellement vaut mieux qu’un modèle de reranking sophistiqué appliqué à des chunks médiocres. Traduction GEO : vos efforts éditoriaux à la source ont un ROI supérieur à toute optimisation aval.

Quels signaux le reranker valorise-t-il dans un passage ?

Trois signaux dominent : la présence d’entités nommées (marques, lieux, normes, dates), la traçabilité factuelle (citation d’une source identifiable), et la structure logique interne (sujet → preuve → conséquence). Le ton marketing évasif (« la meilleure solution », « depuis des années ») produit des vecteurs ambigus rejetés par le reranker.

Passage dense (entités + chiffres + source)84
Passage marketing évasif31

Comment iaba structure-t-elle techniquement ses pages clients ?

Sur les projets B2B techniques que nous menons, le Protocole GEO-4 active son pilier Technical Optimization via trois leviers : un mu-plugin WordPress propriétaire (llms.txt v8.0) qui génère et maintient la version markdown de chaque page, un graphe JSON-LD @graph qui ancre les entités du site, et un workflow n8n (132 nodes) qui monitore la consommation des bots IA dans les logs serveur. Cette stack n’est pas un argument commercial : c’est la condition technique pour que chaque paragraphe soit chunkable proprement.

Schéma de processus du découpage sémantique à la synthèse IA
Du découpage sémantique à la synthèse augmentée : la chaîne complète.

« Generative engines are likely to use passage-level retrieval and rerank documents based on their citation-worthiness for the user query. »

Aggarwal et al., GEO: Generative Engine Optimization, Princeton (arXiv 2311.09735)

Votre site est-il prêt pour le passage retrieval ?

Diagnostic GEO gratuit : nous auditons votre extractabilité réelle face à GPTBot, ClaudeBot et PerplexityBot.

Lancer mon audit GEO →

Exemple sectoriel anonymisé — SaaS B2B juridique

Cas réel d’un client SaaS du secteur juridique (anonymisé). Page initiale : 2 800 mots en bloc continu, H2 vagues (« Notre solution », « Pourquoi nous »), zéro paragraphe autonome. Constat : aucune citation dans Perplexity sur les requêtes cœur métier, malgré un domain authority élevé.

Action : restructuration selon les principes de cet article — H2 reformulés en questions, paragraphes ouverts par sujet-verbe-complément, ajout d’un llms-full.txt, JSON-LD entité SoftwareApplication. Résultat qualitatif observé sur 90 jours : apparition régulière dans les réponses Perplexity et ChatGPT sur les requêtes de longue traîne, sans modification du fond éditorial — seulement la forme chunkable.

L’indexation IA impose une ingénierie de l’information stricte

Le GEO n’est pas une simple réécriture de surface : c’est une discipline de design d’information pensée pour l’extractabilité des bases de données vectorielles. Penser « système RAG » au moment de la rédaction signifie traiter chaque H2 comme une query et chaque paragraphe comme un document contextuel autonome.

Le chunking passage retrieval impose une discipline éditoriale qui rompt avec les habitudes du SEO classique : finies les transitions narratives (« Comme nous l’avons vu »), les pronoms à référent distant, les paragraphes qui s’enchaînent comme un texte littéraire. Chaque bloc doit pouvoir être détaché de son contexte sans perdre son sens.

La prochaine étape opérationnelle consiste à observer les logs serveur : quels chunks GPTBot consomme-t-il réellement ? Quelles sections ClaudeBot revisite-t-il après une mise à jour ? Cette télémétrie, encore peu exploitée, est le levier d’optimisation continue le plus puissant dont disposent les équipes GEO en 2026.

Un site optimisé pour le passage retrieval n’est pas un site « bien rédigé ». C’est un site dont chaque paragraphe est un produit unitaire d’information, conçu pour être prélevé, vectorisé et cité.

📌 Points clés à retenir

  • Le chunking passage retrieval découpe vos pages en blocs de 256-512 tokens indexés indépendamment.
  • Un H2 = une question utilisateur ; le paragraphe suivant = la réponse autonome en 2-3 phrases.
  • Les pronoms non résolus (« cette », « cela », « il ») cassent l’extractabilité — répétez le sujet nommé.
  • Le reranker valorise les entités nommées, les chiffres sourcés et les structures logiques claires.
  • Un llms-full.txt markdown améliore le ratio signal/bruit vu par les moteurs.
  • La densité factuelle d’un passage prime sur l’autorité globale de la page pour déclencher une citation.
  • Auditer les logs serveur (passages des bots IA) est le levier d’optimisation continue le plus sous-exploité en 2026.
Ulysse Berthelot, Co-Fondateur de iaba

À propos de l’auteur : Ulysse Berthelot

Ulysse Berthelot est le co-fondateur et président de iaba, agence pionnière en Marketing IA basée à Toulouse. Architecte du Protocole GEO-4, il est expert en Generative Engine Optimization, SEO sémantique entity-first, Knowledge Graph Optimization, Schema.org (JSON-LD) et automatisation intelligente (n8n, APIs LLM).

Domaines d’expertise : GEO, AI Overviews, RAG, SEO Sémantique, Knowledge Graph Optimization, Schema.org, JSON-LD, Prompt Engineering, n8n, Marketing Automation.

LinkedIn d’Ulysse Berthelot

FAQ — Chunking et passage retrieval

Quelle différence entre chunking et passage retrieval ?

Le chunking est l’étape de découpage d’un document en segments. Le passage retrieval est l’étape suivante d’extraction des segments pertinents en réponse à une requête. Le premier est éditorial et structurel, le second est algorithmique et déclenché par l’utilisateur.

Combien de tokens fait un chunk optimal pour le GEO ?

Entre 256 et 512 tokens, soit environ 180 à 380 mots français, soit 2 à 4 phrases denses. Sous 200 tokens, le chunk perd son contexte ; au-delà de 600 tokens, son vecteur se dilue.

Le Late Chunking remplace-t-il le chunking traditionnel ?

Non. Le Late Chunking (Jina AI, 2024) est une amélioration côté moteur qui préserve mieux le contexte global. Il ne dispense pas de structurer ses contenus à la source : un texte bien découpé reste meilleur sous toutes les stratégies de chunking.

Comment savoir si mes paragraphes sont autonomes ?

Test simple : copiez un paragraphe isolément et lisez-le. Comprend-on de quoi il parle sans le contexte ? Les pronoms ont-ils un référent ? Y a-t-il au moins une entité nommée et un fait vérifiable ? Si oui, le paragraphe est chunkable.

Faut-il un llms-full.txt pour optimiser le chunking ?

Ce n’est pas obligatoire mais fortement recommandé. Un llms-full.txt expose une version markdown propre que les moteurs préfèrent au HTML bruité, ce qui améliore la qualité des chunks générés. Voir notre dossier dédié à llms-full.txt.

Quels outils mesurent l’extractabilité de mes passages ?

Aucun outil grand public ne donne une mesure définitive. Les approches pragmatiques : tester ses propres questions dans ChatGPT, Perplexity et Google AI Overviews en mode citation ; observer les logs serveur pour identifier les passages effectivement consommés par GPTBot et ClaudeBot ; auditer la cohérence sémantique des chunks via un splitter LangChain en local.

Le chunking remplace-t-il le maillage interne SEO ?

Non, il s’y ajoute. Le maillage interne reste essentiel pour la transmission d’autorité et la découverte. Le chunking optimise la couche en dessous : ce qui se passe une fois la page atteinte. Les deux sont complémentaires dans une stratégie GEO complète.

Pourquoi ChatGPT cite-t-il certains sites et pas d’autres à contenu équivalent ?

Trois facteurs : la qualité du chunking (passages autonomes vs. bloc continu), la densité factuelle (entités + chiffres + sources), et la cohérence du graphe d’entités (JSON-LD, présence sur Wikidata). À contenu sémantiquement équivalent, le site mieux structuré gagne systématiquement la citation.

Auditez l’extractabilité réelle de votre site

Notre diagnostic GEO complet identifie passage par passage ce qui sera cité — ou ignoré — par les moteurs génératifs.

Réserver mon diagnostic GEO →

Accéder au Système.

Si vous avez fini d’improviser et que vous êtes prêt à industrialiser votre croissance, nous sommes prêts.

Mentions Légales | Politique de Confidentialité | CGV

Agence Marketing IA & GEO B2B. Nous installons des infrastructures d'acquisition propriétaires qui rendent les entreprises visibles sur Google et les IA génératives — et transforment chaque canal en machine à chiffre d'affaires prévisible.

Membre FrenchTech Toulouse
Toulouse12 rue Mie d'Aghonne, 31200 PrésenceMontréal, Québec Emailcontact@iaba.tech

iaba — SAS au capital de 2 000 € · SIREN 940 582 851 · RCS Toulouse · TVA FR38 940 582 851 · Code NAF 70.21Z · Agence Marketing IA & GEO B2B intervenant en France, au Québec, en Belgique, en Suisse et au Luxembourg.