RAG & RAG Agentique :
l'IA qui parle vos données
Le Retrieval-Augmented Generation ancre les réponses de votre chatbot sur vos documents, pas sur les connaissances aléatoires d'un LLM. Le RAG Agentique va plus loin : un agent IA autonome qui raisonne, vérifie et orchestre ses recherches pour des réponses complexes et fiables.
Utilisable sur n'importe quel site web. Compatible PDF, DOCX, PPTX, TXT et scraping de sites.
Pipeline RAG en action
1. Question utilisateur
"Quelle est votre politique de remboursement ?"
2. Recherche vectorielle (RAG)
3 passages pertinents trouvés dans vos CGV
3. Génération augmentée
Le LLM formule une réponse basée sur vos documents
4. Réponse sourcée
"Vous disposez de 30 jours pour un remboursement complet, selon l'article 4 de nos CGV."
91%
Recall@10 avec recherche hybride
-85%
Hallucinations réduites vs LLM seul
< 3s
Temps de réponse moyen
72%
Des systèmes RAG en prod utilisent la recherche hybride
Qu'est-ce que le RAG ?
Le Retrieval-Augmented Generation est l'architecture qui transforme un LLM générique en expert de votre métier, en lui donnant accès à vos documents avant chaque réponse.
Le problème des LLMs sans RAG
Un LLM comme GPT-4 ou Claude répond de mémoire. Il a ete entraine sur des milliards de pages web, mais il ne connaît pas vos tarifs, vos procédures internes, vos produits ou votre FAQ. Sans acces a vos donnees, il invente (hallucine) ou donne des réponses génériques inutiles.
Le fine-tuning (re-entrainement) est une option, mais il coûte cher, nécessite des GPU, et vos données deviennent obsolètes dès qu'un document change. Le RAG résout ce problème en injectant le contexte pertinent à chaque requête, sans modifier le modèle.
L'analogie la plus simple
Un LLM sans RAG, c'est un étudiant qui passe un examen de mémoire — il peut se tromper ou inventer. Un LLM avec RAG, c'est le même étudiant avec le droit de consulter ses notes. Il cherche d'abord la bonne page, puis formule sa réponse à partir de ce qu'il lit.
Le RAG en 4 étapes
Ingestion des documents
Vos PDF, DOCX, PPTX ou pages web sont parsés et nettoyés. Le contenu brut est extrait automatiquement.
Chunking & Embeddings
Les documents sont decoupes en passages (chunks) de taille optimale, puis chaque passage est converti en vecteur numérique (embedding) qui capture son sens sémantique.
Recherche vectorielle
Quand un utilisateur pose une question, elle est convertie en vecteur et comparee a tous les passages stockes. Les plus similaires sont retrouves en millisecondes.
Génération augmentée
Les passages pertinents sont injectés dans le prompt du LLM. L'IA formule une réponse naturelle, basée sur vos documents — pas sur ses connaissances générales.
Le pipeline RAG en production
Derrière chaque réponse précise de votre chatbot, un pipeline complet transforme vos documents bruts en connaissances exploitables par l'IA.
Ingestion intelligente
Parsing automatique de PDF, DOCX, PPTX et pages web. Extraction du texte, des tableaux et des métadonnées. Nettoyage et normalisation du contenu pour une indexation optimale.
- PDF, DOCX, PPTX, TXT
- Scraping de sites web
- Mise à jour incrémentale
Chunking & Embeddings
Découpe sémantique des documents en passages de taille optimale. Chaque chunk est transformé en vecteur via un modèle d'embedding, capturant le sens profond du texte.
- Chunking sémantique adaptatif
- Embeddings haute dimension
- Stockage vectoriel (Qdrant)
Recherche hybride
Combinaison de recherche dense (sémantique) et sparse (mots-clés) pour un recall optimal. Reranking des résultats pour prioriser les passages les plus pertinents.
- Dense + Sparse retrieval
- Reciprocal Rank Fusion
- Reranking contextuel
RAG vs Fine-tuning : quelle approche choisir ?
Deux stratégies pour spécialiser un LLM. Comprendre leurs forces respectives permet de faire le bon choix — ou de combiner les deux.
RAG (Retrieval-Augmented Generation)
Change ce que le modèle voit à chaque requête, sans modifier ses poids internes.
Données à jour — ajoutez ou retirez des documents à tout moment, sans ré-entraînement
Coût réduit — pas de GPU ni de datasets annotés, juste vos documents existants
Transparence — chaque réponse peut être tracée à son document source
Moins d'hallucinations — l'IA est ancrée sur des faits, pas sur sa mémoire
Déploiement rapide — opérationnel en quelques minutes avec Heeya
Fine-tuning
Change comment le modèle se comporte en modifiant ses poids internes.
Style et ton — adapte le langage du modèle à un jargon ou format spécifique
Raisonnement specialise — améliore la performance sur des tâches de niche
Coût élevé — GPU, datasets annotés, expertise ML requise
Données figées — chaque mise à jour nécessite un ré-entraînement
Catastrophic forgetting — le modèle peut perdre des capacités générales
En 2026 : l'approche hybride est le standard
Les connaissances volatiles (tarifs, procédures, FAQ) vont dans le RAG. Le comportement stable (ton, format, raisonnement métier) va dans le fine-tuning. Les deux ne sont pas mutuellement exclusifs — les meilleurs systèmes combinent les deux approches.
RAG Agentique : quand l'IA raisonne avant de répondre
Le RAG classique suit un flux linéaire : recherche, puis generation. Le RAG Agentique (Agentic RAG) place un agent IA autonome au centre du pipeline. Cet agent décide ce qu'il doit chercher, évalue la qualité des résultats, et itère jusqu'à obtenir une réponse fiable.
C'est la différence entre un employé qui suit une procédure fixe et un expert qui adapte sa méthode à chaque situation. L'agent peut interroger plusieurs sources, croiser les informations, détecter les contradictions et reformuler sa recherche quand les premiers résultats ne suffisent pas.
Comprendre les bases du RAG →Les 4 capacités agentiques
Reflexion
L'agent évalue la qualité de ses propres résultats et se corrige avant de répondre. S'il détecte une incohérence, il relance une recherche.
Planification
Face a une question complexe, l'agent décompose la tâche en sous-étapes. "Pour repondre, je dois d'abord vérifier X, puis croiser avec Y."
Utilisation d'outils
L'agent choisit le bon outil pour chaque sous-tâche : recherche vectorielle, recherche par mots-clés, formulaire de contact, calcul.
Collaboration multi-agents
Plusieurs agents spécialisés coopèrent : un agent recherche, un agent vérification, un agent formulation. Chacun excelle dans son domaine.
RAG classique vs RAG Agentique
Le RAG classique convient à la majorité des cas. Le RAG Agentique prend le relais pour les questions complexes, multi-sources ou nécessitant du raisonnement.
RAG Classique
RAG Agentique
Les 3 architectures du RAG Agentique
Du routeur simple à l'orchestration hiérarchique, chaque architecture répond à un niveau de complexité différent.
Agent unique (Routeur)
IDÉAL POUR DÉBUTER
Un seul agent décide quelle source de données interroger pour chaque question. Il route la requête vers la bonne base vectorielle ou le bon outil.
Cas d'usage : chatbot de support avec plusieurs bases documentaires (FAQ, procedures, tarifs). C'est l'architecture utilisee par defaut chez Heeya.
Multi-agents
REQUÊTES COMPLEXES
Un agent coordinateur délègue à des sous-agents spécialisés. Chaque sous-agent maîtrise un domaine ou un type de recherche. Les résultats sont synthétisés par le coordinateur.
Cas d'usage : analyse multi-documents, comparaisons entre sources, agents immobiliers croisant donnees juridiques et commerciales.
Hiérarchique
SYSTÈMES ENTERPRISE
Architecture à plusieurs niveaux : agents stratégiques, agents tactiques et agents opérationnels. Chaque niveau gère un scope de décision différent avec une granularité de recherche adaptée.
Cas d'usage : systèmes enterprise avec des dizaines de sources, workflows de décision complexes, assistants RH multi-départements.
Le RAG en action : cas d'usage concrets
Le RAG n'est pas qu'une technologie — c'est la base de tout chatbot IA capable de répondre avec précision sur vos données métier.
Service client automatisé
Le chatbot répond aux questions sur vos produits, tarifs, procédures de retour et CGV en se basant sur votre documentation réelle. Plus besoin de maintenir un arbre de décision rigide.
Voir la solution service client →Formation et onboarding
Importez vos manuels de formation, guides de procedures et supports internes. Les nouveaux collaborateurs obtiennent des réponses instantanées et sourcées sur les processus de l'entreprise.
Voir la solution formation →E-commerce et vente
Le chatbot connait votre catalogue, vos fiches produit, vos promotions en cours et vos conditions de livraison. Il guide l'acheteur vers le bon produit et répond à ses objections avec précision.
Voir la solution e-commerce →Juridique et conformité
Les cabinets d'avocats utilisent le RAG pour informer leurs prospects sur les domaines d'intervention, les procedures et les honoraires — sans jamais donner de conseil juridique personnalisé.
Voir la solution avocat →Comment Heeya met en place le RAG
Un pipeline RAG complet, prêt en quelques minutes, sans compétence technique.
Étape 1
Importez vos documents
Uploadez vos PDF, DOCX, PPTX, fichiers texte ou entrez l'URL de votre site web. Heeya parse, nettoie et structure automatiquement le contenu. Vos documents sont découpés en chunks optimaux puis vectorisés.
Étape 2
Configurez votre agent IA
Définissez le System Guidance (personnalité, règles, ton), activez les outils comme le formulaire de contact, et personnalisez le message d'accueil. L'agent est entraîné sur vos données en quelques secondes.
Étape 3
Déployez partout
Copiez une ligne de code pour intégrer le widget chatbot sur votre site. Compatible WordPress, Wix, Shopify, Webflow et tout site HTML. Partagez aussi un lien direct pour vos réseaux sociaux.
Essai gratuit sans carte bancaire. Voir les tarifs.
Notre stack technique RAG
Heeya s'appuie sur des technologies de pointe éprouvées en production pour garantir la fiabilité et la performance de chaque pipeline RAG.
Vector Database : Qdrant
Base vectorielle haute performance pour le stockage et la recherche d'embeddings. Recherche hybride (dense + sparse) native, collections isolées par client pour la sécurité des données.
LLMs : Multi-provider via OpenRouter
Accès aux meilleurs modèles du marché (Gemini 2.0 Flash, Claude, GPT-4o) via une API unifiée. Choix du modèle optimal selon le cas d'usage et le budget.
Embeddings : Modèles d'embedding avancés
Vectorisation du texte en embeddings haute dimension. Capture du sens sémantique pour une recherche de similarité précise au-delà des simples mots-clés.
Pipeline : FastAPI + Traitement asynchrone
Ingestion et chunking asynchrones pour ne jamais bloquer l'expérience utilisateur. Pipeline d'indexation incrémentale pour les mises à jour de documents.
Sécurité & Conformité
Isolation des données — chaque entreprise dispose de sa propre collection vectorielle, aucun partage de données entre clients
Zéro entraînement — vos documents ne sont jamais utilisés pour entraîner ou fine-tuner les modèles IA
Chiffrement — connexions HTTPS, headers de sécurité (HSTS, X-Frame-Options), cookies sécurisés
RGPD — données hébergées en Europe, droit de suppression total de vos documents et embeddings
Contrôle total — ajoutez ou supprimez vos documents à tout moment, l'index se met à jour en temps réel
Pourquoi Qdrant ?
Qdrant est une base de données vectorielle open-source, optimisée pour la recherche de similarité à grande échelle. Elle supporte nativement la recherche hybride (dense + sparse), le filtrage par métadonnées et l'isolation par collection — essentielle pour un environnement multi-tenant comme Heeya.
Combien coûte un chatbot RAG ?
Heeya rend le RAG accessible à toutes les entreprises. Essai gratuit sans carte bancaire. Plans adaptés à votre volume de conversations.
0€
Gratuit
1 agent RAG, 100 msg/mois. Idéal pour tester.
19€
Standard
1 agent RAG, 1 000 msg/mois + 1 outil IA.
99€
Premium
3 agents RAG, 5 000 msg/mois + intégrations.
Questions fréquentes sur le RAG
Quelle est la différence entre RAG et fine-tuning d'un LLM ?
Le RAG injecte des connaissances externes à chaque requête sans modifier le modèle. Le fine-tuning modifie les poids du modèle pour changer son comportement. Le RAG est idéal pour des données qui changent souvent (tarifs, procédures), le fine-tuning pour modifier le style ou le raisonnement du modèle. En 2026, l'approche hybride est le standard en production.
Qu'est-ce que le RAG agentique (Agentic RAG) ?
Le RAG agentique ajoute des agents IA autonomes au pipeline RAG classique. Au lieu d'un flux fixe recherche-puis-génération, un agent décide dynamiquement quoi chercher, quels outils utiliser, quand vérifier sa réponse, et peut coordonner plusieurs sous-agents spécialisés. C'est l'évolution naturelle pour traiter des requêtes complexes nécessitant plusieurs sources et étapes de raisonnement.
Quels types de documents peut-on intégrer dans un système RAG ?
Un système RAG peut ingérer des PDF, documents Word (DOCX), présentations PowerPoint (PPTX), fichiers texte, pages web scrapées, FAQ et bases de connaissances internes. Heeya supporte nativement tous ces formats et le scraping de sites web.
Le RAG élimine-t-il les hallucinations de l'IA ?
Le RAG réduit considérablement les hallucinations en ancrant les réponses sur des documents réels. Si l'information n'est pas dans la base de connaissances, un système RAG bien configuré indique qu'il ne dispose pas de l'information plutôt que d'inventer. Le risque zéro n'existe pas, mais le RAG est la meilleure approche disponible pour fiabiliser les réponses IA.
Combien de temps faut-il pour mettre en place un chatbot RAG ?
Avec Heeya, un chatbot RAG est opérationnel en moins de 10 minutes : importez vos documents, personnalisez les instructions, et intégrez le widget sur votre site. Pas de compétence technique requise. Pour un déploiement personnalisé avec pipeline avancé, comptez 1 à 2 semaines selon la complexité.
Mes données sont-elles en sécurité dans un système RAG ?
Avec Heeya, chaque entreprise dispose d'un environnement cloisonné. Vos documents ne sont jamais utilises pour entrainer les modeles IA. Les embeddings vectoriels sont stockés dans des collections isolées et les données transitent via des connexions chiffrées. Vous gardez le contrôle total sur vos données. Voir notre politique de confidentialité.
Qu'est-ce que le chunking et pourquoi est-ce important ?
Le chunking est le découpage de vos documents en passages de taille optimale avant leur vectorisation. Un chunking trop fin perd le contexte, un chunking trop large noie l'information pertinente. La stratégie de chunking détermine la qualité de la recherche plus que tout autre paramètre du pipeline RAG.
Qu'est-ce qu'une base de données vectorielle ?
Une base vectorielle stocke les représentations numériques (embeddings) de vos documents et permet de retrouver les passages les plus similaires à une question en millisecondes. Contrairement à une recherche classique par mots-clés, la recherche vectorielle comprend le sens de la question. Heeya utilise Qdrant, une base vectorielle open-source haute performance. En savoir plus sur la base de connaissances IA.
Approfondir le sujet
Nos guides et articles pour maîtriser le RAG et l'IA conversationnelle.
GUIDE AVANCÉ
RAG Agentique : guide complet de mise en place
Pipeline, chunking, embeddings, architectures agentiques et erreurs à éviter.
GUIDE COMPLET
Qu'est-ce que le RAG ? Guide complet en français
RAG expliqué pas à pas : définition, fonctionnement, avantages et cas d'usage.
COMPARATIF
Comparatif Chatbot IA Entreprise 2026
Les meilleures solutions de chatbot IA pour entreprise comparées.
OUTIL
Base de connaissances IA
Comment créer et optimiser une base de connaissances pour votre chatbot.
Nos solutions par secteur
Service Client
Support automatisé 24/7 basé sur vos documents
Avocat
Qualification et prise de RDV juridique 24/7
Formation
Assistant IA pour centres de formation
Passez au RAG : des réponses IA ancrées sur vos données
Créez votre chatbot RAG en moins de 10 minutes. Essai gratuit, sans carte bancaire.