Le coût d'un RAG en entreprise se situe entre 150 €/mois pour une solution clé en main (SaaS) et plus de 80 000 € la première année pour un build interne sur mesure. Entre ces deux extrêmes, cinq postes de coût déterminent votre budget réel : l'infrastructure vectorielle, les embeddings, les appels API LLM, l'ingestion documentaire et les ressources humaines. Ce guide les décompose poste par poste, avec des ordres de grandeur chiffrés, pour que vous puissiez cadrer votre budget avant de signer quoi que ce soit.
Un projet RAG ne ressemble pas à l'achat d'un logiciel standard. Il combine des coûts de setup initiaux (CAPEX), des coûts récurrents liés au volume de requêtes (OPEX) et — souvent sous-estimé — un coût d'équipe permanent. Voici comment lire le TCO réel d'un système RAG.
Sommaire
Les 5 postes de coût d'un RAG
Un pipeline RAG en production mobilise cinq catégories de dépenses distinctes. Les confondre — ou en oublier une — produit des budgets systématiquement sous-estimés.
| Poste de coût | Nature | Ordre de grandeur |
|---|---|---|
| Infrastructure vectorielle (Qdrant, Pinecone…) | OPEX mensuel | 0 € (cloud gratuit) → 500 €/mois |
| Embeddings (vectorisation des documents) | CAPEX + OPEX | 20 € à 2 000 € selon volume |
| API LLM (génération des réponses) | OPEX / requête | 100 € → 5 000 €/mois |
| Ingestion, chunking, re-indexation | CAPEX + maintenance | 3 000 € → 25 000 € (initial) |
| Équipe (dev ML, MLOps, prompt engineering) | OPEX RH | 600 € → 1 200 €/jour |
La règle qui s'observe systématiquement : le coût d'un build interne est dominé par les ressources humaines, pas par l'infrastructure. Pour un projet RAG sur mesure, les jours/homme représentent 60 à 70 % du budget total la première année.
Coût de l'infrastructure vectorielle
Le cœur technique d'un RAG, c'est la base de données vectorielle : le système qui stocke les embeddings de vos documents et permet la recherche sémantique en quelques millisecondes. Les options principales sont Qdrant, Pinecone, Weaviate et pgvector (PostgreSQL).
Options cloud managé (hébergé par l'éditeur)
Qdrant Cloud propose un tier gratuit jusqu'à 1 Go de stockage vectoriel — suffisant pour un corpus de quelques milliers de documents. Au-delà :
- 0 €/mois : tier gratuit, 1 Go, idéal pour un POC ou une très petite base documentaire
- ~50 €/mois : 4 Go de RAM, pour une PME avec 10 000 à 50 000 chunks
- 200 à 500 €/mois : instances dédiées pour des corpus volumineux (100 000+ chunks, recherche hybride activée)
Pinecone suit une logique similaire : gratuit pour les petits volumes, puis facturation à l'usage à partir d'environ 70 €/mois pour une utilisation en production réelle.
Auto-hébergement (on-premise)
Déployer Qdrant sur votre propre infrastructure (Kubernetes, VPS dédié) élimine le coût de licence — Qdrant est open source — mais transfère la charge vers vos DevOps. Comptez 1 à 3 jours de configuration initiale et une supervision régulière. Le coût serveur : 50 à 150 €/mois pour un VPS 8 Go RAM suffisant pour la plupart des PME.
Pour une analyse détaillée des compromis entre cloud managé et auto-hébergement, consultez notre article RAG open source : faut-il l'auto-héberger en entreprise ?
Le coût caché : le stockage des vecteurs croît avec votre corpus
Un chunk de 512 tokens produit un vecteur de 1 536 dimensions avec text-embedding-3-small d'OpenAI — soit environ 6 Ko par chunk. Un corpus de 10 000 chunks (environ 500 pages PDF) occupe ~60 Mo. À grande échelle, un million de chunks dépasse les 6 Go. Anticipez la croissance de votre base documentaire dans votre budget infrastructure.
Coût des embeddings et des appels LLM
Ces deux postes sont directement proportionnels au volume. Ils constituent le coût variable du RAG — celui qui explose si votre usage dépasse vos prévisions initiales.
Coût des embeddings
Les embeddings sont produits à deux moments : lors de l'ingestion (vectorisation de vos documents — une seule fois) et à chaque requête utilisateur (vectorisation de la question — répété à chaque échange).
Tarifs 2026 des modèles d'embedding les plus utilisés (via API OpenAI) :
- text-embedding-3-small : 0,02 $ par million de tokens — modèle le plus économique
- text-embedding-3-large : 0,13 $ par million de tokens — meilleure précision sémantique
En pratique : vectoriser un corpus de 500 pages PDF (~2 millions de tokens) coûte 0,04 $ à 0,26 $ avec OpenAI. C'est négligeable. Le coût récurrent des requêtes l'est bien moins : une PME avec 100 utilisateurs posant 10 questions/jour génère ~1 million de tokens de requêtes/mois, soit 0,02 $ à 0,13 $/mois. Toujours marginal.
Alternative sans coût API : les modèles open source comme BGE-M3 (BAAI) ou E5-Mistral s'auto-hébergent. Le coût passe de l'API vers le serveur GPU — pertinent à partir d'un million de requêtes/mois.
Coût des appels LLM (génération)
C'est ici que le budget variable pèse vraiment. Chaque réponse générée mobilise un LLM — GPT-4o, Claude Sonnet, Gemini 2.0 Flash — qui facture à la fois les tokens en entrée (contexte RAG + question) et en sortie (la réponse).
Exemple concret avec GPT-4o mini (modèle économique, largement suffisant pour le service client) :
- Entrée : 0,15 $ / million de tokens
- Sortie : 0,60 $ / million de tokens
- Une requête RAG typique = ~2 000 tokens en entrée + ~400 tokens en sortie → ~0,0006 $ par échange
Pour 1 000 échanges/mois (PME courante) : moins de 1 €/mois en coût LLM pur. Pour 50 000 échanges/mois (ETI avec déploiement large) : environ 30 €/mois. Ces chiffres restent faibles — c'est précisément pourquoi les coûts d'infrastructure et d'équipe dominent le TCO.
Avec un modèle haut de gamme comme GPT-4o ou Claude Opus 4, la facture est 20 à 50 fois plus élevée. Le choix du LLM est donc une vraie décision budgétaire, pas seulement technique.
Coût d'ingestion, d'indexation et de maintenance
Ce poste est systématiquement sous-évalué dans les projets RAG internes. Il ne s'agit pas seulement de « charger des PDF » — un pipeline RAG robuste exige un travail d'ingénierie significatif.
Le setup initial : chunking, parsing, nettoyage
La qualité d'un RAG dépend à 70 % de la qualité de l'ingestion. Découper un document en chunks pertinents — ni trop courts (perte de contexte) ni trop longs (bruit sémantique) — est un problème non trivial. Ajouter des métadonnées (source, date, section) pour filtrer les résultats l'est encore plus.
Pour un projet sur mesure, le setup initial comprend :
- Parsing des formats (PDF, DOCX, PPTX, HTML) : 2 à 5 jours/homme selon la complexité des documents
- Stratégie de chunking et tests de qualité : 3 à 8 jours/homme
- Pipeline d'ingestion automatisé (pour les mises à jour continues) : 5 à 15 jours/homme
- Mise en place de la recherche hybride (vectorielle + BM25) : 3 à 8 jours/homme supplémentaires
Au tarif journalier d'un développeur IA spécialisé RAG en France (600 à 1 200 € HT/jour), cela représente 8 000 à 43 000 € pour la seule phase d'ingestion.
La maintenance continue : le coût oublié
Un corpus documentaire n'est jamais figé. Nouvelles procédures, produits mis à jour, prix qui changent : chaque modification impose une re-indexation partielle. Sans pipeline automatisé, c'est une opération manuelle récurrente.
La règle observée sur les projets RAG en production : 15 à 20 % du budget de développement initial sont à réserver pour la maintenance annuelle. Sur un projet initial à 40 000 €, cela représente 6 000 à 8 000 €/an de maintenance continue.
À cela s'ajoutent les mises à jour du pipeline lui-même — nouvelles versions des modèles d'embedding, évolutions des APIs LLM — qui nécessitent une veille technique permanente et des tests de régression.
Clé en main vs build interne : comparatif chiffré
La vraie question budgétaire n'est pas « combien coûte le RAG ? » mais « qui construit et qui maintient l'infrastructure ? ». Deux modèles s'affrontent.
| Critère | Solution clé en main (SaaS type Heeya) | Build interne sur mesure |
|---|---|---|
| Coût de setup initial | 0 € (inclus) | 15 000 à 80 000 € |
| Coût mensuel récurrent (PME) | 150 à 500 €/mois | 500 à 3 000 €/mois (infra + maintenance) |
| Délai de mise en production | 1 jour à 1 semaine | 1 à 6 mois |
| Équipe requise | Aucune compétence technique | 1 à 3 ingénieurs ML/DevOps |
| Maintenance infra vectorielle | Gérée par le SaaS | À la charge de l'entreprise |
| Personnalisation maximale | Limitée aux options du SaaS | Totale |
| TCO sur 3 ans (PME 50 utilisateurs) | 5 000 à 18 000 € | 90 000 à 200 000 € |
Le build interne se justifie dans trois situations précises : vous avez des exigences de personnalisation que aucun SaaS ne peut couvrir, vous traitez des données ultra-sensibles qui ne peuvent pas quitter votre infrastructure, ou vous avez déjà une équipe ML en place dont la capacité est disponible.
Dans tous les autres cas, le TCO 3 ans d'un build interne dépasse 5 à 15 fois celui d'une solution clé en main — sans compter le coût d'opportunité des 3 à 6 mois de délai avant mise en production.
Si vous hésitez encore entre les deux approches, notre comparatif RAG vs fine-tuning détaille les critères de décision selon votre cas d'usage.
Pour aller plus loin sur les choix d'architecture et les cas où l'auto-hébergement devient pertinent, consultez notre page expertise RAG & RAG agentique.
Budget RAG selon la taille de l'entreprise
Les ordres de grandeur varient significativement selon la taille de l'entreprise, le volume documentaire et le nombre d'utilisateurs. Voici les fourchettes observées sur le marché français en 2026.
TPE et PME (1 à 250 salariés)
Pour une PME qui veut déployer un assistant RAG sur sa documentation interne ou son service client, la solution SaaS clé en main est le choix rationnel dans 95 % des cas.
- Budget setup : 0 € (SaaS) ou 2 000 à 5 000 € (intégration par un freelance si besoin de configuration avancée)
- Budget mensuel : 100 à 500 €/mois selon le volume de conversations
- TCO an 1 : 1 200 à 6 000 €
- Équipe mobilisée : un responsable métier pour la configuration, aucune compétence développeur requise
À noter : le programme IA Booster de Bpifrance (France 2030) cofinance à hauteur de 42 % les diagnostics IA pour les PME et ETI éligibles — un levier à explorer avant tout projet, même SaaS.
ETI (250 à 5 000 salariés)
À cette échelle, les besoins se complexifient : plusieurs bases documentaires, gestion des droits d'accès par département, intégration avec l'ERP ou le CRM. Deux approches cohabitent.
- SaaS avancé avec API : 500 à 2 000 €/mois, intégration par l'équipe IT interne (5 à 15 jours/homme)
- Build partiel (SaaS pour la vectorisation + développements spécifiques) : 15 000 à 40 000 € de setup, puis 1 000 à 3 000 €/mois de maintenance infra + équipe
Selon une étude Gartner de 2024, 70 % des projets RAG en entreprise qui dépassent leur budget initial le doivent à une sous-estimation des coûts d'intégration et de maintenance, pas aux coûts d'infrastructure pure (Gartner, 2024). L'ETI doit donc provisionner les coûts d'intégration avec son SI existant dès le cadrage.
Grande entreprise et groupe (5 000+ salariés)
À ce niveau, le RAG devient un projet de transformation SI. Les fourchettes observées :
- POC (preuve de concept) : 15 000 à 40 000 €, 2 à 4 mois
- MVP production : 50 000 à 150 000 €, 4 à 8 mois
- Déploiement à grande échelle : 150 000 à 500 000 €/an (infra + équipe MLOps dédiée)
À ce volume, la recherche hybride (vectorielle + BM25 full-text), le reranking croisé et la gestion de plusieurs index vectoriels distincts deviennent des nécessités techniques — chacun multipliant les coûts d'ingénierie.
McKinsey (2025) estime que les entreprises qui industrialisent leurs systèmes RAG avec une équipe dédiée génèrent un ROI moyen de 3,5 x sur 3 ans via la réduction des coûts de support et l'accélération de la recherche d'information interne (McKinsey, The State of AI, 2025).
FAQ — Coût d'un RAG en entreprise
Combien coûte la mise en place d'un RAG en entreprise ?
Entre 0 et 80 000 € la première année, selon le modèle choisi. Une solution SaaS clé en main comme Heeya démarre à 0 € (tier gratuit) et coûte 100 à 500 €/mois en production. Un build interne sur mesure nécessite 15 000 à 80 000 € de développement initial, plus une équipe technique pour la maintenance.
Quel est le coût récurrent d'un système RAG en production ?
Pour une PME (50 utilisateurs, 1 000 à 5 000 échanges/mois), les coûts récurrents se décomposent ainsi : base de données vectorielle 0 à 100 €/mois, appels LLM 1 à 50 €/mois, maintenance 0 €/mois (SaaS) ou 500 à 1 500 €/mois (build interne). Total SaaS : 100 à 500 €/mois. Total build interne : 500 à 2 000 €/mois.
Quel est le coût de l'infrastructure vectorielle (Qdrant, Pinecone) pour un RAG ?
Qdrant Cloud propose un tier gratuit jusqu'à 1 Go de stockage. Au-delà, comptez 50 à 500 €/mois selon la taille du corpus. En auto-hébergement (Qdrant open source), le coût serveur est de 50 à 150 €/mois pour une PME, mais s'y ajoutent les coûts d'administration DevOps.
Les embeddings coûtent-ils cher dans un projet RAG ?
Non, les embeddings représentent généralement moins de 5 % du budget RAG total. Vectoriser 500 pages de documents avec OpenAI text-embedding-3-small coûte moins de 0,05 $. Le coût récurrent des embeddings de requêtes reste inférieur à quelques euros par mois pour la plupart des PME.
Quelle est la différence de coût entre un RAG clé en main et un RAG sur mesure ?
Le TCO sur 3 ans d'un RAG sur mesure est 5 à 15 fois supérieur à celui d'une solution SaaS pour une PME. Le build interne mobilise 1 à 3 ingénieurs pendant 1 à 6 mois, puis une maintenance continue à 15-20 % du budget initial par an. La solution SaaS inclut toute l'infrastructure dans l'abonnement mensuel.
Faut-il un ingénieur ML pour maintenir un RAG en production ?
Pour un build interne : oui, minimum 0,5 ETP d'ingénieur ML ou DevOps pour la maintenance du pipeline, les mises à jour de modèles et la supervision. Pour une solution SaaS clé en main : non, la gestion de l'infrastructure est assurée par le fournisseur. L'utilisateur n'a qu'à mettre à jour ses documents.
Existe-t-il des aides financières pour un projet RAG en PME ?
Oui. Le programme IA Booster de Bpifrance (France 2030) cofinance à 42 % les diagnostics IA pour les PME et ETI éligibles, jusqu'à 13 000 € HT de prise en charge. Ce dispositif aide à cadrer un premier projet RAG avant tout investissement.
Vous évaluez le coût d'un RAG pour votre entreprise ? Heeya inclut l'infrastructure vectorielle, les embeddings et la maintenance dans un abonnement mensuel fixe — sans surprise ni ingénieur ML requis.
Essayer Heeya gratuitement