Ollama en production : dimensionner son serveur IA

Ce qu'un POC Ollama valide — et ce qu'il ne valide pas

Installer Ollama prend une dizaine de minutes sur une machine récente : le guide d'installation d'Ollama sous Linux publié par QuelLLM couvre la procédure pas à pas, du téléchargement au premier prompt. Cette simplicité est une force pour expérimenter — et un piège pour la suite, parce qu'elle donne l'illusion que la production n'est qu'une question d'échelle.

Ce que le POC démontre : le cas d'usage a de la valeur, les modèles ouverts atteignent le niveau attendu, et vos données peuvent être traitées sans quitter vos murs. C'est déjà beaucoup — et c'est la bonne façon de commencer.

Ce qu'il ne démontre pas : la tenue en charge multi-utilisateurs, la gestion des droits d'accès, la disponibilité en continu, la sauvegarde, la traçabilité des requêtes, ni la conformité RGPD dès que des données personnelles transitent par le système. Un poste sous le bureau de quelqu'un n'est pas une infrastructure : c'est un prototype.

Quand internaliser : trois signaux qui ne trompent pas

Premier signal : l'usage devient collectif. Dès que cinq personnes ou plus utilisent l'outil régulièrement, le poste unique crée une file d'attente et un point de défaillance : si la machine tombe — ou si son propriétaire part en congés —, l'usage s'arrête.

Deuxième signal : des données sensibles entrent dans les prompts. Dossiers clients, données RH, pièces juridiques ou médicales : dès que ces contenus alimentent l'IA, la question n'est plus la performance mais la gouvernance. Un serveur interne, avec comptes nominatifs et contrôle d'accès sur le RAG, y répond structurellement.

Troisième signal : le coût récurrent des abonnements. ChatGPT Business est facturé 20 à 25 dollars par utilisateur et par mois (tarif en vigueur depuis avril 2026) : pour 20 personnes, de l'ordre de 5 000 à 6 000 dollars par an — chaque année, sans actif au bilan. Le calcul mérite d'être posé face à un serveur amorti, nous y revenons plus bas.

À l'inverse, deux contre-signaux freinent l'internalisation : un usage encore épisodique, et un besoin réel des modèles propriétaires de pointe pour des tâches que les modèles ouverts ne couvrent pas. Un audit honnête commence par vérifier ces deux points.

Dimensionner le serveur : la VRAM d'abord

La mémoire de la carte graphique est le premier facteur dimensionnant : un modèle quantifié en 4 bits occupe environ 0,5 à 0,6 Go par milliard de paramètres (ordre de grandeur constaté sur les fichiers publiés par Ollama), plus la mémoire du contexte. La documentation officielle d'Ollama recommande au minimum 8 Go de mémoire pour les modèles 7B, 16 Go pour les 13B et 32 Go pour les 33B.

Concrètement, pour un serveur d'entreprise :

Modèles 7 à 9B (Mistral 7B, Llama 3 8B, Qwen 7B) : une carte de 16 Go de VRAM type RTX 4060 Ti les fait tourner confortablement, marge RAG comprise. C'est le seuil d'entrée validé lors de nos audits d'infrastructure.
Modèles 24 à 32B (Mistral Small, Qwen 32B) : visez 24 à 32 Go de VRAM — une RTX 5090 en pratique. Ce palier change sensiblement la qualité de raisonnement sur les documents longs.
Modèles 70B et au-delà : bi-GPU ou carte de classe datacenter — réservé aux cas qui le justifient, le coût matériel changeant d'échelle.

Pour la capacité multi-utilisateurs, l'inférence se sert dans une file : une workstation équipée d'une RTX 5090 absorbe jusqu'à une cinquantaine d'utilisateurs selon les usages — rédaction et RAG documentaire consomment moins que des agents qui enchaînent les appels. Pour affiner le choix du modèle en fonction de votre matériel, le configurateur de QuelLLM croise les fiches techniques des modèles ouverts avec les configurations GPU courantes.

Le GPU ne fait pas tout : prévoyez une RAM système au moins double de la VRAM, un stockage NVMe rapide pour les modèles et les index, et une alimentation dimensionnée pour la charge soutenue.

La sécurité : le chantier que le POC ignore

Par défaut, l'API d'Ollama n'exige aucune authentification ; si le service écoute sur toutes les interfaces réseau, n'importe qui peut l'interroger. En janvier 2026, une étude conjointe de SentinelLABS et Censys a recensé environ 175 000 hôtes Ollama exposés publiquement, dans 130 pays. Dès 2025, une analyse de Cisco menée via Shodan avait identifié plus de 1 100 serveurs exposés, dont une partie significative laissait les modèles librement accessibles.

Les conséquences vont du détournement de la capacité de calcul à l'extraction des données qui transitent par le système — vos prompts et vos documents. Exactement le risque que l'IA locale était censée éliminer.

La mise en production impose donc une couche d'accès construite :

Jamais d'exposition directe sur internet : le serveur IA vit sur le réseau interne, point.
Authentification systématique : comptes nominatifs sur l'interface (OpenWebUI ou équivalent), API accessible aux seuls services autorisés, derrière un reverse-proxy.
Segmentation réseau : le serveur dans son propre segment, règles de flux explicites.
Accès distant uniquement par VPN chiffré (WireGuard, Tailscale), activable et révocable côté entreprise — y compris pour la télémaintenance du prestataire.
Journalisation et sauvegardes chiffrées testées : savoir qui a interrogé quoi, et pouvoir restaurer après incident.

Rien d'exotique : l'hygiène de n'importe quel serveur applicatif interne — à poser avant l'ouverture aux équipes, pas après le premier incident.

Mises à jour, supervision, continuité : la production au quotidien

Un serveur IA en production vit. Une nouvelle version de modèle n'est pas une mise à jour anodine : son comportement change, parfois au détriment de vos cas d'usage. La discipline utile : tester sur vos requêtes types avant de déployer, dans une fenêtre convenue, en gardant la possibilité de revenir en arrière.

S'y ajoutent la supervision (disponibilité, charge GPU, espace disque, sauvegardes), les mises à jour de sécurité de la stack et la gestion des comptes au fil des arrivées et départs.

Qui s'en charge ? Si vous avez une DSI, c'est une charge d'exploitation classique qu'elle peut absorber avec la documentation adéquate. Si vous n'en avez pas, c'est exactement le rôle d'un contrat de maintenance : notre formule Maintenance & support IA couvre ce cycle complet — mises à jour testées, supervision, veille — à partir de 147 € HT par mois, sans engagement.

Le coût réel : un calcul honnête

Les ordres de grandeur ci-dessous reposent sur des hypothèses explicites, que vous pouvez ajuster à votre situation.

Poste	Hypothèses	Ordre de grandeur annuel
Abonnements cloud	20 utilisateurs × 20-25 $/mois (ChatGPT Business, avril 2026)	≈ 5 000 à 6 000 $ /an, récurrents
Serveur IA interne (acquisition)	Pack Pro IAPRO 9 990 € HT — matériel, installation, formation, 12 mois de support — amorti sur 3 ans	≈ 3 330 € HT/an sur la période
Électricité	700 W en charge × 10 h ouvrées × 250 jours, au tarif réglementé professionnel (≈ 0,158 € HT/kWh, juin 2026)	≈ 280 € HT/an
Maintenance (optionnelle)	Formule Essentiel	À partir de 1 764 € HT/an

Source du tarif électricité : grille des tarifs professionnels, Selectra, juin 2026.

Lecture honnête : la première année, les deux approches se tiennent. C'est sur la durée que l'écart se creuse — le serveur est un actif amorti, les abonnements une charge perpétuelle qui suit la grille du fournisseur. Et le tableau ne capture pas le différenciateur principal : avec un serveur interne, vos prompts, documents et index restent chez vous.

Enfin, les dispositifs publics — IA Booster France 2030, ADEN en Hauts-de-France, Pack IA France Num — co-financent une partie de l'investissement selon votre profil : notre simulateur d'aides donne une première estimation en quelques minutes.

Faire soi-même ou faire installer ?

Si votre équipe maîtrise Linux, les drivers GPU et l'administration réseau — et qu'elle a le temps —, l'internalisation en autonomie est réaliste, et vous garderez la pleine maîtrise du résultat.

Sinon, voici ce que couvre une installation professionnelle telle que nous la pratiquons : audit d'infrastructure d'une demi-journée à distance (verdict honnête : compatible, compatible après ajustements, ou insuffisant), préparation de l'environnement avec votre référent IT, deux jours d'installation sur site — stack complète, modèles, RAG, comptes —, recette signée, quatre heures de formation administrateur et douze mois de support. Le détail est sur la page Installation IA locale ; si votre matériel ne passe pas l'audit, le Pack Matériel + IA clé en main couvre l'ensemble, machine comprise.

Dans les deux cas, un POC Ollama réussi est le début de la démarche, pas la fin. Ce qui sépare un test convaincant d'un outil d'entreprise, c'est tout ce qui ne se voit pas en démonstration — l'authentification, les sauvegardes, la supervision, et quelqu'un qui répond quand ça ne marche plus.

FAQ — passer Ollama en production

Quelle différence entre un POC Ollama et un serveur IA de production ?

Le POC valide qu'un modèle local répond au besoin. La production ajoute ce que le test ignore : accès multi-utilisateurs authentifié, droits sur les documents, disponibilité, sauvegardes testées, supervision et traçabilité. Un changement de nature, pas seulement d'échelle.

Quelle carte graphique pour un serveur IA d'entreprise ?

16 Go de VRAM (RTX 4060 Ti) suffisent pour les modèles 7-9B, qui couvrent la plupart des usages bureautiques et RAG ; 24 à 32 Go (RTX 5090) ouvrent les modèles 24-32B ; au-delà de 70B, multi-GPU. Un audit d'infrastructure tranche selon vos usages réels, pas selon le catalogue.

Peut-on exposer Ollama directement sur internet ?

Non. L'API d'Ollama n'a pas d'authentification par défaut — SentinelLABS et Censys ont recensé environ 175 000 serveurs exposés début 2026. Le serveur reste sur le réseau interne, derrière un reverse-proxy authentifié, accès distant par VPN chiffré uniquement.

Un serveur interne coûte-t-il moins cher que les abonnements cloud ?

Sur la durée, généralement oui pour une vingtaine d'utilisateurs réguliers : un serveur s'amortit sur trois ans quand les abonnements (20 à 25 $ par utilisateur et par mois pour ChatGPT Business) se cumulent indéfiniment. Le calcul dépend de votre usage réel — et le premier bénéfice reste la confidentialité.

Peut-on réutiliser le matériel sur lequel le POC a tourné ?

Souvent, oui — c'est ce que vérifie l'audit d'infrastructure : GPU, RAM, stockage, système, sécurité. Si la machine est compatible, l'installation s'appuie dessus ; sinon, vous le savez avant d'avoir engagé quoi que ce soit.

Qui gère les mises à jour et la supervision une fois le serveur en production ?

Votre DSI si vous en avez une, avec la documentation d'exploitation remise à la livraison. Sinon, un contrat de maintenance prend le relais : mises à jour testées avant déploiement, supervision, veille et support — chez IAPRO, à partir de 147 € HT par mois, résiliable avec un préavis de 30 jours.

Pour aller plus loin avec IAPRO

Vous avez un POC Ollama qui tourne et la question de la production se pose ? Commencez par l'audit d'infrastructure : une demi-journée à distance, un verdict clair sur votre matériel, un dimensionnement selon vos usages réels. Décrivez-nous votre installation via la page contact — vous saurez rapidement si elle peut porter votre IA de production.

Du LLM local au serveur IA d'entreprise : passer son installation Ollama en production