Construire une configuration GenAI haute performance avec les GPU NVidia & KUBE by IG1

Ce guide explique comment nous mettre en place la plateforme GenAI en utilisant KUBE by IG1. Il commence par l'installation des serveurs et des GPU NVidia et la configuration des logiciels de base. Ensuite, nous configurons KUBEpar IG1 pour gérer les machines virtuelles et nous nous assurons que tout est connecté correctement. Nous téléchargeons et optimisons le modèle LLM AI. Nous téléchargeons et optimisons le modèle d'IA LLM, l'intégrons à un système qui améliore les réponses et mettons en place des interfaces conviviales pour interagir avec l'IA.. Enfin, nous testons le système en profondeur, vérifions ses performances et mettons en place des outils de surveillance pour assurer son bon fonctionnement. Cela permet de garantir une installation robuste et efficace de l'IA.

Couche 01 : Configuration du matériel et de Cloud

Infrastructure matérielle et cloud constituent la couche fondamentale de l'IA générative stack, fournissant la puissance de calcul et la flexibilité nécessaires à l'entraînement et au déploiement des modèles d'IA.

Serveurs physiques

Déballer et installer les serveurs et les GPU NVidia dans les racks des centres de données. Connectez l'alimentation et le réseau, en veillant à ce que tous les composants soient sécurisés et correctement installés. Cette installation constitue la base de l'infrastructure d'IA.

Système de base

Installer IG1 AI OSIG1 AI OS, notre système d'exploitation maison basé sur Linux Ubuntu, sur chaque serveur, met à jour le système et installe les pilotes NVidia et le kit d'outils CUDA. Cette étape permet de s'assurer que les serveurs sont prêts pour les applications accélérées par le GPU et fournit un environnement d'exploitation stable.

KUBE par IG1 pour l'IA

Installer KUBE d'IG1 for AI pour gérer les machines virtuelles et les conteneurs. Configurez le réseau dans KUBE, initialisez le site cluster et vérifiez son état. Cette étape établit l'infrastructure de base pour la gestion et le déploiement des applications d'IA.

Serveurs physiques

Déballage et installation initiale


Déballez le matériel :

Déballez soigneusement les serveurs, les GPU NVidia et les autres composants matériels.


Mettre les serveurs en rack : 


Installer les serveurs dans les baies prévues à cet effet dans le centre de données.

Connecter l'alimentation et la mise en réseau :

Connecter les serveurs aux sources d'alimentation et au réseau du centre de données.


Configuration du matériel


Installer les GPU NVidia :

Installez physiquement les GPU NVidia dans les serveurs conformément aux instructions du fabricant.

Vérifier les connexions matérielles :

Assurez-vous que toutes les connexions sont sûres et que les composants sont correctement placés.

Système de base

Installation du système d'exploitation


Installer le système d'exploitation :

Installer le système d'exploitation : Installez IG1 AI OS, un système d'exploitation spécialement conçu pour les services d'IA, en tirant parti de notre expertise et de notre capacité à gérer des plateformes "plug and play" pour l'IA.

Mettre à jour le système :

Exécutez les mises à jour du système pour vous assurer que tous les paquets sont à jour.

Pilotes de GPU et installation de CUDA


Installer les pilotes NVidia :

Installez les derniers pilotes NVidia pour les GPU.

Installer le kit d'outils CUDA :

La "boîte à outils CUDA" est intégrée dans le système d'exploitation IG1.

KUBE par IG1 pour l'IA

Installation et configuration


Installer KUBE by IG1:

Suivez le guide d'installation de KUBE by IG1 pour configurer la couche de virtualisation.

Configurer le réseau :

Mettre en place un réseau au sein de KUBE pour assurer la communication entre les nœuds et l'accès externe.

Cluster Initialisation


Initialiser KUBE Cluster:

Initialiser KUBE cluster pour créer un plan de contrôle et ajouter des nœuds de travail.

Vérifier Cluster Health :

Vérifiez l'état de santé et le statut de KUBE cluster pour vous assurer que tous les composants fonctionnent correctement.

Couche 02 : Déploiement de la fondation de modèle LLM et RAG

Les applications d'IA s'appuient sur des modèles génératifs, tels que LLAMA3, Mistral, Deepseek et StarCoder, qui sont des modèles pré-entraînés sur de vastes ensembles de données afin de capturer des modèles et des connaissances complexes. Ces modèles servent d'éléments de base pour diverses tâches d'IA, notamment le traitement du langage naturel et la génération d'images. Pour déployer et gérer efficacement les applications d'IA, plusieurs services sont nécessaires pour assurer le bon fonctionnement des grands modèles de langage (LLM). Ces services comprennent la quantification pour l'optimisation des ressources, les serveurs d'inférence pour l'exécution des modèles, le cœur de l'API pour l'équilibrage de la chargeet l'observabilité pour la collecte des données et la gestion des traces. En affinant et en optimisant ces modèles sur des ensembles de données spécifiques, leurs performances et leur précision peuvent être améliorées pour des tâches spécialisées. Cette étape fondamentale permet aux développeurs d'exploiter des modèles sophistiqués, réduisant ainsi le temps et les ressources nécessaires à la création d'applications d'IA à partir de zéro.

Configuration du modèle LLM

Téléchargez le LLM (Large Language Model) et procédez à la quantification pour optimiser les performances et réduire l'utilisation des ressources. Cette étape permet de s'assurer que le modèle d'IA fonctionne efficacement et qu'il est prêt à être intégré à d'autres composants.

Configuration RAG (Retrieval-Augmented Generation)

Intégrer les composants RAG à l'aide des sites framework les plus utilisés et déployer le pipeline RAG dans KUBE. Cette étape permet d'améliorer le modèle d'intelligence artificielle grâce à des capacités de recherche accrues, ce qui permet d'obtenir des réponses plus précises et plus pertinentes.

Configuration du modèle LLM

Télécharger LLM :

Obtenir le LLM auprès de la source appropriée.

Optimisation LLM :

L'optimisation consiste à optimiser l'utilisation des ressources en préparant et en améliorant les LLM par un processus appelé quantification. La quantification augmente les performances d'inférence sans compromettre de manière significative la précision. Nos services de gestion de la quantification utilisent le projet AWQ, qui offre d'excellentes performances en termes de vitesse et de précision.

Optimisation LLM :

Similaires aux moteurs de base de données, les serveurs d'inférence LLMs exécutent les LLMs pour l'inférence ou l'intégration. IG1 installe et gère tous les services nécessaires au bon fonctionnement des modèles LLM. Pour cela, nous nous appuyons sur plusieurs instances de :

Configuration RAG (Retrieval-Augmented Generation)

Intégrer les composantes du RAG :

Mettre en place les composants RAG nécessaires (exemple utilisant le LlamaIndex framework) :

Déployer RAG Pipeline :

Déployer le pipeline RAG dans l'environnement KUBE.

Couche 03 : Outils d'intégration, d'orchestration et de déploiement

Cette couche porte sur les processus critiques d'intégration, d'orchestration et de déploiement de l'infrastructure d'IA afin de garantir des opérations transparentes et efficaces. Les applications d'IA devenant de plus en plus complexes et faisant partie intégrante des activités de l'entreprise, il est essentiel de disposer d'un framework robuste qui prenne en charge l'intégration de divers services, l'orchestration d'applications conteneurisées et le déploiement de ces applications avec un minimum de friction..
En tirant parti d'outils avancés et de bonnes pratiques, les entreprises peuvent améliorer l'évolutivité, la fiabilité et les performances de leurs systèmes d'IA. Nous explorerons les composants clés et les stratégies nécessaires pour construire une infrastructure d'IA résiliente et évolutive qui réponde aux besoins changeants des entreprises modernes.

Intégration des services d'IA

Intégrer de manière transparente les différents services d'intelligence artificielle afin de garantir une communication et un fonctionnement efficaces. Il s'agit notamment de :

L'API Core agit comme un Proxy LLM, équilibrant la charge entre les instances de serveurs d'inférence LLM. LiteLLM, déployé en haute disponibilité, est utilisé à cette fin. Il offre un large support pour les serveurs LLM, la robustesse, les informations d'utilisation et le stockage des clés API via PostgreSQL. LiteLLM permet également la synchronisation entre différentes instances et envoie des informations sur l'utilisation du LLM à nos outils d'observabilité.

Observabilité et traçabilité

Mettez en œuvre des outils d'observabilité pour mieux comprendre le comportement et les performances de vos applications d'IA :


La couche d'observabilité des LLM collecte les données d'utilisation et les traces d'exécution, garantissant ainsi une gestion correcte des LLM. IG1 gère efficacement l'utilisation du LLM par le biais d'une surveillance stack connectée à l'orchestrateur LLM. Lago et OpenMeter collectent des informations qui sont ensuite transmises à notre système central d'observabilité, Sismology.

Couche 04 : Applications de l'IA

Il représente la mise en œuvre concrète, par l'utilisateur final des modèles génératifs, démontrant leur valeur pratique. Ces applications, telles que les outils de génération de texte, de code, d'image et de vidéo, exploitent l'IA avancée pour automatiser les tâches, améliorer la productivité et stimuler l'innovation dans divers domaines. En présentant des utilisations concrètes de l'IA, cette section montre comment les modèles génératifs peuvent résoudre des problèmes spécifiques, rationaliser les flux de travail et créer de nouvelles opportunités. Sans cette couche, les avantages de l'IA avancée resteraient théoriques et les utilisateurs ne ressentiraient pas l'impact transformateur de ces technologies dans leur vie quotidienne.

Interface de prompt de type GPT

Installer l'interface Web de Hugging Face :

Configurer l'interface web Hugging Face pour la gestion des modèles et des messages-guides.

Configuration de l'API

Déployer le serveur API :

Mettre en place un serveur API pour fournir un accès programmatique aux services LLM et RAG.

Interface RAG

Configurer l'interface utilisateur RAG :

Mettre en place une interface utilisateur pour interagir avec le système RAG.

Copilote de développement

Déployer le serveur API :

Mettre en place un serveur API pour fournir un accès programmatique aux services LLM et RAG.

Outil d'application LLM low code

Déployer l'outil Low Code :

Installer un outil à code bas pour construire des applications basées sur LLM.

Inside Look:

Événement Gen AI au bureau parisien d'Iguane Solutions : Mise en œuvre de Gen AI @Easybourse

Découvrez l'impact de la GenAI sur les services professionnels : des avantages et inconvénients des LLM aux avantages, défis et améliorations de la RAG, en passant par son application chez Iguane Solutions.

Voir la vidéo

Retour d'expérience : Implémentation de la GenAI @Easybourse

Les outils grand public pour les LLM comblent le fossé entre le LLM et les applications pratiques. et les applications pratiques . Ces outils permettent aux développeurs d'intégrer des modèles génératifs dans des systèmes réels, en les enrichissant d'informations contextuelles en utilisant le RAG ou l'utilisation d' agents d'outils pour construire une armée LLM. Ces outils sont essentiels car ils servent d'interfaces entre la plateforme d'IA et les applications des utilisateurs finaux. Ils offrent des capacités essentielles telles que les interfaces de gestion des utilisateurs et des modèles, la gestion des clés API, les interfaces documentaires pour l'enrichissement du contexte RAG  permettant aux développeurs de dialoguer avec leur base de code pour mieux coder et une interface "low-code" pour créer des applications sans effort et sans codage.. Ces services prêts à l'emploi permettent aux développeurs et aux membres de l'équipe d'intégrer plus facilement l'IA dans leurs activités quotidiennes.

" Avec notre ancien partenaire, notre capacité de croissance s'était arrêtée.... Opter pour Iguane Solutions nous a permis de multiplier notre performance globale par au moins 4. "

Cyril Janssens

CTO, easybourse

Des entreprises de premier plan dans le monde entier nous font confiance

Nos plateformes pour les offres GenAI

Révolutionnez vos capacités d' IA
avec les plateformes GenAI Plug n Play

Nous proposons des GenAI qui rendent l'infrastructure de l'IA puissante et sans effort. En exploitant la technologie NVIDIA H100 et H200 nos solutions offrent des performances de premier plan pour vos besoins en matière d'IA.

Nos plateformes s'adaptent de manière transparente, passant de petits projets à de vastes applications d'intelligence artificielle, en fournissant un hébergement flexible et fiable. De la conception personnalisée au  déploiement et l'assistance continue, nous assurons un fonctionnement sans faille à chaque étape. Dans le monde rapide de l'IA aujourd'hui, une infrastructure robuste est essentielle. Chez Iguane Solutions, nous ne nous contentons pas de fournir de la technologie, nous sommes votre partenaire pour libérer le plein potentiel de vos initiatives en matière d'IA. Découvrez comment nos plateformes GenAI peuvent permettre à votre organisation d'exceller.

Nous contacter

Commencez votre transformation DevOps dès aujourd'hui

Embarquez pour votre voyage DevOps avec Iguane Solutions et faites l'expérience d'une transformation qui s'aligne sur les normes les plus élevées d'efficacité et d'innovation. Notre équipe d'experts est prête à vous guider à chaque étape, de la consultation initiale à la mise en œuvre complète. Que vous cherchiez à affiner vos processus actuels ou à construire un nouvel environnement DevOps à partir de zéro, nous avons l'expertise et les outils pour y parvenir. Contactez-nous dès aujourd'hui pour planifier votre consultation gratuite ou pour en savoir plus sur la façon dont nos solutions DevOps sur mesure peuvent bénéficier à votre organisation. Laissez-nous vous aider à atteindre de nouveaux niveaux de performance et d'agilité. N'attendez pas, faites dès maintenant le premier pas vers une infrastructure plus dynamique et plus réactive.