Résumé : Pour remédier aux limites des modèles de langage locaux (LLM), notamment les hallucinations et le manque de données récentes, il est préconisé d'utilisation le RAG (Retrieval-Augmented Generation). Cette technique permet d'injecter des documents personnels — fichiers Excel, PDF ou codes sources — directement dans le contexte de l'IA, garantissant une précision accrue et une confidentialité totale puisque tout le traitement reste hors ligne. En utilisant des outils comme LM Studio avec des modèles de 9B paramètres et des outils d'intégration légers tels que Nomic Embed v1, il est possible de transformer un simple PC de jeu en un assistant ultra-performant, à condition d'augmenter manuellement la limite de jetons (tokens) pour gérer de gros volumes de données.
Même si j'adore les LLM locaux, ils ne peuvent rivaliser avec les capacités de raisonnement de leurs équivalents dans le cloud, et ce pour une bonne raison. ChatGPT, Perplexity et d'autres services d'IA dans le cloud peuvent traiter des centaines de milliards de paramètres sans aucun mal, tandis que mes GPU peuvent avoir besoin de quelques minutes pour générer des réponses si j'essaie d'exécuter des modèles de 30 milliards (voire 20 milliards) de paramètres sur mes LLM locaux.
Cela dit, il existe plusieurs moyens d'améliorer leurs performances informatiques, le RAG (Retrieval Augmentation Generation) étant le plus important, qui rend les modèles locaux plus efficaces que ChatGPT et ses concurrents dans le cloud.
Le RAG améliore la précision des LLM sans compromettre ma vie privée
Si vous avez déjà essayé d’utiliser des LLM, vous avez certainement connu au moins deux ou trois situations où ils ont produit des résultats complètement absurdes, même après avoir formulé votre requête de manière très détaillée et appliqué tout ce que vous avez appris sur l’optimisation des prompts. C’est ce qu’on appelle l’« hallucination de l’IA » : entre des données de pré-entraînement obsolètes, des problèmes de contexte et leur tendance à généraliser les réponses, les LLM ont souvent tendance à souffrir de ce problème, en particulier les modèles à faible nombre de paramètres.
C'est là que la génération augmentée par la récupération (RAG) s'avère utile. Plutôt que de s'appuyer sur les données d'entraînement statiques d'un LLM, la RAG permet aux modèles d'IA de récupérer des informations provenant de sources externes et de les utiliser pour générer des réponses. En termes plus simples, dans le contexte des LLM locaux, la RAG me permet d'ajouter un ensemble de documents, d'images et d'autres informations à mes modèles, les aidant ainsi à mieux prendre en compte le contexte lors de ma prochaine requête. De plus, cela m'aide à améliorer leur précision sans avoir à parcourir le web à la recherche de modèles spécifiques adaptés aux tâches spécifiques de mon domaine, ni à ré entraîner laborieusement leurs algorithmes sur mes données.
Le plus intéressant ? Le RAG me permet d'intégrer des informations personnelles dans mes grands modèles de langage (LLM), qu'il s'agisse d'une simple analyse de repas, de fichiers de code ou encore de documents privés que je ne partagerais jamais avec des plateformes cloud. Par exemple, si je souhaitais utiliser des modèles locaux pour résoudre des problèmes aléatoires dans sur un serveur informatique auto-hébergé, je pourrais transférer toute la documentation que j'ai accumulée au fil des ans vers le fournisseur de LLM et activer les fonctionnalités RAG avant de demander de l'aide. De cette façon, même les LLM à faible nombre de paramètres peuvent accéder à des informations qui n’existent pas dans leurs ensembles pré-entraînés, ce qui réduit d’autant leur tendance à l’hallucination. Et contrairement à ChatGPT, les modèles d’IA et leur base de connaissances restent sur mon ordinateur, je n’ai donc pas à craindre que des programmes défaillants basés sur le cloud aient accès à mes documents personnels.
La plupart des outils d'IA dont je dispose prennent en charge la technologie RAG
L'expression « génération augmentée par récupération » peut sembler trop technique et nécessiter des flux de travail complexes en IA. Mais rassurez-vous, c'est en réalité très simple à mettre en œuvre dans une configuration entièrement locale comme la mienne. J'ai commencé à utiliser LM Studio sur ma RTX 3080 Ti, et ce logiciel de LLM local dispose d'un plugin RAG très pratique intégré à l'application. Il est disponible dans la section « Intégration », juste au-dessus de tous les serveurs MCP que j'utilise avec mes modèles. Bien qu'il ne prenne actuellement en charge qu'un maximum de cinq documents d'une taille combinée de 30 Mo, c'est idéal pour ajouter du contexte supplémentaire à mes LLM.
Le seul bémol est que la longueur de contexte par défaut de 4 096 tokens est bien trop faible, même pour un seul document, donc je la multiplie souvent plusieurs fois avant de lancer une requête à mon LLM. J'utilise beaucoup de modèles de 9 milliards de paramètres sur ma machine de jeu ces derniers temps, et je n'ai rencontré aucun problème de performances, même après avoir ajouté de longs fichiers .docx, .xls et .pdf à mes conversations LLM.
Les utilitaires auto-hébergés classiques nécessitent généralement l'intégration de modèles
J'ai également connecté toute une série de services libres et open source à mes modèles LM Studio, qui nécessitent des modèles d'encodage dédiés pour les fonctionnalités RAG. Si ce terme ne vous dit rien, sachez que les modèles d'encodage ont pour rôle de convertir des documents classiques en espaces vectoriels denses et de saisir la signification sémantique du texte plutôt que de se fier uniquement à des mots-clés. J'utilise Nomic Embed v1 comme modèle d'encodage principal, et bien qu'il alimente toute une série d'outils dans mon serveur informatique auto-hébergé, il est extrêmement léger.
Par exemple, j'utilise Blinko pour gérer mes notes, et le fait qu'il utilise Nomic Embed v1 comme modèle d'encodage sur son interface web me permet d'utiliser mes listes de tâches, mes blinkos et mes notes comme base de connaissances lorsque je discute avec des LLM. De même, je stocke mes factures, mes dossiers scolaires, mes relevés, mes garanties de produits et d’autres documents essentiels sur mon serveur Paperless-ngx, Paperless AI me permettant d’exploiter mes LLM (et le modèle d’encodage) pour des conversations basées sur le RAG. J’ai également une instance Karakeep en cours d’exécution sur mon serveur Proxmox, et elle prend en charge les modèles d’encodage de texte pour ses outils de balisage automatique et de génération de résumés.
traduction de : https://www.xda-developers.com/one-tiny-change-made-my-local-llms-more-useful-than-chatgpt-for-real-work/

Enregistrer un commentaire
Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.