Pourquoi j'utilise des modèles de langage à poids ouverts localement (traduction)

En tant qu'utilisateur régulier de modèles de langage volumineux (LLM) pour un usage personnel et pour la création d'applications basées sur ces modèles, le choix entre les LLM à poids ouverts auto-hébergés et les LLM propriétaires est un sujet récurrent. Dans cet article, je partage mon expérience personnelle sur les raisons pour lesquelles j'utilise des LLM hébergés localement. Je tiens à préciser que j'utilise toujours GPT-4 de ChatGPT et GitHub Copilot pour certains cas spécifiques, et que je ne les ai pas encore complètement abandonnés.

Bien que des LLM comme Llama2 de Meta soient souvent qualifiés d'open-source, le terme le plus précis serait "LLM à poids ouverts". Cette distinction est importante car le code sous-jacent qui génère ces modèles n'est généralement pas divulgué. Néanmoins, les deux termes sont souvent utilisés de manière interchangeable.

Supprimer la censure et utiliser toute la créativité des LLM

Vous avez probablement remarqué que les modèles propriétaires sont fortement censurés, limités et biaisés en raison de leur conception, afin de réduire les réponses nuisibles et toxiques. Vous obtiendrez souvent des réponses telles que « En tant que grand modèle de langage créé par OpenAI... » et des mises en garde telles que « Il est important de noter... ».

Ce n'est pas mauvais en soi, mais parfois le LLM peut refuser de remplir une tâche même si elle semble raisonnable, ou il peut simplement ne pas inférer sur certains sujets. En utilisant des LLM à poids ouverts, vous pouvez obtenir des réponses plus créatives, utiles et non biaisées sur tous les sujets.

Pas besoin de partager vos données avec les grandes entreprises technologiques

En général, j'évite de partager mes données avec des tiers lorsque je n'en ai pas besoin, surtout si les données sont sensibles pour des raisons personnelles ou professionnelles. La politique de conservation des données d'OpenAI ne garantit pas que vos données ne seront pas lues. Voulez-vous que des entreprises profitent de votre travail et de votre code et vous revendent des modèles formés à partir de vos données ?

Je préfère ne pas anonymiser et expurger manuellement les informations sensibles de mes requêtes et documents à chaque fois que j'utilise un LLM. Avec les LLM hébergés localement, vous pouvez être sûr que votre travail et vos données restent confidentiels et restent sur votre machine. La confidentialité et la sécurité des données sont les principales raisons pour lesquelles j'utilise des LLM en local.

Personnaliser les outils selon vos besoins

L'hébergement d'un LLM sur votre propre ordinateur vous permet de mieux contrôler les options d'installation, de configuration et de personnalisation. Vous pouvez adapter le LLM à vos besoins spécifiques, expérimenter différents paramètres et l'intégrer à votre infrastructure existante.

Étant donné que les LLM sont sans état (stateless), vous pouvez basculer entre l'un des 500 000 modèles disponibles sur Hugging Face à tout moment. Cela vous permet d'utiliser différents modèles pour des tâches différentes.

Bien que les LLM propriétaires, comme GPT-4, puissent afficher des performances supérieures aux modèles à poids ouverts, tels que Llama2 ou Mistral, selon les classements, ces benchmarks ne sont probablement pas pertinents pour vos tâches ou votre domaine d'activité. Vous pouvez facilement régler ces modèles afin d'obtenir de meilleures performances pour votre utilisation.

Le développement open-source étant beaucoup plus souple que le développement commercial, les piles d'inférence locales peuvent offrir des fonctionnalités de pointe qui ne sont pas encore disponibles dans les services commerciaux, comme la fonction Grammaires de llama.cpp.

Cela signifie que vous devrez gérer les modèles, les invites, la mémoire et les connaissances externes avec la génération augmentée par récupération (RAG), ce qui nécessite un certain effort de votre part. Cependant, cela devient de plus en plus facile grâce à de nombreuses solutions open-source qui simplifient ces éléments, dont je parlerai dans un prochain article.

Néanmoins, l'auto-hébergement d'un LLM est une expérience d'apprentissage formidable et une entreprise amusante et gratifiante - comprendre le fonctionnement de cette technologie en évolution rapide. En comprenant et en possédant ces outils, vous pouvez décider de la manière dont vous les utilisez.

Les LLM en local fournissent des résultats plus fiables et plus cohérents.

L'utilisation de LLM propriétaires nécessite une connexion Internet, alors qu'un LLM hébergé localement fonctionnera en « mode hors ligne » sans Internet ou lorsque le service d'un fournisseur propriétaire est interrompu. Vous bénéficiez d'une certaine résilience en cas de défaillance ou de faillite de ces services.

Les LLM hébergés localement offrent des temps de réponse constants et prévisibles par rapport aux services basés sur l'API. Les réponses de latence des LLM locaux peuvent être plus rapides que l'appel à une API, en fonction de votre matériel, de votre sélection de modèles et de votre réseau.

Les services commerciaux changent constamment et ces mises à jour, pour le meilleur ou pour le pire, ne sont pas transparentes. La réponse que vous obtiendrez d'un modèle propriétaire sera différente de celle d'hier, sans que vous sachiez pourquoi. Cette imprévisibilité n'existe pas avec les modèles locaux. Les systèmes LLM locaux sont plus déterministes.

Des économies significatives grâce aux LLM en local

En utilisant des LLM auto-hébergés, vous n'avez pas besoin de payer des abonnements ou les coûts par appels d'API. Un autre inconvénient des LLM propriétaires est la dépendance vis-à-vis du fournisseur (vendor lock-in). Vous êtes à la merci de ses changements de politique de prix.

En tant qu'utilisateur individuel, vous économiserez probablement de l'argent malgré l'augmentation de la consommation d'électricité due à l'utilisation élevée de la (V)RAM et du CPU, mais cela dépend des coûts d'électricité de votre compagnie d'électricité.

Pour les entreprises, il est encore plus judicieux d'abandonner les LLM propriétaires. Le paiement à la consommation par "X tokens" n'est pas adapté aux entreprises et n'est pertinent que pour la validation de concept ou pour des cas d'utilisation à très fort retour sur investissement. Même si la qualité des réponses est supérieure, des coûts d'appels d'API plus élevés se traduiront par un retour sur investissement (ROI) plus faible. Sans parler des coûts exorbitants du "fine-tuning" sur les plateformes cloud.

Si vous utilisez le modèle et les bibliothèques d'OpenAI pour développer vos applications GenAI, la dernière mise à jour d'Ollama vous permet de réutiliser votre code OpenAI existant et de changer simplement l'API du modèle pour appeler celle hébergée localement.

Conclusion

Mon passage aux LLM hébergés localement a été un changement agréable, améliorant mon travail grâce à une créativité accrue, à la confidentialité des données et à la personnalisation, tout en offrant des réductions de coûts significatives. Au fur et à mesure que je continue à explorer cet univers, la pertinence de l'hébergement local des LLM devient de plus en plus manifeste.

Dans mon prochain billet, je vous expliquerai comment vous pouvez héberger et exécuter localement ces LLM à poids ouverts à l'aide de solutions à code source ouvert.

source :

https://medium.com/thedeephub/why-i-use-locally-hosted-llms-9146e1fd55fa

Pourquoi j'utilise des modèles de langage à poids ouverts localement (traduction)

Enregistrer un commentaire

ChatGPT est fou de ces deux symboles : < >