Oubliez GPT-5 pour les agents : ce modèle de 1,2B surpasse les mastodontes

Résumé : Le modèle Liquid LFM 2.5-1.2B marque la fin de l'ère du gigantisme en prouvant qu'un petit modèle massivement « sur-entraîné » (28 billions de tokens) peut surpasser des géants pour les tâches agentiques. En optimisant l'architecture pour l'inférence plutôt que pour le coût d'entraînement, Liquid AI propose une solution ultra-rapide (359 tokens/sec) et légère (900 Mo) capable de s'exécuter localement sur des téléphones ou des NPU. Cette approche privilégie la vitesse de réaction et la fiabilité — en éliminant quasiment les répétitions textuelles — plutôt que le volume de paramètres, positionnant ainsi les modèles de moins de 2B comme les futurs standards de l'industrie pour l'extraction de données et le raisonnement logique d'ici la fin 2026.

Surapprentissage (ou sur-entraînement) de 1400x. 900 Mo de mémoire. 359 jetons/sec.

Le nouveau modèle Liquid LFM 2.5, un minuscule modèle de 1,2 milliard de paramètres, vient de pulvériser les lois de mise à l'échelle (scaling laws), et il a déjà été téléchargé 6 millions de fois sur Hugging Face.

Découvrez pourquoi il surpasse les plus grands modèles pour les tâches agentiques, et comment l'exécuter localement en trois lignes de code.

Si vous êtes un ingénieur en IA qui a déjà regardé sa facture mensuelle d'API en se disant « il doit y avoir une meilleure solution », cela vous concerne.

Il y a deux ans, il fallait un centre de données pour cela. Aujourd’hui, cela fonctionne avec 900 Mo sur un téléphone. Ce qui nécessitait des racks entiers de GPU tient désormais dans votre poche.

Réfléchissez-y un instant.

Mais ce n’est pas le plus important. Ce qui importe, c’est de comprendre pourquoi ce minuscule modèle est en train de bouleverser l’économie de l’IA.

Pourquoi tout le monde pensait que « plus c'est gros, mieux c'est »

Pendant des années, on nous a répété que la taille était synonyme de qualité. Les lois de mise à l'échelle étaient considérées comme parole d'évangile.

L'article de DeepMind sur Chinchilla, publié en 2022, indiquait que pour chaque paramètre d'un modèle, il fallait s'entraîner sur 20 tokens de données. Pour un modèle de 350 millions de paramètres, cela représentait 7 milliards de tokens. Tous les grands laboratoires d'IA ont suivi cette règle. Elle est devenue une norme incontestée.

Voici ce que le directeur technique de Liquid AI a publié à ce sujet sur LinkedIn :

« Les lois d'évolutivité de Chinchilla stipulent que nous devrions entraîner 20 tokens par paramètre. Pour notre modèle de 350 millions de paramètres, cela représente 7 milliards de tokens. Nous avons plutôt entraîné 10 000 milliards de tokens. Pourquoi surentraîner à un tel niveau ? Parce que Chinchilla passe fondamentalement à côté de l'essentiel. »

Voici pourquoi cela importe.

Cette doctrine était incomplète.

Entraîner n'est pas utiliser (inférence*).

Cette règle avait du sens — jusqu'à ce que l'on examine ce qui se passe après l'entraînement.

Note de Linkzilla : Inférence = Le processus par lequel l'IA utilise ce qu'elle a appris pour générer une réponse. L'IA calcule la probabilité du mot suivant et vous répond.

La faille qui passait inaperçue

Alors, quelle est cette faille ?

Chinchilla était conçu pour optimiser l'efficacité de calcul lors de l'entraînement. Chinchilla vous indiquait comment répartir les ressources allouées à l'entraînement. Mais il ne disait rien sur l'inférence*.

Liquid a été conçu dès le départ pour l'inférence. Son moteur de recherche « hardware-in-the-loop » est optimisé pour trois paramètres : le temps jusqu'au premier token, la latence de décodage et l'utilisation maximale de la mémoire sur les CPU et les NPU.

Pas de FLOPs théoriques.

Des performances concrètes sur les appareils que les développeurs utilisent réellement.

Ils ont entraîné les premiers modèles LFM2 sur 10 000 milliards de tokens. Puis LFM2.5 a étendu le pré-entraînement à 28 000 milliards de tokens.

1 400 fois la recommandation « d'optimisation informatique ».

Mais voici ce que tout le monde oublie.

Le débat ne porte pas vraiment sur la question de savoir si un modèle de 1,2 milliard de paramètres peut rivaliser avec un modèle de 70 milliards de paramètres sur tous les benchmarks. Ce n'est pas la bonne question. La vraie question est : pour les agents, qu'est-ce qui compte réellement ?

Question évidente : « LFM2.5 est-il réellement plus intelligent que Qwen3–1,7 milliards ou Gemma 3 ? »

Au fond du problème : il ne s'agit pas de QI brut. Il s'agit de la vitesse d'exécution des tâches. Un agent effectuant 10 appels d'outils a besoin de 10 passes d'inférence. Si votre modèle fonctionne à 359 tokens/seconde au lieu de 30, votre agent termine en un dixième du temps nécessaire.

Pour les agents, la latence est synonyme d'intelligence.

Le problème ? Chinchilla visait l'efficacité de l'apprentissage, et non l'intelligence d'inférence. Et cette différence change tout.

Ce que l'architecture Speed-First apporte réellement

Alors, que donne concrètement un modèle optimisé pour l'inférence ?

LFM2.5–1.2B-Thinking obtient un score de 88 au test MATH-500 (contre 63 pour la version non-thinking). Son score à l'utilisation d'outils sur BFCLv3 est passé de 49 à 57. Il égale ou dépasse Qwen3–1.7B sur la plupart des benchmarks de raisonnement, bien qu'il comporte 40 % de paramètres en moins.

Si vous êtes ingénieur, soyez attentif.

Voici ce qu'a déclaré le vice-président de la gestion des produits chez Qualcomm lors de l'annonce du lancement :

« Qualcomm Technologies, Inc. est fière d'être partenaire de lancement du modèle LFM2.5–1.2B–Thinking à poids ouvert de Liquid AI. Grâce aux optimisations de Nexa AI pour nos NPU, les développeurs peuvent intégrer une IA embarquée plus intelligente et plus rapide aux appareils équipés de Snapdragon, alliant performances, confidentialité et performant en local. »

Ce n'est pas seulement un projet de recherche. C'est une technologie disponible sur tout appareil mobile.

Les variantes « Nano » spécialisées dans des tâches spécifiques sont encore plus remarquables. Le modèle LFM2–1.2B-Extract surpasse Gemma 3 27B dans les tâches d'extraction. Il est 22,5 fois plus petit et plus performant dans sa tâche spécifique.

Ce n'est pas une erreur de frappe.

Voici une question pour les entrepreneurs qui continuent de miser sur des modèles de 70 milliards de paramètres pour de simples tâches d’agent : quelle est la justification ?

La vitesse l’emporte. Les chiffres ne mentent pas.

C’est la preuve. Voici maintenant la preuve qu’il ne s’agit pas seulement d’une expérience de laboratoire.

Des déploiements concrets, des partenaires concrets, des solutions concrètes

Ce n'est pas un produit fantôme. Il est déjà sur le marché.

Robotec.ai a présenté lors de la ROSCon 2025 des robots d'entrepôt entièrement autonomes, équipés du LFM2-VL sur des processeurs AMD Ryzen. Ces robots interprètent des commandes en langage naturel et détectent les risques pour la sécurité en temps réel. Le tout fonctionne sur du matériel local. Aucun aller-retour vers le cloud.

La liste des partenariats ressemble à un véritable « who's who » des géants de l'informatique embarquée (edge) : Qualcomm, AMD, Ollama, FastFlowLM, Cactus Compute, Nexa AI. Ils optimisent les NPU sur l'ensemble de la pile matérielle.

Relisez bien ça.

La formation RLVR qu'ils ont développée a corrigé un mode de défaillance critique. Les « boucles de la mort » — où les modèles restent bloqués en répétant les mêmes schémas textuels — sont passées de 15,74 % à 0,36 % sur un ensemble de données de prompts représentatifs. La fiabilité à grande échelle.

La philosophie du directeur technique en matière de surentraînement, partagée sur LinkedIn plusieurs mois avant la sortie, est désormais validée par des déploiements concrets.

Ma prédiction : d’ici décembre 2026, 80 % des agents de production fonctionneront sur des modèles de moins de 2 milliards de paramètres.

Voilà la preuve. Voici maintenant comment l’utiliser.

La marche à suivre : Votre guide pratique pour agents locaux

Alors, comment s'y prendre concrètement ?

Voici le changement de mentalité à adopter : les lois de mise à l'échelle n'ont jamais été immuables. Il s'agissait d'un compromis optimisé pour réduire les coûts d'entraînement. L'objectif n'est pas de posséder le plus gros modèle, mais d'accomplir le plus grand nombre de tâches par dollar et par milliseconde.

Actions immédiates (à la portée de tous dès aujourd'hui) :

Téléchargez et exécutez localement. Ouvrez votre terminal et tapez :

ollama pull lfm2.5-thinking

Ou téléchargez le GGUF sur Hugging Face et lancez-le avec llama.cpp. Testez vos invites d'agent existantes. Voyez ce qui se passe lorsque l'inférence est gratuite.

Évaluez votre propre latence. Mesurez le nombre de tokens par seconde sur votre matériel. Comparez ces résultats aux coûts de votre API cloud. Les chiffres vous surprendront.
Remplacez les tâches simples de l'agent. Pour l'utilisation d'outils, l'extraction, le RAG ou l'appel de fonctions, remplacez votre appel au modèle cloud par LFM2.5 en local. Commencez par les processus non critiques.

note de linkzilla : vous pouvez télécharger et utiliser ce modèle comme agent conversationnel très facilement et directement dans le logiciel Jan.

Anti-pattern (ce qui ne fonctionne pas) :

N'utilisez pas le modèle « Thinking » pour le chat ou la rédaction créative : utilisez plutôt la variante « Instruct ». Les traces de raisonnement (thinking traces) ajoutent de la latence et ne sont pas nécessaires pour les tâches conversationnelles.
Surveillez les « boucles de la mort » (doom loops) si vous faites du fine-tuning : Le correctif RLVR est intégré au modèle de base, mais un réglage fin personnalisé peut réintroduire le problème. Surveillez attentivement l'apparition de réponses répétitives.

Limitations à reconnaître :

Pour la rédaction créative, le contenu long format ou les tâches nécessitant une culture générale étendue, les modèles plus imposants restent les plus performants. Le LFM 2.5 excelle dans l'utilisation d'outils, l'extraction de données, les mathématiques et le raisonnement. Cela représente 80 % des tâches confiées aux agents. Choisissez l'outil adapté à votre besoin. (Et si vous avez impérativement besoin des 20 % restants, ce modèle n'est pas fait pour vous.)

Si vous pensez que l'IA locale n'est encore qu'un gadget, le LFM 2.5 vient de prouver le contraire. Voici comment vous pouvez l'utiliser dès aujourd'hui.

Arrêtez de lire. Passez à l'action : ollama run lfm2.5 (Copiez-collez-le. J'attends.)

L'ère de l'efficacité

L'ère du gigantisme touche à sa fin. L'ère de l'efficacité est arrivée. Le marché des agents sera remporté par ceux qui optimisent la vitesse, et non le nombre de paramètres.

Je parie que 80 % des agents en production tourneront sur des modèles de moins de 2 milliards de paramètres d'ici décembre. Si vous n'êtes pas d'accord, donnez-moi vos prédictions ci-dessous. On en reparle dans dix mois.

Plus gros ne veut pas dire meilleur.

Plus rapide, si.

Les agents arrivent. Et désormais, ils ne coûtent plus rien.

Allez-y, lancez-vous.

traduction de : https://pub.towardsai.net/you-dont-need-gpt-5-for-agents-the-1-2b-model-that-beats-giants-9ac9c3a2b626

Oubliez GPT-5 pour les agents : ce modèle de 1,2B surpasse les mastodontes

Enregistrer un commentaire

NextDNS ajoute une option permettant de contourner la vérification de l'âge sur les sites web