Résumé : L'Institut Allen pour l'Intelligence Artificielle (Ai2) a lancé Tülu 3, un modèle de langage open-source de 405 milliards de paramètres qui rivalise avec GPT-4o et surpasse DeepSeek v3 sur plusieurs critères d'évaluation. Sa principale innovation réside dans son système RLVR (Reinforcement Learning from Verifiable Rewards) et sa méthodologie avancée de post-entraînement. Contrairement à d'autres modèles dits "open-source", Ai2 publie l'intégralité de son infrastructure, incluant le code, les données d'entraînement et les modèles, permettant ainsi aux utilisateurs de personnaliser entièrement leur pipeline. Avec un score moyen de 80,7 sur 10 benchmarks d'IA, ce modèle représente une avancée majeure dans le domaine de l'IA open-source, offrant une alternative transparente et performante aux modèles propriétaires.
La compétition des modèles open-source devient de plus en plus intéressante.
Aujourd'hui, l'Allen Institute for AI (Ai2) a dévoilé sa dernière contribution à cette compétition en lançant le modèle de grand langage (LLM) open-source Tülu 3 405 milliards de paramètres. Le nouveau modèle ne se contente pas d'égaler les capacités du GPT-4o d'OpenAI, il surpasse le modèle v3 de DeepSeek sur des points de référence essentiels.
Ce n'est pas la première fois que Ai2 fait des affirmations fracassantes au sujet d'un nouveau modèle. En novembre 2024, l'entreprise avait publié sa première version de Tülu 3, qui comportait des versions à 8 et 70 milliards de paramètres. À l'époque, Ai2 affirmait que le modèle était comparable au dernier modèle GPT-4 d'OpenAI, à Claude d'Anthropic et à Gemini de Google. La grande différence est que Tülu 3 est open-source. Ai2 a également affirmé en septembre 2024 que ses modèles Molmo étaient capables de battre GPT-4o et Claude sur certains benchmarks.
Si les données relatives aux performances sont intéressantes, les innovations en matière d'entraînement qui permettent d'utiliser le nouveau modèle d'Ai2 sont sans doute encore plus intéressantes.
Repousser les limites du post-entraînement
La grande avancée du Tülu 3 405B trouve son fondement dans une innovation qui est apparue pour la première fois avec la version initiale du Tülu 3 en 2024. Cette version utilisait une combinaison de techniques de post-entraînement avancées pour obtenir de meilleures performances.
Avec le modèle Tülu 3 405B, ces techniques de post-entraînement ont été poussées encore plus loin, en utilisant une méthodologie de post-entraînement avancée qui combine le réglage fin supervisé, l'apprentissage des préférences et une nouvelle approche d'apprentissage par renforcement qui s'est avérée exceptionnelle à plus grande échelle.
« L'application des techniques de post-entraînement de Tülu 3 à Tülu 3-405B, notre modèle post-entraîné à plus grande échelle et entièrement open-source à ce jour, permet d'uniformiser les règles du jeu en fournissant des techniques de réglage fin, des données et du code ouverts, permettant aux développeurs et aux chercheurs d'atteindre des performances comparables à celles des modèles fermés de premier plan », a déclaré Hannaneh Hajishirzi, directeur principal de NLP Research chez Ai2, à VentureBeat.
Améliorer la qualité du post-entraînement de l'IA open-source avec RLVR
Le post-entraînement est un procédé que d'autres modèles, dont DeepSeek v3, utilisent également.
L'innovation clé qui contribue à différencier Tülu 3 est le système « d'apprentissage par renforcement à partir de récompenses vérifiables » (RLVR) d'Ai2.
Contrairement aux approches de formation traditionnelles, le système RLVR utilise des résultats vérifiables - tels que la résolution correcte de problèmes mathématiques - pour affiner les performances du modèle. Cette technique, associée à l'optimisation directe des préférences (DPO) et à des données de formation soigneusement sélectionnées, a permis au modèle d'atteindre une meilleure précision dans les tâches de raisonnement complexes tout en conservant de solides caractéristiques de sécurité.
Les principales innovations techniques de la mise en œuvre de RLVR sont les suivantes :
Traitement parallèle efficace sur 256 GPU
Synchronisation optimisée des poids
Répartition équilibrée des calculs sur 32 nœuds
Déploiement intégré de vLLM avec un parallélisme tensoriel à 16 voies.
Le système RLVR a obtenu de meilleurs résultats à l'échelle de 405 milliards de paramètres que les modèles plus petits. Le système a également obtenu des résultats particulièrement bons dans les évaluations de sécurité, surpassant DeepSeek V3, Llama 3.1 et Nous Hermes 3. Il est à noter que l'efficacité du cadre RLVR augmente avec la taille du modèle, ce qui laisse entrevoir les avantages potentiels d'une implémentation à plus grande échelle.
Comparaison de Tülu 3 405B avec GPT-4o et DeepSeek v3
Le positionnement concurrentiel du modèle est particulièrement remarquable dans le paysage actuel de l'IA.
Tülu 3 405B ne se contente pas d'égaler les capacités de GPT-4o, il surpasse également DeepSeek v3 dans certains domaines, notamment en ce qui concerne les critères de sécurité.
Sur une série de 10 tests d'IA, y compris des tests de sécurité, Ai2 a indiqué que le modèle RLVR Tülu 3 405B avait obtenu un score moyen de 80,7, dépassant les 75,9 de DeepSeek V3. Tülu n'est cependant pas aussi bon que GPT-4o, qui a obtenu un score de 81,6. Dans l'ensemble, les mesures suggèrent que la Tülu 3 405B est pour le moins extrêmement comptétitif par rapport à GPT-4o et DeepSeek v3 sur l'ensemble des benchmarks.
Pourquoi l'IA open-source est importante et comment Ai2 procède différemment
Ce qui rend Tülu 3 405B différent pour les utilisateurs, c'est la façon dont Ai2 a rendu le modèle disponible.
Le marché de l'IA fait beaucoup de bruit à propos de l'open source. DeepSeek affirme que son modèle est open-source, tout comme Llama 3.1 de Meta, que Tülu 3 405B surpasse également.
Dans le cas de DeepSeek et de Llama, les modèles sont librement utilisables et une partie du code, mais pas la totalité, est disponible.
Par exemple, DeepSeek-R1 a publié le code de son modèle et les poids pré-entraînés, mais pas les données d'entraînement. Ai2 adopte une approche différente dans le but d'être plus ouvert.
« Nous n'exploitons pas d'ensembles de données fermés », explique M. Hajishirzi. « Comme pour notre première version de Tülu 3 en novembre 2024, nous publions tout le code de l'infrastructure.
Il a ajouté que l'approche entièrement ouverte d'Ai2, qui comprend les données, le code d'entraînement et les modèles, permet aux utilisateurs de personnaliser facilement leur pipeline, depuis la sélection des données jusqu'à l'évaluation. Les utilisateurs peuvent accéder à l'ensemble des modèles Tülu 3, y compris Tülu 3-405B, sur la page Tülu 3 d'Ai2, ou tester les fonctionnalités de Tülu 3-405B dans l'espace de démonstration Playground d'Ai2.
source :
https://venturebeat.com/ai/ai2-releases-tulu-3-a-fully-open-source-model-that-bests-deepseek-v3-gpt-4o-with-novel-post-training-approach/
Enregistrer un commentaire
Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.