Matt Shumer, le co-fondateur et PDG d'OthersideAI, une entreprise spécialisée dans l'intelligence artificielle, vient de présenter un nouveau modèle de langage open-source qui s'impose comme le meilleur de sa catégorie. Reflection 70B, basé sur Llama 3.1-70B Instruct de Meta, utilise une nouvelle technique appelée Reflection-Tuning qui rivalise avec les modèles propriétaires les plus performants. Voici une présentation de ce nouveau modèle :
Des performances exceptionnelles
Reflection 70B se distingue par ses performances impressionnantes :
- Il surpasse GPT-4o sur tous les benchmarks testés.
- Il est en tête sur plusieurs évaluations importantes, notamment MMLU, MATH, IFEval et GSM8K.
- Il tient tête aux modèles propriétaires de premier plan comme Claude 3.5 Sonnet et GPT-4o.
- Il surclasse largement Llama 3.1 405B, creusant un écart significatif.
La technologie derrière Reflection 70B
L'approche Reflection-Tuning résout l'un des problèmes majeurs des modèles de langage actuels : la tendance à l'hallucination et à l'incapacité à reconnaître leurs erreurs.
Grâce au Reflection-Tuning, le modèle peut :
- Identifier ses erreurs
- Les corriger avant de fournir une réponse finale
De plus, l'équipe a introduit une étape de planification séparée, ce qui améliore l'efficacité du raisonnement en chaîne (Chain of Thought) tout en gardant les résultats simples et concis pour les utilisateurs.
Transparence et accessibilité
L'équipe derrière Reflection 70B met l'accent sur la transparence :
- Les poids du modèle 70B sont disponibles sur Hugging Face.
- Tous les benchmarks mentionnés ont été vérifiés pour la décontamination* à l'aide du LLM Decontaminator* de lmsysorg.
- Une démo est accessible pour que chacun puisse tester les capacités du modèle.
* Décontamination : le but de cette vérification est de s'assurer que les benchmarks sont "propres", c'est-à-dire qu'ils ne contiennent pas d'éléments indésirables ou nuisibles. Dans le contexte de l'intelligence artificielle, la décontamination peut viser à éliminer des biais, des informations erronées ou tout autre élément qui pourrait fausser les résultats.
* LLM Decontaminator :programme informatique basé sur un modèle de langage de grande taille (LLM) développé par l'organisation lmsysorg. Cet outil est spécialement conçu pour détecter et éliminer les problèmes de contamination dans les données
L'avenir s'annonce prometteur
L'équipe ne compte pas s'arrêter là. Voici ce qui nous attend :
- Le lancement de Reflection 405B est prévu pour la semaine prochaine, avec des performances attendues supérieures à Sonnet et GPT-4o.
- Un rapport détaillé sur le processus et les découvertes sera publié.
- D'autres améliorations sont en préparation, promettant des LLM encore plus puissants.
Conclusion
Reflection 70B marque une étape importante dans le développement des modèles de langage open-source. La technique de Reflection-Tuning et l'approche open source de ce modèle pourraient avoir un impact significatif sur le développement futur des LLMs, en améliorant leur précision et leur capacité d'autocorrection.
article généré depuis cette source : https://x.com/mattshumer_/status/1831767014341538166
edit du 7/09/24 :
Dans une évaluation indépendante, les performances annoncées de Reflection Llama 3.1 70B n'ont pas pu être reproduites. Les tests, utilisant une méthodologie standard et l'API DeepInfra, ont montré des résultats inférieurs à ceux de Meta's Llama 3.1 70B. Aucune différence n'a été observée entre les invites système standard et celles fournies par Glaive lors de tests sur divers modèles, y compris GPT-4o et Claude 3.5 Sonnet. Bien que ces résultats remettent en question les affirmations initiales, les évaluateurs restent ouverts à de futurs tests et sont intéressés par plus de détails sur la méthodologie ayant conduit aux résultats annoncés.