Enfin ! Un modèle à 7 milliards de paramètres surpasse GPT-4 ! (traduction)

Contexte

Il y a quelques jours, j'ai parlé d'un nouveau modèle open-source à la pointe de la technologie qui surpasse tous les autres modèles, y compris GPT-4.

Ce modèle se nomme SQLCoder-70B.

En résumé, sur la base du récent CodeLlama-70B de Meta, Defog.ai a exploité son propre ensemble de données et a construit un nouveau modèle finement optimisé.

Le résultat ? Eh bien, voyez par vous-même :

 

Le modèle surpasse largement GPT-4 et un large éventail de tâches SQL !

De SQLCoder-70B à SQLCoder-7B

Malheureusement, les modèles à 70 milliards de paramètres restent trop volumineux pour une intégration hors ligne ou une utilisation sur votre ordinateur portable.

Distillation de modèle

La distillation de modèle est un processus d'apprentissage automatique qui permet à un modèle plus petit et plus simple, appelé "élève", d'agir comme un modèle plus grand et plus complexe, appelé "professeur". En apprenant des résultats du professeur, l'élève peut prendre des décisions similaires sans avoir besoin d'être aussi grand ou complexe, ce qui le rend plus rapide et moins cher à utiliser, en particulier sur des appareils tels que les téléphones ou les tablettes. 

SQLCoder-7B

En utilisant la distillation de modèle, Defog a entraîné un modèle plus petit de 7 milliards de paramètres et l'a évalué sur des benchmarks standard.

Le résultat est :

  • un modèle compact 
  • qui performe légèrement moins bien que le modèle SQLCoder à 70 milliards de paramètres,
  • mais qui surpasse toujours GPT-4 dans l'ensemble !
  • avec une performance de 87% (voir le comparatif ci-dessous) !

 

Conclusion

Le succès de SQLCoder-7B illustre parfaitement comment des modèles open-source de niche, lorsqu'ils sont finement ajustés sur la base de grands modèles fondamentaux, peuvent dépasser les capacités de modèles propriétaires comme GPT-4 dans des domaines spécifiques.

Ce modèle, dérivé du volumineux CodeLlama de Meta (70 milliards de paramètres), montre le potentiel des ensembles de données spécialisés et du fine-tuning ciblé pour atteindre des performances exceptionnelles dans des domaines comme les tâches SQL !

On peut s'attendre à ce que de nombreux autres modèles émergent dans les mois à venir, visant à résoudre des problèmes spécifiques avec des modèles open-source petits mais très performants. Cette tendance souligne un changement important vers la création de solutions d'intelligence artificielle qui sont non seulement puissantes, mais également accessibles et adaptables à une large gamme d'appareils et d'applications.

source :

https://medium.com/@boredgeeksociety/finally-7b-parameter-model-beats-gpt-4-732cb0f3321d#bypass

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Plus récente Plus ancienne