Mercredi, Databricks a publié Dolly 2.0, qui serait le premier modèle de langage à grande échelle (ou LLM - large language model) open source suivant des instructions, destiné à un usage commercial, qui a été affiné sur un ensemble de données générées par des humains. Il pourrait constituer une base de départ convaincante pour les concurrents artisanaux de ChatGPT.
Databricks est une société américaine de logiciels d'entreprise fondée en 2013 par les créateurs d'Apache Spark. Elle propose une plateforme web permettant de travailler avec Spark pour le big data et l'apprentissage automatique. En lançant Dolly, Databricks espère permettre aux entreprises de créer et de personnaliser des LLM "sans avoir à payer pour l'accès à l'API ou à partager des données avec des tiers", selon l'article du blog de lancement de Dolly.
Dolly 2.0, son nouveau modèle de 12 milliards de paramètres, est basé sur la famille de modèles pythia d'EleutherAI et exclusivement affiné sur des données d'entraînement (appelées "databricks-dolly-15k") fournies par les employés de Databricks. Ce calibrage lui confère des capacités plus proches de celles de ChatGPT d'OpenAI, qui est plus apte à répondre à des questions et à engager un dialogue en tant que chatbot qu'un LLM brut qui n'a pas été affiné.
Dolly 1.0, sortie en mars, a été confrontée à des restrictions concernant l'utilisation commerciale en raison des données d'entraînement, qui contenaient des résultats de ChatGPT (grâce à Alpaca) et étaient soumises aux conditions de service d'OpenAI. Pour résoudre ce problème, l'équipe de Databricks a cherché à créer un nouvel ensemble de données qui permettrait un usage commercial.
Pour ce faire, Databricks a crowdsourcé 13 000 démonstrations de comportement de suivi d'instructions auprès de plus de 5 000 de ses employés entre mars et avril 2023. Pour encourager la participation, ils ont organisé un concours et défini sept tâches spécifiques pour la génération de données, notamment des questions-réponses ouvertes, des questions-réponses fermées, l'extraction et le résumé d'informations à partir de Wikipédia, le brainstorming, la classification et l'écriture créative.
L'ensemble de données résultant, ainsi que les poids* (weights en anglais voir définition plus bas)du modèle et le code d'entraînement de Dolly, ont été publiés entièrement en open source sous une licence Creative Commons, permettant à quiconque de les utiliser, de les modifier ou de les étendre dans n'importe quel but, y compris pour des applications commerciales.
En revanche, ChatGPT d'OpenAI est un modèle propriétaire qui exige que les utilisateurs paient pour accéder à l'API et adhèrent à des conditions de service spécifiques, ce qui limite potentiellement la flexibilité et les options de personnalisation pour les entreprises et les organisations. Le LLaMA de Meta, un modèle partiellement open source (avec des poids restreints) qui a récemment donné naissance à une vague de produits dérivés après la fuite de ses poids sur BitTorrent, n'autorise pas l'utilisation commerciale.
Sur Mastodon, le chercheur en IA Simon Willison a qualifié Dolly 2.0 de "véritable avancée". M. Willison expérimente souvent des modèles linguistiques open source, dont Dolly. "L'une des choses les plus excitantes à propos de Dolly 2.0 est le jeu d'instructions de réglage fin, qui a été construit à la main par 5 000 employés de Databricks et publié sous licence CC", a écrit M. Willison dans une note de Mastodon.
Si la réaction enthousiaste au modèle LLaMA de Meta, qui n'est que partiellement ouvert, est une bonne illustration, Dolly 2.0 pourrait potentiellement déclencher une nouvelle vague de modèles de langage open source qui ne sont pas entravés par des limitations propriétaires ou des restrictions sur l'utilisation commerciale. Bien que les performances réelles de Dolly ne soient pas encore connues, d'autres améliorations pourraient permettre de faire fonctionner des LLM raisonnablement puissants sur des machines grand public.
"Même si Dolly 2 n'est pas bon, je m'attends à ce que nous voyions bientôt un tas de nouveaux projets équipés de ces données d'entraînement", a déclaré Willison à Ars. "Et certains d'entre eux pourraient produire quelque chose de vraiment utile".
Actuellement, les poids de Dolly sont disponibles sur Hugging Face, et le jeu de données databricks-dolly-15k est disponible sur GitHub.
source :
https://arstechnica.com/information-technology/2023/04/a-really-big-deal-dolly-is-a-free-open-source-chatgpt-style-ai-model/
* weights = Les poids font référence à la gestion des connexions entre deux unités de base au sein d'un réseau neuronal. Pour entraîner ces unités à progresser dans le réseau, les poids des signaux des unités doivent être augmentés ou diminués. (source)
Vulgarisation par chatgpt :
Dans l'apprentissage automatique, les ordinateurs utilisent des algorithmes pour apprendre à effectuer une tâche donnée, comme identifier des images ou prédire des résultats futurs. Pour ce faire, les ordinateurs ont besoin de données d'entraînement, qui sont des exemples de la tâche à accomplir.
Dans ce processus, les "weights" ou poids sont des nombres qui indiquent l'importance relative de chaque donnée d'entrée pour résoudre le problème. Par exemple, si l'on souhaite entraîner un ordinateur pour identifier des images de chats et de chiens, les "weights" indiqueront à l'ordinateur quelles caractéristiques des images sont les plus importantes pour distinguer les chats des chiens, comme la forme des oreilles, la couleur de la fourrure, la longueur de la queue, etc.
Plus précisément, les "weights" sont des nombres qui sont attribués à chaque connexion entre les neurones d'un réseau de neurones artificiels, qui est un type d'algorithme d'apprentissage automatique. Ces nombres sont ajustés au fur et à mesure que l'ordinateur apprend, de sorte que les prédictions deviennent de plus en plus précises.
En somme, les "weights" sont des nombres qui indiquent à l'ordinateur l'importance relative de différentes caractéristiques pour effectuer une tâche donnée, et ils sont ajustés au fur et à mesure que l'ordinateur apprend.