Résumé : L'article évoque des récentes avancées en intelligence artificielle, mettant en lumière des éléments comme GPT-5, le nouvel ASIC B200 de NVIDIA, et les mises à jour de Claude et Gemini. L'auteur soulève des interrogations sur les performances annoncées de ces technologies, mettant en doute certaines affirmations de Jensen Huang et discutant des problèmes de vitesse rencontrés dans l'utilisation des modèles IA. L'accent est mis sur l'importance de l'optimisation des modèles existants pour améliorer leur vitesse de réponse plutôt que de se concentrer uniquement sur l'augmentation des paramètres.
L'actualité concernant l'IA a été riche ces derniers temps. Tout d'abord, Chat GPT-5. Quand Chat GPT-5 sortira-t-il ? Particulièrement parce qu'il semble que Chat GPT-4 a déjà été dépassé par Gemini (du moins à mon avis). Et ce même avant la fantastique mise à jour Gemini 1.5. Sans oublier la récente mise à jour de Claude que je n'ai pas encore eu le temps de tester.
Et puis il y a la nouvelle puce B200. Sur scène, Jensen Huang a déclaré ceci :
La puce GB200 NVL72 offre une augmentation des performances jusqu'à 30 fois supérieure à un nombre équivalent de processeurs graphiques NVIDIA H100 Tensor Core pour les charges de travail d'inférence* LLM, tout en réduisant les coûts et la consommation d'énergie jusqu'à 25 fois.
Je soupçonne toutefois qu'il s'agit d'une exagération, car le site web de Nvidia indique ce qui suit :
DGX B200 offre des performances de pointe, en multipliant par 3 les performances d'entraînement et par 15 les performances d'inférence par rapport aux générations précédentes.
Donc 3 fois les performances d'entraînement et 15 fois les performances d'inférence. Ni l'un ni l'autre ne font 30X. Je suppose que même Nvidia n'est pas capable de digérer les conneries de Jensen Huang.
Quoi qu'il en soit, la façon dont Nvidia procède est intéressante. Tout d'abord, il s'agit d'une puce plus imposante. En fait, il s'agit de 2 puces collées ensemble en utilisant une technologie similaire à celle utilisée par Apple pour la puce M1/2 Ultra. Elles sont donc beaucoup plus rapides que les anciennes puces et peuvent faire fonctionner des IA beaucoup plus puissantes.
La plateforme Blackwell permettra d'entraîner des modèles d'IA à des trillions de paramètres qui feront passer les modèles d'IA génératifs d'aujourd'hui pour des modèles rudimentaires en comparaison
Quoi qu'il en soit, ce qui importe, c'est que, d'après les rumeurs, la technologie GPT comporte de nombreux paramètres. Des billions au moins. Il pourrait même ne pas tenir sur l'un de ces nouveaux B200. J'ai cru entendre le chiffre de 1,7 trillion sur Internet, mais il semble que personne n'en soit certain et que les modèles actuels soient déjà plus gros que cela. Le GPT-5 pourrait compter des centaines de milliards de paramètres.
Mais je vais avancer un argument : cela n'a pas d'importance. Nous n'avons pas besoin de LLM plus grands. Et nous n'avons pas besoin de Chat GPT 5.
J'ai donc commencé à intégrer l'IA dans mes applications avant même l'arrivée de l'API GPT 3.5. J'utilisais GPT 3, avant l'API "chat" moderne. Celle-ci utilisait la complétion de texte. Vous écriviez quelque chose et l'IA complétait ce que vous aviez écrit.
Ce n'était pas si différent de l'API du chat moderne. Vous pouviez dire "Dites-moi toutes les conjugaisons du mot espagnol estar", par exemple, et l'IA le faisait. C'est juste que l'API Chat l'a rendu beaucoup plus explicite. Je suppose que l'API Chat n'est qu'une enveloppe autour de l'IA d'expansion de texte existante.
Quoi qu'il en soit, depuis lors, j'intègre de plus en plus l'IA dans mes applications. Plus récemment, j'ai ajouté une fonctionnalité à mon lecteur de flux Stratum (iOS, Android) pour résumer les vidéos YouTube. J'adore cet outil. En effet, combien de vidéos avez-vous regardées qui durent 20 minutes et qui pourraient être résumées en quelques points ? Si vous êtes comme moi, beaucoup.
Mais maintenant, je travaille sur une nouvelle fonctionnalité : les conjugaisons. C'est pour mon application d'apprentissage des langues Litany (iOS, Android). Je veux que mon application affiche toutes les conjugaisons des verbes.
Et là, j'ai rencontré un problème. Il s'avère qu'il y a beaucoup de conjugaisons. C'est un problème parce que le principal facteur qui détermine le temps nécessaire pour générer une réponse est la taille de sortie. Le fait que le code doive produire autant de conjugaisons signifie qu'il est extrêmement lent.
Je ne sais toujours pas comment j'ai l'intention de résoudre ce problème.
Je pourrais simplement attendre que Gemini me donne le résultat. Je pourrais également utiliser l'API de streaming, mais cela représente beaucoup de travail. J'envisage également de mettre en cache le résultat avant d'en avoir besoin.
Mise à jour : C'est peut-être moi, mais j'ai remarqué que Gemini est devenu un peu plus rapide depuis que j'ai écrit cet article.
Peut-être que ce n'est pas un si gros problème après tout.
Et, vous savez, cette problématique du temps nécessaire à l'obtention d'une réponse n'est pas nouvelle. Il a affecté chacune de mes tâches d'intelligence artificielle. J'irais même jusqu'à dire que la vitesse est le problème numéro un de l'IA. Pas les benchmarks, pas ce que l'on appelle "HellaSwag", mais la vitesse.
C'est également un problème sur l'application Web Gemini. J'apprécie davantage l'application Web Gemini que Chat GPT, mais l'un de ses problèmes est qu'il faut un certain temps avant de pouvoir commencer à générer des résultats.
En fait, ce problème m'a incité à passer de GPT 3.5 à GPT 4 et à Gemini. À l'origine, j'utilisais GPT 3, mais je suis passé à 3.5 parce qu'il était beaucoup moins cher. Puis GPT 4 Turbo est sorti et j'ai lu qu'il était plus rapide, alors je l'ai adopté. Puis il est devenu lent pour une raison ou pour une autre, alors je suis passé à Gemini de Google et celui-ci est tellement plus rapide que GPT 4.
C'est aussi ce que j'attends le plus de Claude 3. Il y a trois modèles de Claude 3 : Opus (le meilleur), Haiku (le plus rapide) et Sonnet (le plus équilibré). Tout le monde parle de Claude 3 Opus. Mais, honnêtement, je suis plus intéressé par Haiku. En partie parce qu'il est si bon marché (seulement 0,25 à 1,00 $ pour un million de jetons), mais aussi parce qu'Anthropic prétend qu'il est "plus intelligent, plus rapide et plus abordable que les autres modèles de sa catégorie d'intelligence". J'aimerais voir cela.
C'est pourquoi, lorsque je regarde toutes ces nouvelles technologies qui promettent des billions de paramètres, je ne peux m'empêcher de penser que tout le monde fait fausse route.
Regardez, regardez. La puissance brute ou les paramètres vous donneront le plus de clics. Tout le monde veut voir un score HellaSwag élevé. Mais ce n'est pas ce qui fait un bon modèle.
Je veux dire, bien sûr, qu'il y a des modèles qui n'ont pas besoin de donner une réponse en temps réel. Mais je ne vois pas très souvent de tels cas d'utilisation, car il s'agit de grands modèles de langage. Ils sont conçus pour fournir un langage naturel et, par conséquent, la plupart du temps, ils sont utilisés pour communiquer avec une personne.
Je dirais que le facteur le plus important pour un grand modèle de langage est la rapidité avec laquelle il peut fournir une réponse. Bien sûr, la taille du modèle ou son efficacité n'est pas nécessairement liée à ses performances. Mais la vitesse est souvent reléguée au second plan et n'est guère améliorée. En conséquence, nous obtenons un produit qui est à peu près aussi rapide que le modèle précédent, mais un peu plus performant dans les tests de référence. Ou pire encore, une régression des performances.
Ce que j'aimerais voir, c'est que les entreprises lèvent le pied de l'accélérateur pendant une seconde et optimisent leurs modèles pour la vitesse. Ne nous donnez pas Chat GPT 5, mais plutôt Chat GPT 4.5. Comme le GPT 4, mais moins cher et plus rapide. Et tout comme GPT 3.5 a tout révolutionné avec ses réponses rapides et bon marché, je pense que GPT 4.5 peut tout révolutionner une fois de plus.
source :
https://andrewzuo.com/we-dont-need-gpt-5-fb17a33ecdd5#bypass
* Une charge de travail d'inférence LLM (Large Language Model) fait référence à la capacité d'un modèle de langage de grande taille, tel que GPT (Generative Pre-trained Transformer), à effectuer des tâches d'inférence. L'inférence consiste à utiliser le modèle entraîné pour générer des prédictions, des réponses ou des résultats à partir de données d'entrée. Dans le contexte des LLM, cela peut inclure des tâches telles que la génération de texte, la traduction automatique, la résumé automatique, la réponse à des questions, etc. Les charges de travail d'inférence LLM sont souvent utilisées dans des applications telles que les systèmes de réponse automatisée, les agents conversationnels, les moteurs de recherche améliorés, etc.