L'IA ne se heurte pas à un mur. Voici pourquoi


Résumé : Dans cette analyse approfondie, Rafe Brena, expert en intelligence artificielle fort de plus de 30 ans d'expérience en recherche, examine les arguments courants concernant les supposées "limites" de l'IA. Il déconstruit méthodiquement trois obstacles majeurs souvent cités : la pénurie de données d'entraînement "propres", la consommation énergétique excessive, et les défis liés à l'échelle des modèles. Contrairement aux opinions pessimistes, Brena démontre que ces défis ne constituent pas des "murs" infranchissables, mais plutôt des opportunités d'innovation. Il s'appuie sur de nombreux exemples d'avancées techniques récentes, souvent méconnues du grand public, qui améliorent significativement l'efficacité des systèmes d'IA. L'auteur cite notamment le cas révélateur de DeepSeek, une entreprise chinoise ayant développé un modèle performant à une fraction du coût habituel, pour illustrer comment l'innovation technique peut surmonter ces obstacles présumés. Sa conclusion est claire : le progrès de l'IA ne dépend pas uniquement de l'augmentation des ressources, mais surtout d'améliorations techniques continues et d'optimisations intelligentes.

Les avis concernant l'avenir de l'IA sont on ne peut plus partagés. J'ai trouvé des avis très divers, allant des trop optimistes, qui pensent que l'IA atteindra l'AGI (Artificial General Intelligence) dans quelques mois, aux « négationnistes » de l'IA qui pensent que l'IA générative n'est qu'un fiasco coûteux.

Paul Pallaghy affirme que « ...o3 est au-delà de l'humain... », tandis que Will Lockett déclare que « l'IA est officiellement dans une impasse ».

Qui a raison ?

Nous devons examiner les différents arguments pour déterminer qui a raison.

Dans cet article, je me concentrerai sur l'analyse des arguments qui soutiennent que « l'IA se heurte à un mur » ; j'ai déjà abordé les fantasmes trop optimistes concernant les capacités surhumaines de l'IA dans plusieurs articles, comme "Les performances de niveau humain de GPT-4".

Examinons donc les arguments en faveur de l'affirmation selon laquelle l'IA se heurte à un mur.

Je prendrai comme exemple les arguments présentés dans le post Medium « Pourquoi la croissance de l'IA va se heurter à un mur très très bientôt » par Jano le Roux. J'aime le fait qu'il présente ses arguments d'emblée et qu'il essaie ensuite de les étayer au lieu de multiplier des opinions négatives aléatoires. 

Les arguments avancés par M. Le Roux pour soutenir que l'IA se heurte à un mur sont de trois ordres :

  • Les données
  • l'énergie
  • l'échelle

Pour chacun de ces arguments, j'essaierai d'abord de résumer l'argument (tel qu'il est énoncé par Jano le Roux), puis de présenter ses faiblesses.

Le problème des données

Étant donné que les données utilisées pour la formation des LLM proviennent d'Internet, la demande de contenu textuel nouveau et actualisé n'a cessé d'augmenter. Le problème est que cette source abondante est en train de s'épuiser en informations « propres » - où « propres » signifie qu'aucun système d'IA ne les produit.

Non seulement la quasi-totalité du contenu en ligne disponible a déjà été utilisée pour la formation à l'IA, mais de nombreuses sources, comme les journaux, se défendent également contre l'utilisation sans discernement de leur contenu. Des accords ont été conclus, mais ils ajoutent un coût supplémentaire à l'utilisation des données.

Les bonnes données ne sont plus abondantes et gratuites. 

L'utilisation de données artificielles a été suggérée pour la formation, mais de telles « données de qualité humaine » n'ont pas encore été générées. Je pense personnellement que le contenu synthétique ne sera jamais identique au contenu humain à tous égards.

Vous avez maintenant une idée claire du problème des données pour développer les systèmes d'IA.

Que manque-t-il dans ce sombre tableau concernant le manque de données qui limite le développement de l'IA ? Ma réponse est la même que celle que je présenterai pour les deux autres arguments : le Roux part du principe que la formation à l'IA « est telle qu'elle est », sans possibilité d'amélioration substantielle de son efficacité.

Penser que la seule façon d'améliorer l'IA est de consommer plus de données est, bien que ce soit une opinion populaire, tout simplement faux.

Un aspect important est que, comme le dit Sundar Pichai, « les fruits les plus faciles à cueillir ont déjà été ramassés ». Cela signifie que des progrès techniques sont nécessaires, et pas seulement l'injection de plus de données, de plus de formation et de plus d'argent.

Je vous invite à poursuivre la présentation de l'essentiel de mon argumentation :

Ce qui se passe, c'est que le grand public n'est pas du tout conscient des petites améliorations progressives qui, avec le temps, s'additionnent et permettent de réaliser des progrès substantiels.

Ce phénomène est si répandu qu'il aurait dû porter un nom tel que « le principe amoureux » (voir ci-dessous pourquoi ce nom). 

L'engouement pour l'IA se traduit par des gros titres spectaculaires, tels que « L'IA est sur le point d'atteindre l'AGI », mais pas « FLUX 1,58 bits ».

Que diriez-vous de « DeepSeek fait trembler l'industrie de l'IA » comme titre ? Cela attire l'attention, mais ne dit pas exactement quelles améliorations spécifiques ont été mises en œuvre par le produit chinois qui perturbe le marché.

Garrison Lovely de TIME affirme que « les progrès de l'IA sont de plus en plus invisibles » parce que le grand public est de moins en moins capable de comprendre des petites améliorations techniques qui sont de plus en plus complexes, difficiles à expliquer et que l'on ne trouve que dans des documents techniques que la plupart des gens ignoreront (merci à Alberto Romero de nous avoir signalé cet article, qui ne pourrait pas être plus opportun).

Je le comprends : tout le monde est très occupé, et très peu ont le temps et la motivation de se plonger dans des documents techniques. Et ce n'est pas parce que les documents ne sont pas disponibles : L'IA a traditionnellement publié des articles techniques sur l'IA dans le dépôt ArXiv de l'université de Cornell (en plus de leur éventuelle publication dans des revues, sauf que les grandes entreprises ne sont guère incitées à publier au-delà d'ArXiv).

Mais il est clair que la perception de la stagnation de l'IA par le grand public n'est qu'un préjugé. En réalité, il existe de très nombreuses avancées techniques qui sont publiées dans des canaux spécialisés comme ArXiv, mais qui passent inaperçues pour la plupart des gens.

Parmi les avancées récentes permettant d'utiliser plus efficacement les données d'entrée, citons les suivantes (je n'en cite que quelques-unes à titre d'exemple ; je ne veux pas vous ennuyer avec de longues listes) : 

« SwiftLearn », des chercheurs de Huawei, est une méthode d'apprentissage économe en données qui accélère l'apprentissage de modèles en deep learning à l'aide d'un sous-ensemble d'échantillons de données. Ce sous-ensemble est sélectionné sur la base de critères d'importance mesurés sur l'ensemble des données pendant les phases préparatoires. Consultez l'article ArXiv ici.

« CLIP, des chercheurs de l'université du Qatar, vise à « former plus rapidement avec moins de données ». L'idée est d'« affiner et d'améliorer la qualité des données pour améliorer les performances d'apprentissage des modèles plutôt que de redéfinir les architectures des modèles ». Article ArXiv ici.

Dites-moi lesquels de ces travaux de recherche ont été remarqués par le grand public. Je vous réponds : aucun. C'est le problème que j'ai mentionné plus haut : la perception par le public des avancées incrémentales est biaisée et rend ces avancées invisibles.

J'en conclus que le problème de la rareté des données, bien que réel, peut être surmonté par des algorithmes plus efficaces, qui sont activement développés en ce moment même, sans que le grand public (et certains « experts » également) n'en soient conscients. 

Le problème de l'énergie

Un autre argument populaire soutenant l'affirmation selon laquelle « l'IA se heurte à un mur » est que l'entraînement et le fonctionnement de l'IA sont tellement intensifs en termes de calcul que sa consommation d'énergie est gargantuesque, de plus en plus coûteuse et écologiquement criminelle.

Je vois ici deux aspects différents : d'une part, le coût et la disponibilité de l'énergie de l'IA et, d'autre part, l'empreinte et l'impact de l'IA sur l'environnement.

Ces deux aspects constituent des obstacles réels et importants. Au début de ChatGPT, on a constaté que l'empreinte énergétique d'une seule requête ChatGPT était dix fois supérieure à celle d'une recherche Google ordinaire. La tendance la plus récente pour les centres de données d'IA est de les installer à côté de centrales nucléaires pour résoudre le problème de la disponibilité de l'énergie. Le problème est effectivement de taille.

Il est clair à ce stade que continuer à ajouter des quantités de plus en plus importantes d'énergie n'est pas viable. C'est un fait.

Mais qu'est-ce que les améliorations progressives nous apprennent sur cette situation ?

En ce qui concerne la consommation d'énergie, nous pouvons également trouver une multitude de contributions techniques visant à réduire le coût de calcul des tâches d'IA - et la réduction du coût de calcul se traduit par une réduction de la consommation d'énergie. 

Prenons, par exemple, les avancées ci-dessous en matière de réduction des calculs pour les tâches d'intelligence artificielle :

Les chercheurs de Bytedance ont réalisé d'importantes réductions de taille et de calcul pour les LLM texte-image ; une comparaison avec le système de pointe FLUX est illustrée dans cette image tirée de l'article (leur système est représenté en vert) :


Des chercheurs de l'EPF de Suisse ont découvert une topologie informatique qui améliore l'efficacité des calculs pour les tâches d'intelligence artificielle. La topologie qu'ils présentent est appelée « HammingMesh ». Ils affirment que les topologies de réseaux informatiques existantes n'ont pas été conçues pour les charges de travail de l'IA et que plusieurs améliorations peuvent être apportées dans ce cas particulier.

Une spin-off du MIT, « Liquid », a développé un cadre pour créer des modèles de fondation efficaces en utilisant ce qu'ils appellent « Liquid Engine ». Ils affirment que les LLM avec Liquid Engine sont à la fois « efficaces en termes de mémoire et d'énergie ».

Une équipe de Microsoft Research Asia a découvert des méthodes permettant d'améliorer les capacités de raisonnement mathématique dans les petits modèles de manière à ce que leurs performances soient comparables à celles de systèmes beaucoup plus importants. Leur prototype s'appelle « rStar-Math » et suit un « style de raisonnement » similaire à o1 d'OpenAI, mais beaucoup plus efficace.

Tout cela montre que ceux qui prétendent que l'IA ne pourrait s'améliorer qu'en augmentant les coûts de calcul et la consommation d'énergie sont tout simplement déconnectés de la communauté scientifique active.

Le « problème d'échelle »

Jano le Roux appelle « problème d'échelle » l'augmentation du nombre de paramètres, la taille générale des modèles d'IA et les coûts de calcul associés.

Si la seule façon d'améliorer les systèmes d'IA était d'augmenter leur taille, cela ne serait évidemment pas viable. Mais il s'agit là d'une affirmation erronée.

Dans les exemples que j'ai présentés ci-dessus, le travail de ByteDance, ainsi que celui de l'ETH, celui de Microsoft et le « Liquid Engine » du MIT, permettent tous d'améliorer l'efficacité du calcul et de la mémoire.

En outre, plusieurs LLM à haute performance présentés sur les tableaux de classement publics ont réduit la taille (en paramètres) et les coûts de calcul. Mais certains experts choisissent d'ignorer toutes ces évolutions.

Et tout cela avant de considérer le super efficace DeepSeek chinois... 

Qu'en est-il de DeepSeek ?

L'arrivée de DeepSeek sur le devant de la scène a été tout sauf discrète : elle a envoyé la valeur boursière des entreprises d'IA dans une spirale descendante génératrice de panique, encore perceptible aujourd'hui.

DeepSeek n'est pas invisible comme les autres travaux que j'ai mentionnés ci-dessus (il s'est instantanément hissé au rang de №1 sur l'App Store d'Apple, avec 2,6 millions de téléchargements, ainsi que sur le Play Store de Google), mais c'est en raison de l'impact qu'il a eu sur le marché boursier, et non en raison d'une avancée ou d'une découverte particulière en matière d'IA incarnée par DeepSeek R1 (leur équivalent d'OpenAI o1).

Ce qui a attiré l'attention, ce n'est pas la technologie qu'il renferme (qu'aucun d'entre nous ne connaît en détail), mais le fait que son coût de développement était plusieurs centaines de fois inférieur (moins de 6 millions) à celui du développement d'un LLM classique à la pointe de la technologie. Ils ont utilisé 8 fois moins de GPU que les standards occidentaux. Il a été formé en moins de deux mois, contre plus de six mois pour la plupart des grands modèles d'IA.

Les craintes géopolitiques n'ont pas manqué non plus : les Chinois nous ont-ils vraiment devancés ? Sommes-nous restés à la traîne ? L'IA américaine n'est-elle pas censée être la plus avancée ? L'arrivée de DeepSeek a été qualifiée de « moment Spoutnik ».

Mais à vrai dire, nous ne savons presque rien de la « sauce secrète » de DeepSeek. L'architecture de DeepSeek est similaire à celle de Llama de Meta. Ils utilisent l'apprentissage par renforcement dans le cadre du processus d'entraînement. Il n'y a rien de nouveau ici : il s'agit simplement de faire comme si de rien n'était. 

Je suppose que les modèles d'IA de DeepSeek sont simplement des travaux scientifiques et techniques très bien conçus, réalisés par des personnes extrêmement talentueuses. La Chine compte autant d'étudiants en sciences honorifiques que l'Amérique en général. Ils disposent d'un vivier de talents exceptionnellement important. Et cela se voit dans des cas comme celui-ci.

Alors, s'il vous plaît, ne dites pas que l'IA se heurte à un mur sans d'abord jeter un coup d'œil à quelques centaines d'articles liés à ArXiv.

0 Commentaires

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Post a Comment (0)

Plus récente Plus ancienne