DeepSeek-V3: le modèle sans capacité de raisonnement le plus performant

Résumé : Le modèle DeepSeek V3-0324 non-reasoning se distingue comme la première solution open source dominant les benchmarks, atteignant 66% au GPQA Diamond et surpassant des modèles concurrents comme GPT-4o et Gemini 2.0 Pro Experimental. Cette performance remarquable s'accompagne de perspectives prometteuses, notamment le développement prochain du modèle DeepSeek-R2, qui devrait offrir de meilleures capacités de codage et de raisonnement multilingue, tout en s'inscrivant dans la stratégie de DeepSeek de proposer des modèles performants et économiquement compétitifs dans un écosystème d'IA chinois hautement concurrentiel.

DeepSeek a annoncé lundi une nouvelle mise à jour de son modèle d'IA universel DeepSeek-V3. Le modèle mis à jour « DeepSeek V3-0324 » se classe désormais en tête des benchmarks de tous les modèles sans raisonnement.

Artificial Analysis, une plateforme qui compare les performances des modèles d'IA, a affirmé : "C'est la première fois qu'un modèle à poids ouverts se positionne en tête des modèles sans raisonnement, ce qui constitue une avancée majeure pour l'open source". Le modèle a atteint le score le plus élevé parmi tous les modèles non-raisonnants sur l''Indice d'Intelligence' de la plateforme.

Dans le benchmark GPQA Diamond, le modèle a obtenu un score de 66%, surpassant GPT-4o (54%) et Gemini 2.0 Pro Experimental (62%) et égalant Claude 3.7 Sonnet d'Anthropic (66%). Ce benchmark évalue les modèles d'IA sur des questions scientifiques complexes de niveau universitaire.

Par ailleurs, le modèle a surpassé tous les autres modèles sans raisonnement sur plusieurs points de référence. Cependant, il est toujours derrière DeepSeek-R1, OpenAI's o1, o3-mini, et d'autres modèles de raisonnement.

Les modèles basés sur le raisonnement prennent plus de temps pour effectuer un processus de réflexion étape par étape avant de répondre, alors que les modèles sans raisonnement privilégient la rapidité et répondent souvent immédiatement.

Les performances de DeepSeek V3-0324 sur l'ensemble des benchmarks les plus courants peuvent être consultées sur le site Artificial Analysis.

Il semblerait également que DeepSeek V3-0324 soit le modèle de base du futur modèle de raisonnement DeepSeek-R2. Récemment, Reuters a rapporté que DeepSeek prévoyait de lancer R2 « le plus tôt possible ». L'entreprise avait initialement prévu de le lancer au début du mois de mai, mais elle envisage maintenant de le faire plus tôt.

Ce modèle devrait permettre de produire de « meilleurs codages » et de raisonner dans des langues autres que l'anglais. « Cette version est sans doute encore plus impressionnante que R1 et indique probablement que R2 va constituer un autre bond significatif en avant », a ajouté Artificial Analysis.

Il y a quelques mois, DeepSeek a bouleversé l'écosystème de l'IA et a eu un impact significatif sur la capitalisation boursière de NVIDIA en proposant des performances de pointe malgré l'utilisation d'un nombre restreint de GPU pour l'entraînement.

En plus de leurs performances impressionnantes, les modèles de DeepSeek sont également appréciés pour leur faible coût. Il a récemment été annoncé que DeepSeek offrirait des réductions pour sa plateforme API en dehors des heures de pointe - de 16h30 à 00h30 tous les jours.

Dans un récent billet sur GitHub, l'entreprise a déclaré une marge bénéficiaire quotidienne théorique de 545 % pour ses services d'inférence, malgré les limites de la monétisation et les prix réduits.

Si les modèles d'IA chinois rivalisent avec ceux des États-Unis, une concurrence féroce existe également entre les principaux acteurs en Chine. Les grandes entreprises technologiques comme Alibaba, Baidu, Tencent et ByteDance annoncent régulièrement des modèles d'IA dans de nombreux domaines, chacune essayant de surpasser l'autre.

traduction de :

https://analyticsindiamag.com/ai-news-updates/deepseek-v3-is-the-highest-scoring-non-reasoning-model-a-milestone-for-open-source/

DeepSeek-V3: le modèle sans capacité de raisonnement le plus performant – 'Une avancée majeure pour l'open source'

Enregistrer un commentaire

ChatGPT est fou de ces deux symboles : < >