DeepSeek lance son propre générateur d'images d'IA, Janus-Pro

Le modèle R-1 de DeepSeek a récemment attiré l'attention dans le monde entier comme une alternative open-source abordable au modèle o1 d'OpenAI. Peu après, le 27 janvier, la startup chinoise a lancé un autre modèle open-source d'IA pour la génération d'images appelé Janus-Pro. Ce modèle est censé surpasser Dall-E 3 d'OpenAI et Stable Diffusion dans plusieurs critères de performance.

Qu'est-ce que Janus-Pro ?

Janus-Pro est un modèle d'IA multimodal capable de comprendre des images et du texte, et de générer des images à partir de descriptions textuelles. Il améliore le modèle Janus original avec une meilleure méthode d'entraînement, davantage de données, et une version plus grande du modèle. Il produit des résultats plus stables pour les demandes simples, avec une meilleure qualité visuelle et des détails plus riches. 

Détails techniques :

Janus-Pro utilise deux encodeurs visuels distincts pour les tâches de compréhension multimodale et de génération visuelle. Il surpasse d'autres modèles comme Dall-E 3 et Stable Diffusion sur des benchmarks comme GenEval et DPG-Bench.

Comparaison avec Dall-E 3 et Stable Diffusion :

Bien que les benchmarks internes de DeepSeek montrent que Janus-Pro surpasse Dall-E 3 et Stable Diffusion, les tests personnels suggèrent que la qualité des résultats générés par Janus-Pro est moins impressionnante, notamment au niveau des proportions du corps et de la qualité du texte. Les images générées avec Janus-Pro semblent souvent sous-développées par rapport à celles de Dall-E 3. 


Accessibilité :

Janus-Pro est open-source et disponible gratuitement sur HuggingFace pour des usages académiques et commerciaux. Les utilisateurs peuvent tester le modèle en ligne via une démo Gradio ou l'utiliser localement avec des instructions pour le téléchargement.

Limitations et perspectives :

Malgré l'enthousiasme autour de Janus-Pro, il présente des limites notables, notamment une résolution d'image de 384 × 384 et des pertes de reconstruction dues au tokenizer visuel. Cela affecte la qualité générale des images générées. Toutefois, son accessibilité et sa nature open-source en font un concurrent sérieux dans le domaine des modèles génératifs. 

Conclusion

En résumé, bien que Janus-Pro soit prometteur et ait l'avantage d'être open-source, il semble que des améliorations supplémentaires soient nécessaires pour rivaliser efficacement avec les leaders du marché comme Dall-E 3.

0 Commentaires

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Post a Comment (0)

Plus récente Plus ancienne