olmOCR un puissant outil open source d'OCR pour vos documents PDF et images


L'Allen Institute for AI a récemment lancé olmOCR, une boîte à outils open source révolutionnaire qui transforme efficacement les PDF et images de documents en texte brut structuré. Basée sur un modèle de langage visuel de 7 milliards de paramètres et fine-tunée sur 260 000 pages PDF, cette technologie utilise une technique innovante d'"ancrage de document" qui combine métadonnées textuelles et analyse d'image pour préserver la structure logique des documents. Contrairement aux outils OCR traditionnels, olmOCR traite un million de pages PDF pour seulement 190 USD, soit 32 fois moins cher que GPT-4o. 

Ce nouvel outil surpasse ses concurrents avec un score d'alignement de 0,875 et améliore significativement l'entraînement des modèles de langage, augmentant la précision moyenne de 1,3 points de pourcentage sur divers benchmarks d'IA. Compatible avec des frameworks d'inférence comme vLLM et SGLang, olmOCR est disponible pour être testé via une page de démonstration en ligne, permettant aux utilisateurs d'expérimenter ses capacités d'extraction de texte à partir de leurs propres documents avant de l'intégrer dans leurs flux de travail ou projets de recherche.

En tant que particulier, vous pouvez utiliser olmOCR pour la conversion de vos documents en texte brut, tout en préservant l'ordre naturel de lecture – un aspect crucial souvent négligé par les solutions traditionnelles d'OCR (Reconnaissance Optique de Caractères).

Les points forts qui distinguent olmOCR :

  • Préservation de la structure : Contrairement aux outils OCR conventionnels, olmOCR maintient l'ordre logique de lecture, même face à des mises en page complexes.
  • Support de contenus complexes : Tableaux, équations mathématiques, écriture manuscrite – olmOCR les traite avec une précision.
  • Entraînement spécialisé : Le modèle a été entraîné sur des articles académiques, de la documentation technique et d'autres références exigeantes.
  • Réduction des hallucinations : Grâce à une technique de prompting unique, olmOCR minimise les erreurs d'interprétation si fréquentes dans d'autres solutions. 

Il est important de noter que la version actuelle d'olmOCR est optimisée pour les documents en anglais. Le support d'autres langues est limité et sera amélioré dans les versions futures. 

Pour ceux qui recherchent des solutions de traitement documentaire à grande échelle, olmOCR offre une boîte à outils complète déployable sur vos propres GPUs.

Vous pouvez tester cet outil ici

source :

https://www.marktechpost.com/2025/02/26/allen-institute-for-ai-released-olmocr-a-high-performance-open-source-toolkit-designed-to-convert-pdfs-and-document-images-into-clean-and-structured-plain-text/

https://github.com/allenai/olmocr

0 Commentaires

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Enregistrer un commentaire

Les commentaires sont validés manuellement avant publication. Il est normal que ceux-ci n'apparaissent pas immédiatement.

Post a Comment (0)

Plus récente Plus ancienne