Meta vient de lancer un nouvel outil impressionnant appelé SeamlessM4T. Ce modèle d'IA sophistiqué peut transcrire et traduire près de 100 langues, ce qui représente un grand pas en avant pour faire des barrières linguistiques une chose du passé.
L'entreprise affirme que SeamlessM4T, Massively Multilingual and Multimodal Machine Translation, peut convertir la voix en texte et le texte en parole dans près de 100 langues. Elle identifie 100 langues d'entrée et les transforme en 35 langues de sortie pour les fonctions de synthèse vocale et de transcription du texte en parole.
Comme cette technologie est distribuée sous la licence Creative Commons CC BY-NC 4.0, les chercheurs sont libres de l'améliorer. Les informations relatives à SeamlessAlign, qui fait partie de l'ensemble de données de traduction ouvertes de Meta, ont également été mises à disposition en même temps que SeamlessM4T. Contrairement aux grands modèles de traduction existants qui répartissent la traduction entre plusieurs systèmes, SeamlessM4T réalise l'ensemble du travail de traduction en une seule opération, selon Meta, ce qui constitue une "avancée significative".
Meta SeamlessM4T fonctionne assez rapidement
Si SeamlessM4T fonctionne comme prévu, l'un de ses aspects intrigants est sa capacité supposée à détecter l'alternance codique ou la transition entre deux ou plusieurs langues à l'intérieur d'une même phrase. Par exemple, Meta a montré dans une vidéo comment le modèle peut immédiatement faire la distinction entre l'hindi, le télougou et l'anglais.
Meta se targue de pouvoir déterminer instantanément si un locuteur passe d'une langue à l'autre, comme le montre une vidéo captivante dans laquelle le modèle distingue sans effort l'hindi, le télougou et l'anglais. Cette capacité pourrait révolutionner la communication interculturelle et favoriser l'avènement d'un monde où la langue n'est plus une barrière.
"Conformément à notre approche de la science ouverte, nous publions SeamlessM4T sous une licence de recherche afin de permettre aux chercheurs et aux développeurs de s'appuyer sur ce travail. Nous publions également les métadonnées de SeamlessAlign, le plus grand ensemble de données de traduction multimodale ouvert à ce jour, totalisant 270 000 heures d'alignements de parole et de texte", explique Meta.
Pour produire des modèles plus légers et gérer davantage d'informations, Meta a déclaré avoir modifié sa boîte à outils de modélisation de séquences Fairseq pour générer SeamlessM4T.
Selon Meta, elle a créé un système capable de reconnaître les phrases blessantes ou ambiguës lors de la création de SeamlessM4T. Selon la définition donnée par Meta, les mots toxiques sont ceux dont "la traduction peut inciter à la haine, à la violence, au blasphème ou à l'abus". L'objectif est de pouvoir identifier les cas où la toxicité introduite par la traduction de sortie n'existait pas auparavant dans le contenu source.
source :
https://www.ghacks.net/2023/08/23/meet-meta-seamlessm4t-multilangual-translator/