В августе Meta представила универсальную модель AI-перевода, способную работать с почти сотней различных языков.
Эта модель, получившая название SeamlessM4T (Massively Multilingual and Multimodal Machine Translation), является попыткой Meta создать нечто вроде универсального переводчика, напоминающего Вавилонскую рыбку из классической научно-фантастической серии Дугласа Адамса «Автостопом по галактике».
Команда, разработавшая инструмент SeamlessM4T, описала его возможности в журнале Nature, где раскрыла, что это продвинутая система, предоставляющая универсальное решение для перевода текста, речи и текста в речь на впечатляющем и растущем количестве языков.
Более 400 лет аудиозаписей
SeamlessM4T, используемая, в частности, для автоматического дублирования видео на Facebook и Instagram, на данный момент поддерживает:
- Перевод речи в речь со 101 языка на 36 языков,
- Перевод речи в текст со 101 на 96 языков,
- Перевод текста в текст для 96 языков,
- Перевод текста в речь с 96 на 36 языков,
- Автоматическое распознавание речи для 96 языков.
Такой подход объединяет процессы, устраняя недостатки традиционных каскадных систем, которые часто требуют использования отдельных подсистем для распознавания речи, перевода и синтеза речи.
Благодаря этому новому подходу, Meta утверждает, что SeamlessM4T превосходит существующие модели, достигая до 23% более высоких показателей BLEU (Bilingual Evaluation Understudy) в точности перевода и демонстрируя устойчивость к шуму фона и различиям в голосах.
Для создания SeamlessM4T компания Meta использовала 4 миллиона часов (более 400 лет) мультиязычных аудиозаписей, полученных из общедоступных интернет-ресурсов. Команда разработала SeamlessAlign, мультимодальный корпус, содержащий более 470,000 часов согласованной речи, и объединила этот датасет с ведущими методами машинного обучения, включая встраивания SONAR (Sentence-level Multimodal and Language-Agnostic Representations), что позволяет мультиязычное и модально-независимое кодирование текстов и речи.
Meta утверждает, что, решая социальные и этические проблемы с помощью защитных механизмов, SeamlessM4T может стать ценным инструментом для глобального общения. Эти защитные механизмы сокращают гендерные предвзятости — ошибки в определении грамматического рода — и смягчают проблему добавленной токсичности, когда оскорбительные слова появляются в переводах, но отсутствуют в оригинальном источнике.
Источник: TechRadar