Новая модель ИИ Meta может переводить речь с более чем 100 языков

Компания Meta* выпустила новую модель искусственного интеллекта, способную переводить речь со 101 языка. Это шаг к синхронному переводу в режиме реального времени, когда слова переводятся сразу после того, как они выходят изо рта собеседника.

Как правило, модели перевода речи используют многоступенчатый подход. Сначала они переводят речь в текст. Затем они переводят этот текст в текст на другом языке. И наконец, переведенный текст превращается в речь на новом языке. Этот метод может быть неэффективным, и на каждом этапе могут возникать ошибки и неправильные переводы. Новая модель компании Meta, получившая название SeamlessM4T, обеспечивает более прямой перевод с речи на одном языке на речь на другом. Модель описана в статье, опубликованной сегодня в журнале Nature.

Seamless может переводить текст с точностью на 23 % выше, чем лучшие из существующих моделей. И хотя другая модель, Google AudioPaLM, технически может переводить больше языков — 113 против 101 у Seamless, — она может переводить их только на английский. SeamlessM4T может переводить на 36 других языков.

Ключевым моментом является процесс, называемый параллельным анализом данных, который находит случаи, когда звук в видео или аудио совпадает с субтитрами на другом языке из просмотренных веб-данных. Модель научилась ассоциировать эти звуки на одном языке с соответствующими фрагментами текста на другом. Это открыло для модели совершенно новый кладезь примеров перевода.

Эта компания создает ИИ для африканских языков

Модели искусственного интеллекта не могут понять африканские языки. Компания Lelapa AI пытается это изменить.

«Компания Meta проделала огромную работу, поддерживая широкий спектр различных функций, таких как преобразование текста в речь, речи в текст, даже автоматическое распознавание речи», — говорит Четан Джайсвал, профессор информатики в Университете Квиннипиак, который не принимал участия в исследовании. «Само по себе количество языков, которые они поддерживают, является огромным достижением».

По словам исследователей, человеческие переводчики по-прежнему являются важной частью процесса перевода, поскольку они могут работать с различными культурными контекстами и обеспечивать передачу одного и того же смысла с одного языка на другой. По словам Линн Боукер, заведующей кафедрой канадских исследований в области перевода, технологий и общества в Университете Лаваля в Квебеке, которая не работала над проектом Seamless, этот шаг очень важен. «Языки — это отражение культур, а культуры имеют свои собственные способы понимания вещей», — говорит она.

По ее словам, когда речь идет о таких сферах, как медицина или юриспруденция, машинный перевод должен тщательно проверяться человеком. В противном случае может возникнуть недопонимание. Например, когда в январе 2021 года Google Translate использовался для перевода информации о вакцине Covid-19, предоставленной Департаментом здравоохранения штата Вирджиния, он перевел «не обязательно» на английском языке в «не обязательно» на испанском, изменив весь смысл сообщения.

Модели ИИ имеют гораздо больше примеров для обучения на одних языках, чем на других. Это означает, что современные модели преобразования речи в речь могут перевести такой язык, как греческий, на английский, где может быть много примеров, но не могут перевести с суахили на греческий. Команда, создавшая Seamless, решила эту проблему, предварительно обучив модель на миллионах часов разговорного аудио на разных языках. Такое предварительное обучение позволило модели распознавать общие закономерности в языке, что облегчило обработку менее распространенных языков, поскольку модель уже имела представление о том, как должен звучать разговорный язык.

Система имеет открытый исходный код, что, как надеются исследователи, побудит других развивать ее возможности. Однако некоторые скептически относятся к тому, насколько полезной она может быть по сравнению с имеющимися альтернативами. «Модель перевода Google не имеет такого открытого исходного кода, как Seamless, но она гораздо более отзывчива и быстра, и это ничего не стоит для академиков», — говорит Джайсвал.

Самое интересное в системе Meta то, что она указывает на возможность мгновенного перевода с одного языка на другой в недалеком будущем, подобно вавилонской рыбе из культового романа Дугласа Адамса «Путеводитель автостопщика по Галактике«. SeamlessM4T быстрее, чем существующие модели, но все же не мгновенный. Однако компания Meta утверждает, что у нее есть новая версия Seamless, которая работает так же быстро, как и человеческие переводчики.

«Хотя такой отложенный перевод — это нормально и полезно, я думаю, что одновременный перевод будет еще полезнее», — говорит Кенни Чжу, директор Арлингтонской лаборатории вычислительной лингвистики при Техасском университете в Арлингтоне, который не имеет отношения к новому исследованию.

Источник: technologyreview

Total
1
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость
NVIDIA - Монстр для геймеров и карманный суперкомпьютер

«Монстр» для геймеров и карманный суперкомпьютер: NVIDIA взрывает CES 2025 революционными AI-новинками

Следующая новость

Президент Трамп отменяет указ Байдена об искусственном интеллекте

Читайте также
Все что нужно знать о DeepSeek

DeepSeek: Все, что нужно знать об этом ИИ чатботе

DeepSeek — это китайская лаборатория ИИ, которая быстро завоевала международную известность благодаря своим мощным моделям искусственного интеллекта. Узнайте о её происхождении, технологиях и влиянии на мировой рынок ИИ.
Читать