Meta представляет модель Spirit LM с открытым исходным кодом, которая объединяет текстовые и речевые вводы/выводы

Meta представляет модель Spirit LM с открытым исходным кодом, которая объединяет текстовые и речевые вводывыводы

Как раз к Хэллоуину 2024 года компания Meta представила Meta Spirit LM — первую в компании модель многомодального языка с открытым исходным кодом, способную легко интегрировать текстовые и речевые вводы и выводы. </стр> <стр>Таким образом, он напрямую конкурирует с GPT-4o от OpenAI (также изначально мультимодальным) и другими мультимодальными моделями, такими как EVI 2 от Hume, а также со специализированными предложениями преобразования текста в речь и речи в текст, такими как ElevenLabs.

Разработанный командой Meta’s Fundamental AI Research (FAIR), Spirit LM направлен на устранение ограничений существующих голосовых возможностей ИИ, предлагая более выразительную и естественно звучащую генерацию речи, одновременно обучаясь задачам в различных модальностях, таких как автоматическое распознавание речи (ASR), преобразование текста в речь (TTS) и классификация речи.

К сожалению для предпринимателей и руководителей бизнеса, в настоящее время модель доступна только для некоммерческого использования в соответствии с лицензией Meta FAIR Noncommercial Research License, которая предоставляет пользователям право использовать, воспроизводить, изменять и создавать производные работы моделей Meta Spirit LM, но только в некоммерческих целях. Любое распространение этих моделей или производных также должно соответствовать некоммерческому ограничению.

Новый подход к тексту и речи

Традиционные модели ИИ для голоса полагаются на автоматическое распознавание речи для обработки устного ввода перед его синтезом с языковой моделью, которая затем преобразуется в речь с помощью методов преобразования текста в речь.

Хотя этот процесс эффективен, он часто жертвует выразительными качествами, присущими человеческой речи, такими как тон и эмоции. Meta Spirit LM представляет более продвинутое решение, включающее фонетические, тональные и тональные маркеры для преодоления этих ограничений.

Meta выпустила две версии Spirit LM:

Spirit LM Base: Использует фонетические маркеры для обработки и генерации речи.

Spirit LM Expressive: Включает дополнительные токены для высоты тона и тона, что позволяет модели улавливать более тонкие эмоциональные состояния, такие как волнение или грусть, и отражать их в сгенерированной речи.

Обе модели обучаются на сочетании наборов текстовых и речевых данных, что позволяет Spirit LM выполнять кросс-модальные задачи, такие как преобразование речи в текст и текста в речь, сохраняя при этом естественную выразительность речи в своих выходных данных.

Открытый исходный код некоммерческий — доступен только для исследований

В соответствии с обязательством Meta по отношению к открытой науке компания сделала Spirit LM полностью открытым исходным кодом, предоставив исследователям и разработчикам весовые коэффициенты модели, код и вспомогательную документацию для дальнейшего развития.

Meta надеется, что открытая природа Spirit LM побудит сообщество исследователей ИИ изучать новые методы интеграции речи и текста в системы ИИ.

В релиз также включена исследовательская работа, в которой подробно описывается архитектура и возможности модели.

Марк Цукерберг, генеральный директор Meta, был ярым сторонником ИИ с открытым исходным кодом, заявив в недавнем открытом письме, что ИИ имеет потенциал для «повышения производительности труда человека, креативности и качества жизни», одновременно ускоряя достижения в таких областях, как медицинские исследования и научные открытия.

Приложения и будущий потенциал

Meta Spirit LM предназначен для изучения новых задач в различных модальностях, таких как как:

• <сильный>Автоматическое распознавание речи (ASR): преобразование устной речи в письменный текст.

Преобразование текста в речь (TTS): создание устной речи из письменного текста.

Классификация речи: определение и категоризация речи на основе ее содержания или эмоционального тона.

Модель Spirit LM Expressive идет на шаг дальше, включая эмоциональные сигналы в генерацию речи.

Например, он может обнаруживать и отражать в своих выходных данных такие эмоциональные состояния, как гнев, удивление или радость, делая взаимодействие с ИИ более человечным и увлекательным.

Это имеет значительные последствия для таких приложений, как виртуальные помощники, боты для обслуживания клиентов и другие интерактивные системы искусственного интеллекта, где важна более тонкая и выразительная коммуникация.

Более широкие усилия

Meta Spirit LM является частью более широкого набора исследовательских инструментов и моделей, которые Meta FAIR выпускает для общественности. Сюда входит обновление модели Meta Segment Anything Model 2.1 (SAM 2.1) для сегментации изображений и видео, которая используется в таких дисциплинах, как медицинская визуализация и метеорология, а также исследования по повышению эффективности больших языковых моделей.

Главная цель Meta — достичь передового машинного интеллекта (AMI) с упором на разработку систем ИИ, которые одновременно являются мощными и доступными.

Команда FAIR делится своими исследованиями уже более десяти лет, стремясь развивать ИИ таким образом, чтобы это приносило пользу не только технологическому сообществу, но и обществу в целом. Spirit LM является ключевым компонентом этих усилий, поддерживая открытую науку и воспроизводимость, одновременно расширяя границы того, чего может достичь ИИ в обработке естественного языка.

Что дальше для Spirit LM?

С выпуском Meta Spirit LM компания Meta делает значительный шаг вперед в интеграции речи и текста в системы ИИ.

Предлагая более естественный и выразительный подход к речи, генерируемой ИИ, и делая модель с открытым исходным кодом, Meta позволяет более широкому исследовательскому сообществу исследовать новые возможности для мультимодальных приложений ИИ.

Будь то в ASR, TTS или за их пределами, Spirit LM представляет собой многообещающий прогресс в области машинного обучения, обладающий потенциалом для создания нового поколения взаимодействий с искусственным интеллектом, более похожих на человеческие.

Total
1
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость
Claud: Все, что вам нужно знать об ИИ Anthropic

Claud: Все, что вам нужно знать об ИИ Anthropic

Следующая новость
Маленький, но могучий: новые модели ИИ - H2O.ai бросают вызов технологическим гигантам в анализе документов

Маленький, но могучий: новые модели ИИ — H2O.ai бросают вызов технологическим гигантам в анализе документов

Читайте также
Runway выделяет $5 млн на финансирование до 100 фильмов созданным ИИ

Runway выделяет $5 млн на финансирование до 100 фильмов с использованием видео с ИИ

Создатели видео с искусственным интеллектом должны верить, что создатели фильмов будут использовать их модели в процессе производства. Иначе…
Читать