Как раз к Хэллоуину 2024 года компания Meta представила Meta Spirit LM — первую в компании модель многомодального языка с открытым исходным кодом, способную легко интегрировать текстовые и речевые вводы и выводы. </стр> <стр>Таким образом, он напрямую конкурирует с GPT-4o от OpenAI (также изначально мультимодальным) и другими мультимодальными моделями, такими как EVI 2 от Hume, а также со специализированными предложениями преобразования текста в речь и речи в текст, такими как ElevenLabs.
Разработанный командой Meta’s Fundamental AI Research (FAIR), Spirit LM направлен на устранение ограничений существующих голосовых возможностей ИИ, предлагая более выразительную и естественно звучащую генерацию речи, одновременно обучаясь задачам в различных модальностях, таких как автоматическое распознавание речи (ASR), преобразование текста в речь (TTS) и классификация речи.
К сожалению для предпринимателей и руководителей бизнеса, в настоящее время модель доступна только для некоммерческого использования в соответствии с лицензией Meta FAIR Noncommercial Research License, которая предоставляет пользователям право использовать, воспроизводить, изменять и создавать производные работы моделей Meta Spirit LM, но только в некоммерческих целях. Любое распространение этих моделей или производных также должно соответствовать некоммерческому ограничению.
Новый подход к тексту и речи
Традиционные модели ИИ для голоса полагаются на автоматическое распознавание речи для обработки устного ввода перед его синтезом с языковой моделью, которая затем преобразуется в речь с помощью методов преобразования текста в речь.
Хотя этот процесс эффективен, он часто жертвует выразительными качествами, присущими человеческой речи, такими как тон и эмоции. Meta Spirit LM представляет более продвинутое решение, включающее фонетические, тональные и тональные маркеры для преодоления этих ограничений.
Meta выпустила две версии Spirit LM:
• Spirit LM Base: Использует фонетические маркеры для обработки и генерации речи.
• Spirit LM Expressive: Включает дополнительные токены для высоты тона и тона, что позволяет модели улавливать более тонкие эмоциональные состояния, такие как волнение или грусть, и отражать их в сгенерированной речи.
Обе модели обучаются на сочетании наборов текстовых и речевых данных, что позволяет Spirit LM выполнять кросс-модальные задачи, такие как преобразование речи в текст и текста в речь, сохраняя при этом естественную выразительность речи в своих выходных данных.
Открытый исходный код некоммерческий — доступен только для исследований
В соответствии с обязательством Meta по отношению к открытой науке компания сделала Spirit LM полностью открытым исходным кодом, предоставив исследователям и разработчикам весовые коэффициенты модели, код и вспомогательную документацию для дальнейшего развития.
Meta надеется, что открытая природа Spirit LM побудит сообщество исследователей ИИ изучать новые методы интеграции речи и текста в системы ИИ.
В релиз также включена исследовательская работа, в которой подробно описывается архитектура и возможности модели.
Марк Цукерберг, генеральный директор Meta, был ярым сторонником ИИ с открытым исходным кодом, заявив в недавнем открытом письме, что ИИ имеет потенциал для «повышения производительности труда человека, креативности и качества жизни», одновременно ускоряя достижения в таких областях, как медицинские исследования и научные открытия.
Приложения и будущий потенциал
Meta Spirit LM предназначен для изучения новых задач в различных модальностях, таких как как:
• <сильный>Автоматическое распознавание речи (ASR): преобразование устной речи в письменный текст.
• Преобразование текста в речь (TTS): создание устной речи из письменного текста.
• Классификация речи: определение и категоризация речи на основе ее содержания или эмоционального тона.
Модель Spirit LM Expressive идет на шаг дальше, включая эмоциональные сигналы в генерацию речи.
Например, он может обнаруживать и отражать в своих выходных данных такие эмоциональные состояния, как гнев, удивление или радость, делая взаимодействие с ИИ более человечным и увлекательным.
Это имеет значительные последствия для таких приложений, как виртуальные помощники, боты для обслуживания клиентов и другие интерактивные системы искусственного интеллекта, где важна более тонкая и выразительная коммуникация.
Более широкие усилия
Meta Spirit LM является частью более широкого набора исследовательских инструментов и моделей, которые Meta FAIR выпускает для общественности. Сюда входит обновление модели Meta Segment Anything Model 2.1 (SAM 2.1) для сегментации изображений и видео, которая используется в таких дисциплинах, как медицинская визуализация и метеорология, а также исследования по повышению эффективности больших языковых моделей.
Главная цель Meta — достичь передового машинного интеллекта (AMI) с упором на разработку систем ИИ, которые одновременно являются мощными и доступными.
Команда FAIR делится своими исследованиями уже более десяти лет, стремясь развивать ИИ таким образом, чтобы это приносило пользу не только технологическому сообществу, но и обществу в целом. Spirit LM является ключевым компонентом этих усилий, поддерживая открытую науку и воспроизводимость, одновременно расширяя границы того, чего может достичь ИИ в обработке естественного языка.
Что дальше для Spirit LM?
С выпуском Meta Spirit LM компания Meta делает значительный шаг вперед в интеграции речи и текста в системы ИИ.
Предлагая более естественный и выразительный подход к речи, генерируемой ИИ, и делая модель с открытым исходным кодом, Meta позволяет более широкому исследовательскому сообществу исследовать новые возможности для мультимодальных приложений ИИ.
Будь то в ASR, TTS или за их пределами, Spirit LM представляет собой многообещающий прогресс в области машинного обучения, обладающий потенциалом для создания нового поколения взаимодействий с искусственным интеллектом, более похожих на человеческие.