Meta представляет модель Spirit LM с открытым исходным кодом, которая объединяет текстовые и речевые вводы/выводы

Meta представляет модель Spirit LM с открытым исходным кодом, которая объединяет текстовые и речевые вводывыводы

Как раз к Хэллоуину 2024 года компания Meta представила Meta Spirit LM — первую в компании модель многомодального языка с открытым исходным кодом, способную легко интегрировать текстовые и речевые вводы и выводы. </стр> <стр>Таким образом, он напрямую конкурирует с GPT-4o от OpenAI (также изначально мультимодальным) и другими мультимодальными моделями, такими как EVI 2 от Hume, а также со специализированными предложениями преобразования текста в речь и речи в текст, такими как ElevenLabs.

Разработанный командой Meta’s Fundamental AI Research (FAIR), Spirit LM направлен на устранение ограничений существующих голосовых возможностей ИИ, предлагая более выразительную и естественно звучащую генерацию речи, одновременно обучаясь задачам в различных модальностях, таких как автоматическое распознавание речи (ASR), преобразование текста в речь (TTS) и классификация речи.

К сожалению для предпринимателей и руководителей бизнеса, в настоящее время модель доступна только для некоммерческого использования в соответствии с лицензией Meta FAIR Noncommercial Research License, которая предоставляет пользователям право использовать, воспроизводить, изменять и создавать производные работы моделей Meta Spirit LM, но только в некоммерческих целях. Любое распространение этих моделей или производных также должно соответствовать некоммерческому ограничению.

Новый подход к тексту и речи

Традиционные модели ИИ для голоса полагаются на автоматическое распознавание речи для обработки устного ввода перед его синтезом с языковой моделью, которая затем преобразуется в речь с помощью методов преобразования текста в речь.

Хотя этот процесс эффективен, он часто жертвует выразительными качествами, присущими человеческой речи, такими как тон и эмоции. Meta Spirit LM представляет более продвинутое решение, включающее фонетические, тональные и тональные маркеры для преодоления этих ограничений.

Meta выпустила две версии Spirit LM:

Spirit LM Base: Использует фонетические маркеры для обработки и генерации речи.

Spirit LM Expressive: Включает дополнительные токены для высоты тона и тона, что позволяет модели улавливать более тонкие эмоциональные состояния, такие как волнение или грусть, и отражать их в сгенерированной речи.

Обе модели обучаются на сочетании наборов текстовых и речевых данных, что позволяет Spirit LM выполнять кросс-модальные задачи, такие как преобразование речи в текст и текста в речь, сохраняя при этом естественную выразительность речи в своих выходных данных.

Открытый исходный код некоммерческий — доступен только для исследований

В соответствии с обязательством Meta по отношению к открытой науке компания сделала Spirit LM полностью открытым исходным кодом, предоставив исследователям и разработчикам весовые коэффициенты модели, код и вспомогательную документацию для дальнейшего развития.

Meta надеется, что открытая природа Spirit LM побудит сообщество исследователей ИИ изучать новые методы интеграции речи и текста в системы ИИ.

В релиз также включена исследовательская работа, в которой подробно описывается архитектура и возможности модели.

Марк Цукерберг, генеральный директор Meta, был ярым сторонником ИИ с открытым исходным кодом, заявив в недавнем открытом письме, что ИИ имеет потенциал для «повышения производительности труда человека, креативности и качества жизни», одновременно ускоряя достижения в таких областях, как медицинские исследования и научные открытия.

Приложения и будущий потенциал

Meta Spirit LM предназначен для изучения новых задач в различных модальностях, таких как как:

• <сильный>Автоматическое распознавание речи (ASR): преобразование устной речи в письменный текст.

Преобразование текста в речь (TTS): создание устной речи из письменного текста.

Классификация речи: определение и категоризация речи на основе ее содержания или эмоционального тона.

Модель Spirit LM Expressive идет на шаг дальше, включая эмоциональные сигналы в генерацию речи.

Например, он может обнаруживать и отражать в своих выходных данных такие эмоциональные состояния, как гнев, удивление или радость, делая взаимодействие с ИИ более человечным и увлекательным.

Это имеет значительные последствия для таких приложений, как виртуальные помощники, боты для обслуживания клиентов и другие интерактивные системы искусственного интеллекта, где важна более тонкая и выразительная коммуникация.

Более широкие усилия

Meta Spirit LM является частью более широкого набора исследовательских инструментов и моделей, которые Meta FAIR выпускает для общественности. Сюда входит обновление модели Meta Segment Anything Model 2.1 (SAM 2.1) для сегментации изображений и видео, которая используется в таких дисциплинах, как медицинская визуализация и метеорология, а также исследования по повышению эффективности больших языковых моделей.

Главная цель Meta — достичь передового машинного интеллекта (AMI) с упором на разработку систем ИИ, которые одновременно являются мощными и доступными.

Команда FAIR делится своими исследованиями уже более десяти лет, стремясь развивать ИИ таким образом, чтобы это приносило пользу не только технологическому сообществу, но и обществу в целом. Spirit LM является ключевым компонентом этих усилий, поддерживая открытую науку и воспроизводимость, одновременно расширяя границы того, чего может достичь ИИ в обработке естественного языка.

Что дальше для Spirit LM?

С выпуском Meta Spirit LM компания Meta делает значительный шаг вперед в интеграции речи и текста в системы ИИ.

Предлагая более естественный и выразительный подход к речи, генерируемой ИИ, и делая модель с открытым исходным кодом, Meta позволяет более широкому исследовательскому сообществу исследовать новые возможности для мультимодальных приложений ИИ.

Будь то в ASR, TTS или за их пределами, Spirit LM представляет собой многообещающий прогресс в области машинного обучения, обладающий потенциалом для создания нового поколения взаимодействий с искусственным интеллектом, более похожих на человеческие.

Total
1
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость
Claud: Все, что вам нужно знать об ИИ Anthropic

Claud: Все, что вам нужно знать об ИИ Anthropic

Следующая новость
Маленький, но могучий: новые модели ИИ - H2O.ai бросают вызов технологическим гигантам в анализе документов

Маленький, но могучий: новые модели ИИ – H2O.ai бросают вызов технологическим гигантам в анализе документов

Читайте также
Маленький, но могучий: новые модели ИИ - H2O.ai бросают вызов технологическим гигантам в анализе документов

Маленький, но могучий: новые модели ИИ – H2O.ai бросают вызов технологическим гигантам в анализе документов

H2O.ai, поставщик платформ искусственного интеллекта с открытым исходным кодом, сегодня анонсировал две новые модели языка машинного зрения, разработанные…
Читать

Raspberry Pi запускает модуль камеры для приложений ИИ, основанных на зрении

Raspberry Pi, компания, продающая крошечные, дешевые, одноплатные компьютеры, выпускает дополнение, которое откроет несколько вариантов использования – и да,…
Читать