Искусственный интеллект

3 минуты чтения

Забудьте про чат. ИИ, который может слышать, видеть и кликать, уже здесь

09.10.2024

Новые голосовые и видеофункции сигнализируют о переходе от текстовых чатботов к чему-то большему.

ИИ, который может слышать, видеть и кликать 1

Новые голосовые и видеофункции сигнализируют о переходе от текстовых чатботов к чему-то большему.

Общение с чатботом на базе ИИ — это так 2022. Новейшие технологии искусственного интеллекта используют мультимодальные модели, способные одновременно обрабатывать несколько типов данных: изображения, аудио и текст.

Пример номер один: NotebookLM от Google. Это исследовательский инструмент, который компания без особой шумихи запустила год назад. Несколько недель назад Google добавила в NotebookLM инструмент для создания подкастов под названием Audio Overview, позволяющий пользователям создавать подкасты на любую тему. Добавьте, например, ссылку на свой профиль LinkedIn, и ведущие подкаста на базе ИИ будут девять минут повышать вашу самооценку. Эта функция неожиданно стала вирусным хитом.

Чтобы дать вам представление, я создал подкаст о нашем юбилейном 125-м выпуске журнала. ИИ отлично справляется с выбором некоторых highlights из журнала и передачей их сути.

За очень короткое время мультимодальный генеративный контент также значительно улучшился. В сентябре 2022 года я рассказывал о первой модели Meta для преобразования текста в видео — Make-A-Video. По сравнению с сегодняшними технологиями те видео выглядят неуклюжими и нелепыми. Meta только что анонсировала своего конкурента OpenAI Sora под названием Movie Gen. Этот инструмент позволяет пользователям создавать пользовательские видео и звуки с помощью текстовых запросов, редактировать существующие видео и превращать изображения в видео.

Меняется и способ взаимодействия с системами ИИ, становясь менее зависимым от текста. Новый интерфейс Canvas от OpenAI позволяет пользователям совместно работать над проектами с ChatGPT. Вместо традиционного окна чата, которое требует от пользователей нескольких раундов подсказок и регенерации текста для получения желаемого результата, Canvas позволяет выбирать фрагменты текста или кода для редактирования.

Даже поиск получает мультимодальное обновление. Помимо внедрения рекламы в обзоры ИИ, Google запустила новую функцию, позволяющую пользователям загружать видео и использовать голос для поиска. В демонстрации на Google I/O компания показала, как можно открыть приложение Google Lens, снять видео плавающих в аквариуме рыб и задать вопрос о них. Модель Gemini от Google затем выполнит поиск в интернете и предложит ответ в форме AI-резюме от Google.

Что объединяет эти функции, так это более интерактивный, настраиваемый интерфейс и возможность применять инструменты ИИ к различным типам исходного материала. NotebookLM стал первым за долгое время продуктом на базе ИИ, который вызвал у меня удивление и восторг, отчасти из-за того, насколько разными, реалистичными и неожиданными были голоса ИИ. Но тот факт, что Audio Overviews от NotebookLM стал хитом, несмотря на то, что был второстепенной функцией, скрытой внутри более крупного продукта, просто показывает, что разработчики ИИ на самом деле не знают, что делают. Сейчас трудно в это поверить, но сам ChatGPT был для OpenAI неожиданным хитом.

Мы находимся в нескольких годах от начала многомиллиардного бума генеративного ИИ. Огромные инвестиции в ИИ способствовали быстрому улучшению качества создаваемого контента. Но мы еще не видели killer-приложения, и эти новые мультимодальные приложения являются результатом огромного давления, под которым находятся компании, занимающиеся ИИ, чтобы зарабатывать деньги и достигать результатов. Технологические компании бросают в людей различные инструменты ИИ и смотрят, что из этого получится.

Теперь прочитайте остальную часть The Algorithm

Глубокое обучение

ИИ-генерируемые изображения могут научить роботов действовать Модели ИИ, генерирующие изображения, были использованы для создания обучающих данных для роботов. Новая система под названием Genima настраивает модель генерации изображений Stable Diffusion для прорисовки движений роботов, помогая направлять их как в симуляциях, так и в реальном мире.

В чём важность: Genima может упростить обучение различных типов роботов выполнению задач — от механических манипуляторов до человекоподобных роботов и беспилотных автомобилей. Это также может помочь улучшить AI-веб-агентов, следующее поколение инструментов ИИ, которые могут выполнять сложные задачи с минимальным контролем, делая их лучше в прокрутке и кликах.

Добавить комментарий Отменить ответ

Предыдущая новость

Обзоры

Мастерство создания промптов: Как написать эффективные запросы для AI

08.10.2024

Следующая новость

Нейросети

Осваиваем промпт-инжиниринг в 2024 году

09.10.2024

Pinterest предлагает genAI для генерации изображений товаров

Автор изображения: Pinterest Сайт для создания изображений и покупок Pinterest – это новейшая технологическая компания, которая предлагает своим…

AI Тренды

01.10.2024

Читать

Meta представляет модель Spirit LM с открытым исходным кодом, которая объединяет текстовые и речевые вводывыводы

3 мин

Искусственный интеллект

Meta представляет модель Spirit LM с открытым исходным кодом, которая объединяет текстовые и речевые вводы/выводы

Содержание Скрыть Новый подход к тексту и речиОткрытый исходный код некоммерческий — доступен только для исследованийПриложения и будущий…

AI Тренды

19.10.2024

Читать

Компании не подтверждают намерения о прозрачности обучения ИИ согласно законам Калифорнии

4 мин

Искусственный интеллект

Компании не подтверждают намерения о прозрачности обучения ИИ согласно законам Калифорнии

В воскресенье губернатор Калифорнии Гэвин Ньюсом подписал законопроект AB-2013, требующий от компаний, разрабатывающих системы искусственного интеллекта, публиковать сводную…

AI Тренды

05.10.2024

Читать

а вы уже смотрели Топ-новостей от AI Тренды

Маленький, но могучий: новые модели ИИ – H2O.ai бросают вызов технологическим гигантам в анализе документов

Meta представляет модель Spirit LM с открытым исходным кодом, которая объединяет текстовые и речевые вводы/выводы

Claud: Все, что вам нужно знать об ИИ Anthropic

Популярные Метки