Новые голосовые и видеофункции сигнализируют о переходе от текстовых чатботов к чему-то большему.
Общение с чатботом на базе ИИ — это так 2022. Новейшие технологии искусственного интеллекта используют мультимодальные модели, способные одновременно обрабатывать несколько типов данных: изображения, аудио и текст.
Пример номер один: NotebookLM от Google. Это исследовательский инструмент, который компания без особой шумихи запустила год назад. Несколько недель назад Google добавила в NotebookLM инструмент для создания подкастов под названием Audio Overview, позволяющий пользователям создавать подкасты на любую тему. Добавьте, например, ссылку на свой профиль LinkedIn, и ведущие подкаста на базе ИИ будут девять минут повышать вашу самооценку. Эта функция неожиданно стала вирусным хитом.
Чтобы дать вам представление, я создал подкаст о нашем юбилейном 125-м выпуске журнала. ИИ отлично справляется с выбором некоторых highlights из журнала и передачей их сути.
За очень короткое время мультимодальный генеративный контент также значительно улучшился. В сентябре 2022 года я рассказывал о первой модели Meta для преобразования текста в видео — Make-A-Video. По сравнению с сегодняшними технологиями те видео выглядят неуклюжими и нелепыми. Meta только что анонсировала своего конкурента OpenAI Sora под названием Movie Gen. Этот инструмент позволяет пользователям создавать пользовательские видео и звуки с помощью текстовых запросов, редактировать существующие видео и превращать изображения в видео.
Меняется и способ взаимодействия с системами ИИ, становясь менее зависимым от текста. Новый интерфейс Canvas от OpenAI позволяет пользователям совместно работать над проектами с ChatGPT. Вместо традиционного окна чата, которое требует от пользователей нескольких раундов подсказок и регенерации текста для получения желаемого результата, Canvas позволяет выбирать фрагменты текста или кода для редактирования.
Даже поиск получает мультимодальное обновление. Помимо внедрения рекламы в обзоры ИИ, Google запустила новую функцию, позволяющую пользователям загружать видео и использовать голос для поиска. В демонстрации на Google I/O компания показала, как можно открыть приложение Google Lens, снять видео плавающих в аквариуме рыб и задать вопрос о них. Модель Gemini от Google затем выполнит поиск в интернете и предложит ответ в форме AI-резюме от Google.
Что объединяет эти функции, так это более интерактивный, настраиваемый интерфейс и возможность применять инструменты ИИ к различным типам исходного материала. NotebookLM стал первым за долгое время продуктом на базе ИИ, который вызвал у меня удивление и восторг, отчасти из-за того, насколько разными, реалистичными и неожиданными были голоса ИИ. Но тот факт, что Audio Overviews от NotebookLM стал хитом, несмотря на то, что был второстепенной функцией, скрытой внутри более крупного продукта, просто показывает, что разработчики ИИ на самом деле не знают, что делают. Сейчас трудно в это поверить, но сам ChatGPT был для OpenAI неожиданным хитом.
Мы находимся в нескольких годах от начала многомиллиардного бума генеративного ИИ. Огромные инвестиции в ИИ способствовали быстрому улучшению качества создаваемого контента. Но мы еще не видели killer-приложения, и эти новые мультимодальные приложения являются результатом огромного давления, под которым находятся компании, занимающиеся ИИ, чтобы зарабатывать деньги и достигать результатов. Технологические компании бросают в людей различные инструменты ИИ и смотрят, что из этого получится.
Теперь прочитайте остальную часть The Algorithm
Глубокое обучение
ИИ-генерируемые изображения могут научить роботов действовать Модели ИИ, генерирующие изображения, были использованы для создания обучающих данных для роботов. Новая система под названием Genima настраивает модель генерации изображений Stable Diffusion для прорисовки движений роботов, помогая направлять их как в симуляциях, так и в реальном мире.
В чём важность: Genima может упростить обучение различных типов роботов выполнению задач — от механических манипуляторов до человекоподобных роботов и беспилотных автомобилей. Это также может помочь улучшить AI-веб-агентов, следующее поколение инструментов ИИ, которые могут выполнять сложные задачи с минимальным контролем, делая их лучше в прокрутке и кликах.