Автор изображения: Джастин Салливан / Getty Images
Это была бурная неделя для OpenAI, полная увольнений руководителей и крупных мероприятий по сбору средств, но стартап вернулся к работе, пытаясь убедить разработчиков создавать инструменты с использованием своих моделей искусственного интеллекта на Дне разработки в 2024 году. Во вторник компания анонсировала несколько новых инструментов, в том числе публичную бета-версию своего “Realtime API” для создания приложений с голосовыми ответами, генерируемыми искусственным интеллектом, с низкой задержкой. Это не совсем расширенный голосовой режим ChatGPT, но он близок к этому.
На брифинге с журналистами в преддверии мероприятия директор по продуктам OpenAI Кевин Вейл заявил, что недавние увольнения директора по технологиям Миры Мурати и директора по исследованиям Боба Макгрю не повлияют на прогресс компании.
“Я начну с того, что скажу, что Боб и Мира были потрясающими лидерами. Я многому у них научился, и они во многом помогли нам достичь того, чего мы достигли сегодня”, — сказал Вейл. “И еще, мы не собираемся останавливаться на достигнутом”.
В то время как OpenAI проходит очередную модернизацию C-suite – напоминание о суматохе, последовавшей за прошлогодним DevDay, – компания пытается убедить разработчиков, что по-прежнему предлагает лучшую платформу для создания приложений с искусственным интеллектом. Руководители стартапа говорят, что более 3 миллионов разработчиков разрабатывают его модели искусственного интеллекта, но OpenAI работает в условиях растущей конкуренции.
В OpenAI отметили, что за последние два года им удалось сократить расходы разработчиков на доступ к своему API на 99%, хотя, вероятно, это было вызвано тем, что конкуренты, такие как Meta и Google, постоянно снижали свои цены.
Одна из новых функций OpenAI, получившая название Realtime API, даст разработчикам возможность создавать в своих приложениях функции преобразования речи практически в реальном времени с возможностью использования шести тембров, предоставляемых OpenAI. Эти голоса отличаются от тех, что предлагаются для ChatGPT, и разработчики не могут использовать голоса сторонних разработчиков, чтобы избежать проблем с авторскими правами. (Голос, который неоднозначно основан на голосе Скарлетт Йоханссон, нигде не доступен).
Во время брифинга руководитель отдела разработки OpenAI Ромен Хьюэт (Romain Huet) поделился демонстрацией приложения для планирования поездок, созданного с использованием Realtime API. Приложение позволяло пользователям устно обсуждать с ИИ-ассистентом предстоящую поездку в Лондон и получать ответы с низкой задержкой. API Realtime также имеет доступ к ряду инструментов, поэтому приложение смогло добавлять комментарии к карте с расположением ресторанов по мере получения ответа.
В другой раз Хьюэт продемонстрировал, как API Realtime может разговаривать по телефону с человеком, чтобы узнать о заказе еды для мероприятия. В отличие от печально известного Duo от Google, API OpenAI не может напрямую вызывать рестораны или магазины; однако для этого он может интегрироваться с такими вызывающими API, как Twilio. Примечательно, что OpenAI не добавляет раскрытия информации, чтобы его ИИ-модели автоматически идентифицировали себя при подобных звонках, несмотря на то, что эти голоса, сгенерированные ИИ, звучат вполне реалистично. На данный момент, по-видимому, ответственность за раскрытие информации лежит на разработчиках, что может потребоваться в соответствии с новым законом Калифорнии.
В рамках анонсов на DevDay OpenAI также представила усовершенствованную настройку vision в своем API, которая позволит разработчикам использовать изображения, а также текст для точной настройки своих приложений GPT-4o. Теоретически это должно помочь разработчикам повысить производительность GPT-4o для задач, связанных с визуальным пониманием. Глава отдела API продуктов OpenAI Оливье Годеман (Olivier Godement) сообщил TechCrunch, что разработчики не смогут загружать изображения, защищенные авторским правом (например, изображение Дональда Дака), изображения, на которых изображено насилие, или другие изображения, нарушающие политику безопасности OpenAI.
OpenAI стремится соответствовать тому, что уже предлагают его конкуренты в области лицензирования моделей искусственного интеллекта. Его функция оперативного кэширования похожа на функцию, запущенную Anthropic несколько месяцев назад, которая позволяет разработчикам кэшировать часто используемый контекст между вызовами API, сокращая затраты и увеличивая время ожидания. OpenAI утверждает, что разработчики могут сэкономить 50%, используя эту функцию, в то время как Anthropic обещает скидку в 90%.
Наконец, OpenAI предлагает функцию перегонки моделей, позволяющую разработчикам использовать более крупные модели искусственного интеллекта, такие как o1-preview и GPT-4o, для точной настройки небольших моделей, таких как GPT-4o mini. Запуск небольших моделей, как правило, обеспечивает экономию средств по сравнению с запуском более крупных, но эта функция должна позволить разработчикам повысить производительность этих небольших моделей искусственного интеллекта. В рамках проекта model distillation OpenAI запускает инструмент оценки бета-версии, чтобы разработчики могли оценить производительность своих разработок с помощью API OpenAI.
DevDay может поднять большую волну из–за того, что на нем не было анонсов — например, во время прошлогоднего DevDay не было анонсировано никаких новостей о GPT Store. Последнее, что мы слышали, — это то, что OpenAI запускает программу распределения доходов с некоторыми из самых популярных разработчиков GPT, но с тех пор компания почти ничего не анонсировала.
Кроме того, OpenAI заявляет, что не будет выпускать никаких новых моделей искусственного интеллекта во время DevDay в этом году. Разработчикам, ожидающим выхода OpenAI o1 (не предварительной или мини-версии) или модели генерации видео стартапа Sora, придется подождать еще немного.
Источник: techcrunch.com