Айво Эвертс, Databricks: Улучшение ИИ с открытым исходным кодом и улучшение управления данными

Улучшение ИИ с открытым исходным кодом и улучшение управления данными

 

В преддверии выставки AI & Big Data Expo Europe журналисты AI News встретились с Иво Эвертсом, старшим архитектором решений в Databricks, чтобы обсудить несколько ключевых разработок, которые определят будущее ИИ с открытым исходным кодом и управления данными.

Айво Эвертс, Databricks: Улучшение ИИ с открытым исходным кодом и улучшение управления данными

Один из Databricks’ заметным достижением является модель DBRX, которая установила новый стандарт для открытых больших языковых моделей (LLM).

“После выпуска DBRX превзошел все другие ведущие открытые модели на стандартных тестах и ​​имеет до 2 раз более быстрый вывод, чем такие модели, как Llama2-70B», — объясняет Эвертс. «Она была обучена более эффективно благодаря различным технологическим достижениям.

“С точки зрения качества мы считаем, что DBRX является одной из лучших моделей с открытым исходным кодом, и когда мы говорим о ‘лучших’ это означает широкий спектр отраслевых эталонов, включая понимание языка (MMLU), программирование (HumanEval) и математику (GSM8K).”

Модель ИИ с открытым исходным кодом направлена ​​на то, чтобы “демократизировать обучение пользовательских LLM за пределы небольшой горстки поставщиков моделей и показать организациям, что они могут обучать LLM мирового класса на своих данных экономически эффективным способом.”

В соответствии со своей приверженностью открытым экосистемам, Databricks также открыла исходный код Unity Catalog.

“Открытый исходный код Unity Catalog повышает его внедрение на облачных платформах (например, AWS, Azure) и локальных инфраструктурах», — отмечает Эвертс. «Эта гибкость позволяет организациям единообразно применять политики управления данными независимо от того, где хранятся или обрабатываются данные.”

Каталог Unity решает проблемы разрастания данных и непоследовательного контроля доступа с помощью различных функций:

  1. Централизованное управление доступом к данным: “Каталог Unity централизует управление активами данных, позволяя организациям управлять контролем доступа унифицированным образом,” утверждает Эвертс.
  2. Управление доступом на основе ролей (RBAC):По словам Эвертса, Unity Catalog “реализует управление доступом на основе ролей (RBAC), позволяя организациям назначать роли и разрешения на основе профилей пользователей.”
  3. Происхождение данных и аудит: Эта функция “помогает организациям отслеживать использование данных и зависимости, упрощая выявление и устранение избыточных или устаревших данных,” объясняет Эвертс. Он добавляет, что он также “регистрирует все доступы к данным и изменения, предоставляя подробный аудиторский след для обеспечения соответствия политикам безопасности данных.”
  4. Поддержка кросс-облачных и гибридных сред: Эвертс отмечает, что Unity Catalog “предназначен для управления данными в многооблачных и гибридных средах” и “гарантирует единообразное управление данными, независимо от того, где они находятся.”

Компания представила Databricks AI/BI, новый продукт бизнес-аналитики, который использует генеративный ИИ для улучшения исследования и визуализации данных. Эвертс считает, что “действительно интеллектуальное решение BI должно понимать уникальную семантику и нюансы бизнеса, чтобы эффективно отвечать на вопросы бизнес-пользователей.”

Система AI/BI включает два ключевых компонента:

  1. Панели мониторинга: Эвертс описывает это как “интерфейс с низким кодом на базе ИИ для создания и распространения быстрых интерактивных панелей мониторинга.” Они включают в себя “стандартные функции BI, такие как визуализация, перекрестная фильтрация и периодические отчеты без необходимости дополнительных служб управления.”
  2. Genie:Эвертс объясняет это как «разговорный интерфейс для решения специальных и дополнительных вопросов с помощью естественного языка». Он добавляет, что он «обучается на основе базовых данных для создания адаптивных визуализаций и предложений в ответ на запросы пользователей, улучшаясь со временем за счет обратной связи и предлагая аналитикам инструменты для уточнения своих результатов».

Эвертс утверждает, что Databricks AI/BI разработан для обеспечения «глубокого понимания семантики ваших данных», что позволяет каждому в организации проводить самостоятельный анализ данных. Он отмечает, что она работает на основе сложной системы искусственного интеллекта, которая непрерывно обучается на основе использования всего стека данных организации, включая конвейеры ETL, происхождение и другие запросы.

Databricks также представила Mosaic AI, которую Эвертс описывает как “комплексную платформу для создания, развертывания и управления приложениями машинного обучения и генеративного ИИ, интегрирующую корпоративные данные для повышения производительности и управления.”

Mosaic AI предлагает несколько ключевых компонентов, которые Эвертс описывает:

  1. Унифицированный инструментарий: Предоставляет “инструменты для создания, развертывания, оценки и управления решениями ИИ и МО, поддерживающими прогностические модели и генеративный ИИ приложения.”
  2. Генеративные шаблоны ИИ: “Поддерживает быстрое проектирование, поисковую расширенную генерацию (RAG), тонкую настройку и предварительное обучение, предлагая гибкость по мере развития бизнес-потребностей.”
  3. Централизованное управление моделями:“Model Serving обеспечивает централизованное развертывание, управление и запросы к моделям ИИ, включая пользовательские модели машинного обучения и базовые модели.”
  4. Мониторинг и управление: “Lakehouse Monitoring и Unity Catalog обеспечивают комплексный мониторинг, управление и отслеживание происхождения на протяжении всего жизненного цикла ИИ.”
  5. Экономически эффективные пользовательские LLM: “Позволяет обучать и обслуживать пользовательские большие языковые модели по значительно более низкой цене, адаптированные к конкретным организационным домены.”

Эвертс подчеркивает, что подход Mosaic AI к тонкой настройке и кастомизации базовых моделей включает в себя уникальные функции, такие как «быстрое время запуска» за счет «использования кэширования базовой модели в кластере», «оперативная оценка», где пользователи могут «отслеживать, как изменяются ответы модели на протяжении всего процесса обучения», и поддержка “пользовательских предварительно обученных контрольных точек.”

В основе этих инноваций лежит платформа Data Intelligence, которая, по словам Эвертса, “трансформирует управление данными, используя модели ИИ для получения глубокого понимания семантики корпоративных данных.” Платформа объединяет возможности озер данных и хранилищ данных, использует технологию Delta Lake для обработки данных в реальном времени и включает Delta Sharing для безопасного обмена данными через организационные границы.

Эвертс объясняет, что платформа Data Intelligence играет решающую роль в поддержке новых инициатив в области ИИ и обмена данными, предоставляя:

  1. Единая платформа данных и ИИ, которая “объединяет возможности озер данных и хранилищ данных в единую архитектуру.”
  2. Delta Lake для обработки данных в реальном времени, обеспечивая “надежное управление данными, транзакции ACID и обработку данных в реальном времени.”
  3. Сотрудничество и обмен данными через Delta Sharing, что обеспечивает “безопасный и открытый обмен данными между организациями границы.”
  4. Интегрированная поддержка машинного обучения и разработки моделей ИИ с такими популярными библиотеками, как MLflow, PyTorch и TensorFlow.
  5. Масштабируемость и производительность благодаря своей облачной архитектуре и движку Photon, “оптимизированному движку выполнения запросов.”

Как ключевой спонсор ИИ & На выставке Big Data Expo Europe компания Databricks планирует продемонстрировать свои решения в области ИИ с открытым исходным кодом и управления данными во время мероприятия.

“На нашем стенде мы также покажем, как создать и развернуть — с помощью приложений Lakehouse — пользовательское приложение GenAI с нуля, используя модели с открытым исходным кодом из Hugging Face и данные из Unity Catalog», — говорит Эвертс.

«С нашим приложением GenAI вы можете создать собственную анимационную картинку, и все это будет работать на платформе Data Intelligence Platform.”

Теги: ai, ai expo, искусственный интеллект, платформа data intelligence, databricks, dbrx, ivo everts, большие языковые модели, llm, mosaic ai, open source, open-source, unity catalog

Источник: www.artificialintelligence-news.com

Total
0
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость

Бэзил Фаруки, BMC Software: Как разработать стратегию работы с данными и ИИ

Следующая новость

Нехудожественные книги, исследующие влияние ИИ на общество

Читайте также