Маленький, но могучий: новые модели ИИ — H2O.ai бросают вызов технологическим гигантам в анализе документов

Маленький, но могучий: новые модели ИИ - H2O.ai бросают вызов технологическим гигантам в анализе документов

H2O.ai, поставщик платформ искусственного интеллекта с открытым исходным кодом, сегодня анонсировал две новые модели языка машинного зрения, разработанные для улучшения анализа документов и задач оптического распознавания символов (OCR).

Модели, названные H2OVL Mississippi-2B и H2OVL-Mississippi-0.8B, демонстрируют конкурентоспособную производительность по сравнению с гораздо более крупными моделями от крупных технологических компаний, потенциально предлагая более эффективное решение для предприятий, работающих с документооборотом.

Давид против Голиафа: как крошечные модели H2O.ai перехитрили технологии giants

Модель H2OVL Mississippi-0.8B, всего с 800 миллионами параметров, превзошла все другие модели, включая те, у которых на миллиарды параметров больше, в задаче распознавания текста OCRBench. Между тем, модель H2OVL Mississippi-2B с 2 миллиардами параметров продемонстрировала высокую общую производительность в ряде тестов зрительно-языковых тестов.

<стр>«Мы разработали модели H2OVL Mississippi как высокопроизводительное, но экономически эффективное решение, приносящее бизнесу OCR на основе ИИ, визуальное понимание и ИИ документов», — сказал Шри Амбати, генеральный директор и основатель H2O.ai в эксклюзивном интервью VentureBeat. «Объединяя передовой мультимодальный ИИ с эффективностью, H2OVL Mississippi предоставляет точные, масштабируемые решения ИИ документов для различных отраслей».</стр> <стр>Выпуск этих моделей знаменует собой значительный шаг в стратегии H2O.ai по повышению доступности технологии ИИ. Предоставляя модели в свободном доступе на Hugging Face, популярной платформе для обмена моделями машинного обучения, H2O.ai позволяет разработчикам и предприятиям изменять и адаптировать модели для конкретных потребностей ИИ документов.</стр>Новая модель H2OVL Mississippi-0.8B от H2O.ai (крайняя справа, выделена желтым) превосходит более крупные модели от технологических гигантов в задачах распознавания текста на наборе данных OCRBench, демонстрируя потенциал меньших, более эффективных моделей ИИ для анализа документов. (Кредит: H2O.ai)

Эффективность встречается с эффективностью: новый подход к обработке документов

Амбати подчеркнул экономические преимущества более мелких специализированных моделей. «Наш подход к генеративным предварительно обученным преобразователям вытекает из наших глубоких инвестиций в Document AI, где мы сотрудничаем с клиентами для извлечения смысла из корпоративных документов», — сказал он. «Эти модели могут работать где угодно, на небольшом пространстве, эффективно и устойчиво, позволяя выполнять тонкую настройку на изображениях и документах, специфичных для домена, за небольшую часть стоимости».

Анонс появился в то время, когда компании ищут более эффективные способы обработки и извлечения информации из больших объемов документов. Традиционные методы OCR и анализа документов часто сталкиваются с некачественными сканами, сложным почерком или сильно измененными документами. Новые модели H2O.ai направлены на решение этих проблем, предлагая более ресурсоэффективную альтернативу более крупным языковым моделям, которые могут быть избыточными для определенных задач, связанных с документами.

Отраслевые аналитики отмечают, что подход H2O.ai может нарушить текущую ситуацию, в которой доминируют технологические гиганты. Сосредоточившись на более мелких, более специализированных моделях, H2O.ai может захватить значительную часть корпоративного рынка, который ценит эффективность и экономичность.

Сравнение средних баллов по восьми тестам отдельных изображений показывает, что новая модель H2OVL Mississippi-2B от H2O.ai (выделена желтым) превосходит нескольких конкурентов, включая предложения от Microsoft и Google. По общей производительности среди моделей языка видения аналогичного размера эта модель уступает только Qwen2 VL-2B. (Источник: H2O.ai)

Открытый исходный код и готовность к корпоративному использованию: стратегия H2O.ai по внедрению ИИ

«В H2O.ai обеспечение доступности ИИ — это не просто идея. Это движение», — сказал Амбати VentureBeat. «Выпустив серию небольших базовых моделей, которые можно легко настроить под конкретные задачи, мы расширяем возможности создания и использования ИИ».

H2O.ai привлекла 256 миллионов долларов от инвесторов, включая Commonwealth Bank, Nvidia, Goldman Sachs и Wells Fargo. Подход компании к открытому исходному коду и фокус на практических, готовых для предприятий решениях ИИ помогли ей создать сообщество из более чем 20 000 организаций и более половины компаний из списка Fortune 500 в качестве клиентов.

Поскольку компании продолжают бороться с цифровой трансформацией и необходимостью извлечения ценности из неструктурированных данных, новые модели языка видения H2O.ai могут стать убедительным вариантом для тех, кто хочет внедрить решения ИИ для документов без вычислительных издержек более крупных моделей. Настоящее испытание будет в реальных приложениях, но демонстрация H2O.ai конкурентоспособной производительности с гораздо меньшими моделями предполагает многообещающее направление для будущего корпоративного ИИ.

Total
1
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость
Meta представляет модель Spirit LM с открытым исходным кодом, которая объединяет текстовые и речевые вводывыводы

Meta представляет модель Spirit LM с открытым исходным кодом, которая объединяет текстовые и речевые вводы/выводы

Следующая новость

Anthropic представляет новые модели искусственного интеллекта Claude и «компьютерное управление»

Читайте также
Mistral выпускает новые модели искусственного интеллекта

Mistral выпускает новые модели искусственного интеллекта, оптимизированные для ноутбуков и телефонов

Французский стартап в области искусственного интеллекта Mistral выпустил свои первые модели генеративного искусственного интеллекта, предназначенные для работы на…
Читать
Проект Worldcoin теперь "World" и представил новую версию устройства "Orb" для сканирования радужки глаз.

Проект Worldcoin теперь «World» и представил новую версию устройства «Orb» для сканирования радужки глаз.

Worldcoin, соучредитель криптопроекта “доказательство личности” Сэма Альтмана, который сканирует глазные яблоки людей, объявил в четверг, что он убрал…
Читать