Представленное в прошлый четверг семейство моделей PaliGemma 2 может анализировать изображения, позволяя ИИ генерировать подписи и отвечать на вопросы о людях, которых он «видит» на фотографиях.
«PaliGemma 2 генерирует подробные, контекстуально релевантные подписи к изображениям, — написал Google в блоге, которым поделился с TechCrunch, — выходя за рамки простого определения объектов и описывая действия, эмоции и общую сюжетную линию».
Распознавание эмоций не работает «из коробки», и PaliGemma 2 нужно доработать для этой цели. Тем не менее, эксперты, с которыми побеседовал TechCrunch, были встревожены перспективой общедоступного детектора эмоций.
«Меня это очень беспокоит», — сказала TechCrunch Сандра Wachter профессор этики данных и искусственного интеллекта в Оксфордском интернет-институте. «Мне кажется проблематичным предполагать, что мы можем „читать“ эмоции людей. Это всё равно что спрашивать совета у магического шара».
В течение многих лет стартапы и технологические гиганты пытались создать ИИ, способный распознавать эмоции во всём — от обучения продажам до предотвращения несчастных случаев. Некоторые утверждают, что им это удалось, но наука стоит на шатком эмпирическом фундаменте.
Большинство детекторов эмоций основаны на ранних работах Пола Экмана, психолога, который предположил, что у людей есть шесть основных эмоций: гнев, удивление, отвращение, удовольствие, страх и печаль. Однако последующие исследования вызвали сомнения в гипотезе Экмана, продемонстрировав, что люди из разных социальных групп по-разному выражают свои чувства.
«В общем случае распознавание эмоций невозможно, потому что люди испытывают эмоции сложным образом, — сказал TechCrunch Майк Кук, научный сотрудник Университета Королевы Марии, специализирующийся на искусственном интеллекте. — Конечно, мы думаем, что можем понять, что чувствуют другие люди, просто взглянув на них, и многие люди на протяжении многих лет пытались это сделать, например, шпионские агентства или маркетинговые компании. Я уверен, что в некоторых случаях можно обнаружить некоторые общие признаки, но мы никогда не сможем полностью «решить» эту проблему».
Неудивительно, что системы распознавания эмоций, как правило, ненадёжны и подвержены предубеждениям разработчиков. В исследовании Массачусетского технологического института 2020 года учёные показали, что модели распознавания лиц могут непреднамеренно отдавать предпочтение определённым выражениям, например улыбке. Более поздние исследования показывают, что модели распознавания эмоций чаще распознают негативные эмоции на лицах чернокожих людей, чем на лицах белых.
Google заявляет, что провела “обширное тестирование” для оценки демографических предубеждений в PaliGemma 2 и обнаружила ”низкий уровень токсичности и ненормативной лексики» по сравнению с отраслевыми тестами. Но компания не предоставила полный список используемых ею тестов и не указала, какие типы тестов были выполнены.
Единственный эталонный тест, о котором сообщил Google, — это FairFace, набор из десятков тысяч портретов людей. Компания утверждает, что PaliGemma 2 хорошо показал себя в FairFace. Но некоторые исследователи критиковали этот эталонный тест как показатель предвзятости, отмечая, что в FairFace представлена лишь небольшая часть расовых групп.
«Интерпретация эмоций — довольно субъективный процесс, который выходит за рамки использования визуальных средств и тесно связан с личным и культурным контекстом», — сказала Хейди Кхлааф, главный научный сотрудник в области искусственного интеллекта в AI Now Institute, некоммерческой организации, которая изучает влияние искусственного интеллекта на общество. «Помимо ИИ, исследования показали, что мы не можем определять эмоции только по чертам лица».
Системы распознавания эмоций вызвали недовольство регулирующих органов за рубежом, которые стремятся ограничить использование этой технологии в условиях повышенного риска. Закон об искусственном интеллекте, основной законодательный акт об искусственном интеллекте в ЕС, запрещает школам и работодателям использовать детекторы эмоций (но не правоохранительным органам).
Самое большое опасение, связанное с открытыми моделями, такими как PaliGemma 2, которая доступна на нескольких хостингах, включая платформу для разработки ИИ Hugging Face, заключается в том, что ими будут злоупотреблять или использовать не по назначению, что может привести к реальным последствиям.
«Если эта так называемая эмоциональная идентификация основана на псевдонаучных предположениях, то есть серьёзные последствия того, как эта способность может быть использована для дальнейшей — и ложной — дискриминации маргинализированных групп, например, в правоохранительных органах, кадровых службах, при управлении границами и так далее», — сказал Хлааф.
На вопрос об опасности публичного выпуска PaliGemma 2 представитель Google ответил, что компания поддерживает свои тесты на «представление вреда» в том, что касается ответов на визуальные вопросы и субтитров. «Мы провели тщательную оценку моделей PaliGemma 2 с точки зрения этики и безопасности, в том числе безопасности детей и контента», — добавили они.
Wachter не уверен, что этого достаточно.
«Ответственные инновации означают, что вы думаете о последствиях с первого дня, как заходите в свою лабораторию, и продолжаете делать это на протяжении всего жизненного цикла продукта, — сказала она. — Я могу представить множество потенциальных проблем [с такими моделями], которые могут привести к антиутопическому будущему, где ваши эмоции определяют, получите ли вы работу, кредит и поступите ли в университет».