Sony выпускает новый набор контрольных данных для искусственного интеллекта, чтобы помочь моделям компьютерного зрения снизить смещение

В ответ на распространенную проблему предвзятости в текущих визуальных моделях искусственного интеллекта команда Sony AI недавно выпустила новый набор данных под названием «Fair Human-Centric Image Benchmark (FHIBE)», направленный на содействие стандартизации тестирования на справедливость и сбора этических данных.

Все изображения в этом наборе данных были собраны с моего согласия и охватывают 81 страну и регион по всему миру. Он содержит в общей сложности 10 318 изображений и 1981 независимый объект. Каждое изображение снабжено подробными аннотациями, включая профессиональную информацию, такую как определения границ, маски сегментации и параметры камеры, чтобы разработчикам было проще провести детальную оценку модели.

Алиса Сян, руководитель глобального управления искусственным интеллектом в Sony AI, заявила, что недоразумением в области компьютерного зрения является то, что модели могут объективно отражать реальность из-за их зависимости от данных и алгоритмов. Фактически, смещение данных в процессе обучения модели напрямую повлияет на реальную производительность. Например, в Китае некоторые системы распознавания лиц мобильных телефонов когда-то содержали недостаточное количество азиатских лиц в обучающих данных, из-за чего члены семьи случайно разблокировали устройство и совершали платежи, что создавало угрозу безопасности. Кроме того, существующие визуальные модели также имели проблемы, такие как ошибочное отнесение женщин-врачей к медсестрам или непреднамеренное усиление профессиональных, расовых и гендерных стереотипов.

Раньше большинство наборов данных компьютерного зрения, используемых для оценки справедливости, не получали согласия испытуемых и даже сканировали изображения непосредственно с интернет-платформ, что вызывало множество споров об авторских правах и конфиденциальности. Напротив, весь сбор данных FHIBE имеет полностью публичные записи о процессах согласия и компенсации и считается установлением нового этического стандарта для отрасли.

На основе теста FHIBE команда Sony AI обнаружила, что точность некоторых моделей снижается при работе с обозначенными местоимениями пола (например, «Она/Ее/Ее») из-за разнообразия причесок. Модель также может необоснованно связывать преступную деятельность с определенными этническими группами в задаче признания профессии. Команда подчеркнула, что FHIBE может помочь разработчикам своевременно обнаружить и исправить эти отклонения, побудить отрасль уделять больше внимания этике и справедливости при сборе данных, а также побудить сотрудников исследований и разработок вкладывать больше ресурсов в улучшение инноваций на уровне данных.

В настоящее время, хотя федеральный уровень США еще не ввел политику, конкретно поддерживающую этику и справедливость ИИ, Закон ЕС об ИИ и соответствующие правила в некоторых штатах США начали требовать пересмотра алгоритмической предвзятости в областях высокого риска. Группа Sony внедрила набор данных FHIBE в процесс оценки этики ИИ и активно проверяет справедливость своих бизнес-моделей на соответствие кодексу этики ИИ.

Алиса Сян считает, что «нигилизм данных» становится все более распространенным в отрасли, а практика FHIBE показывает, что технология искусственного интеллекта может быть разработана полностью на основе согласованных и компенсированных данных. Хотя нынешний масштаб FHIBE все еще невелик и недостаточен для поддержки обучения на больших данных, его значение состоит в том, чтобы обеспечить демонстрацию методов для отрасли и привлечь больше внимания к инновациям на уровне данных, что по-прежнему является важной проблемой, которую необходимо решить в современной области искусственного интеллекта.