Китайская исследовательская группа выпустила многопрофильный набор данных «FreeMan» для устранения ограничений 3D-оценки позы человека

Оценка трехмерной структуры человеческого тела на основе реальных сцен является сложной задачей и имеет большое значение для таких областей, как искусственный интеллект, графика и взаимодействие человека с компьютером. Однако существующие трехмерные наборы данных для оценки позы человека обычно собираются в контролируемых условиях на статическом фоне и не отражают разнообразие сценариев реального мира, что ограничивает разработку точных моделей для реальных приложений.

В связи с этим существующие наборы данных, подобные Human3.6M и HuMMan, широко используются для трехмерной оценки позы человека, но они собираются в контролируемых лабораторных условиях и не могут полностью отразить сложность реальных сред. Эти наборы данных имеют ограничения по разнообразию сцен, движению человека и масштабируемости. Исследователи предложили различные модели для трехмерной оценки позы человека, но их эффективность часто снижается при применении к реальным сценам из-за ограничений существующих наборов данных.

Исследовательская группа в Китае запустила «FreeMan» — проект, совместно разработанный командами Китайского университета Гонконга (Шэньчжэнь), Tencent и других учреждений. Его называют инновационным многопроекционным набором данных, целью которого является достижение новых прорывов в области трехмерной оценки позы человека.

FreeMan — это новый крупномасштабный набор данных с несколькими изображениями, предназначенный для устранения ограничений существующих наборов данных при трехмерной оценке позы человека в реальных сценах. FreeMan — это важный вклад, направленный на содействие разработке более точных и надежных моделей.

Одной из характеристик проекта FreeMan является размер и разнообразие его наборов данных. Набор данных состоит из одновременных записей 8 смартфонов в разных сценариях, включая 10 различных сцен и 27 реальных мест, и содержит в общей сложности более 11 миллионов кадров видео. Каждая сцена охватывает различные условия освещения, что делает этот набор данных уникальным ресурсом.

Набор данных FreeMan имеет открытый исходный код и предназначен для содействия разработке крупномасштабных наборов данных для предварительной тренировки, а также обеспечивает новый эталон для оценки позы человека на открытом воздухе в 3D. Этот набор данных не только включает видео, но также предоставляет обширную информацию аннотаций, включая ключевые точки человеческого тела в 2D и 3D, параметры SMPL, ограничивающие рамки и т. д., предоставляя исследователям богатые ресурсы для продвижения исследований в смежных областях.

Стоит отметить, что FreeMan вносит изменения в параметры камеры и масштаб человека, чтобы сделать его более репрезентативным. Исследовательская группа разработала автоматизированный процесс аннотирования для эффективного создания точных 3D-аннотаций на основе собранных данных. Этот процесс включает в себя обнаружение человека, двухмерное обнаружение ключевых точек, трехмерную оценку позы и аннотацию сетки. Полученный набор данных полезен для решения множества задач, включая монокулярную 3D-оценку, преобразование 2D в 3D, многопроекционную 3D-оценку и нейронный рендеринг человеческих объектов.

Исследователи предоставляют всестороннюю базовую оценку FreeMan для решения различных задач. Они сравнили производительность моделей, обученных на FreeMan, с моделями, обученными на Human3.6M и HuMMan. Примечательно, что модель, обученная на FreeMan, показала значительно лучшую производительность при тестировании на наборе данных 3DPW, что подчеркивает превосходную способность FreeMan к обобщению в реальных сценариях.

В эксперименте по оценке позы человека в 3D с несколькими представлениями, по сравнению с моделью, обученной на Human3.6M, модель, обученная на FreeMan, показала лучшую способность к обобщению при тестировании на междоменных наборах данных. Результаты неизменно показывают преимущества разнообразия и масштаба FreeMan.

В эксперименте по преобразованию позы из 2D в 3D проблема FreeMan очевидна, поскольку модель, обученная на этом наборе данных, сталкивается с большими трудностями. Однако когда модель была обучена на всем обучающем наборе FreeMan, ее производительность улучшилась, что показывает потенциал этого набора данных для улучшения производительности модели.

Ожидается, что доступность FreeMan будет способствовать прогрессу в области моделирования человеческого тела, компьютерного зрения и взаимодействия человека с компьютером, устраняя разрыв между контролируемыми лабораторными условиями и сценариями реальной жизни.