Современные генераторы изображений искусственного интеллекта быстро развиваются, и недостатки, которые были видны с первого взгляда в первые дни, такие как деформированные руки и ноги, беспорядочный текст и странный шум изображения, постепенно сглаживаются инженерными средствами. Сегодня многих синтетических изображений достаточно, чтобы обмануть невооруженный взгляд обычных людей и бесконтрольно распространиться в социальных сетях. Однако исследование, опубликованное в журнале Science, указывает на то, что эти модели до сих пор по сути «не понимают», как свет и геометрия действуют в реальном мире, а физические законы становятся одним из самых надежных инструментов для выявления подлинных и поддельных изображений.

Исследователи отметили, что пока измеряются отражение, тень, линия перспективы и другие, казалось бы, тривиальные детали, все еще есть шанс обнаружить, казалось бы, идеальную фотографию с помощью ИИ. Этот метод проверки, основанный на непротиворечивости физического мира, рассматривается экспертами в области цифровой криминалистики как важная линия защиты, позволяющая отличить настоящие фотографии от подделок ИИ в эпоху «глубоких фейков». Ранняя идентификация часто полагалась на невооруженный глаз, чтобы уловить грубые технические недостатки, но по мере того, как качество производства улучшалось, изображения начали все больше соответствовать человеческим субъективным ожиданиям «реальности» — яркие цвета, драматические композиции и полные кинематографических ощущений. Эта «сфабрикованная драма» позволила людям ослабить бдительность.
Хани Фарид, профессор Калифорнийского университета в Беркли, широко известный как один из основателей области цифровой криминалистики, эксплуатирует еще одну «скрытую слабость» изображений ИИ. Его подход заключается не в поиске очевидных визуальных ошибок, а в сравнении сгенерированных изображений с геометрическими соотношениями, которые должны появиться в реальном мире. По его мнению, существующие модели генерации изображений еще не усвоили по-настоящему основную концепцию художественного класса – точку схода.
В качестве примера возьмем созданное ИИ изображение «солдат, марширующих по коридору». На картине можно увидеть некоторые очевидные недостатки, такие как размытый и трудночитаемый текст на стене, необъяснимые цепи и т. д. Но более важная подсказка скрыта в плитках на земле: по принципу перспективы параллельные линии в реальности (например, швы напольной плитки и деревянного пола) должны расширяться и сходиться к одной и той же точке схода на картине. Если вы нарисуете линии вдоль этих структур с помощью инструмента «Линия», вы сможете проверить, встречаются ли они на расстоянии, как на реальной фотографии, что даст вам первоначальное представление о том, заслуживает ли изображение доверия.

Подобные геометрические соотношения применимы и к отражениям. Исследования показывают, что, хотя сегодняшние генеративные модели уже могут синтезировать воду или зеркальные отражения, которых достаточно, чтобы обмануть человеческий глаз, проблемы будут обнаруживаться, пока вы берете в руки линейку для их измерения. В реальном мире линии, соединяющие определенную точку объекта и соответствующую ему точку в отражении, должны быть параллельны друг другу и указывать на одну и ту же точку схода после продления; если кажется, что эти линии имеют чрезмерные отклонения, это, вероятно, означает, что это составное изображение.
Тени, отбрасываемые солнцем, также создают дополнительные возможности для такого рода испытаний. Поскольку Солнце находится очень далеко от Земли, можно приблизительно считать, что солнечный свет, падающий на землю, является параллельным светом. Согласно этой предпосылке, линия между определенной точкой объекта и соответствующей ей точкой в тени также должна иметь возможность расширяться и сходиться в точке схода. Если линии теней разных объектов на фотографии не могут указывать на последовательное геометрическое соотношение, это, скорее всего, нарушает основные законы оптики.
В настоящее время трудно предсказать, когда и смогут ли генеративные модели фундаментально преодолеть эти ошибки физического уровня. По сравнению с недостатками, которые в первые дни было легко различить невооруженным глазом, «геометрическая проверка», основанная на перспективе и свете, требует от наблюдателей тратить больше времени и энергии, что намного превышает ежедневный порог бдительности среднего пользователя социальных сетей. Некоторые исследователи даже полагают, что глубокое понимание таких физических правил может оказаться за пределами возможностей современных господствующих генеративных моделей.

Помимо этой работы, эксперты также предупреждают пользователей, что им следует быть осторожными в отношении «распознавания ИИ с помощью ИИ». Некоторые инструменты автоматического обнаружения действительно могут быть более надежными, чем неподготовленный человеческий глаз при определенных условиях, но как только распределение входного изображения и его обучающих данных станет слишком различным, алгоритм будет подвержен ошибкам и даже систематическим смещениям. Другими словами, полная передача задачи проверки другой модели «черного ящика» не является надежным решением.
Связанное с этим исследование также сделало интригующий вывод: подтвердить, что фотография «настоящая», может быть труднее, чем идентифицировать «поддельную». Исследование показало, что чем дольше зритель смотрел на изображение и не находил недостатков, тем выше вероятность того, что это настоящая фотография. С этой точки зрения само по себе «ошибок не обнаружено» может стать одним из доказательств подлинности.