Пентагон планирует разрешить компаниям, занимающимся искусственным интеллектом, обучать модели на секретном data

По данным MIT Technology Review, Министерство обороны США планирует серьезный сдвиг: создание высококонфиденциальной среды обучения для компаний, занимающихся генеративным искусственным интеллектом, чтобы они могли обучать военные версии крупных моделей на секретных данных военной разведки. Это означает, что модели, которые изначально только «читали» и «ответили на вопросы» в конфиденциальной среде, в будущем могут напрямую использовать конфиденциальные данные в качестве учебного материала, тем самым «записывая» конфиденциальную информацию в саму модель.

Некоторые модели генеративного ИИ, такие как Claude от Anthropic, уже используются в секретных средах для ответа на вопросы и анализа помощи, в том числе по иранским целям. Однако в настоящее время эти модели обрабатывают конфиденциальную информацию только на основе существующих возможностей и не будут повторно использовать данные для обучения и обновления самих моделей. Если разрешить обучение на секретных данных, ожидается, что модель будет более точной и эффективной при выполнении конкретных военных задач, но она также создаст беспрецедентные риски для безопасности.

Неназванный представитель Министерства обороны США заявил, что обучение специальной военной модели на секретных данных, как ожидается, значительно улучшит ее производительность и надежность в конкретных миссиях. Этот план реализуется на фоне растущего спроса на более мощные модели искусственного интеллекта в вооруженных силах США: Пентагон достиг соглашения с OpenAI и xAI Маска о запуске своих моделей в секретной среде, а также реализует новую стратегию искусственного интеллекта, направленную на превращение вооруженных сил США в «боевую силу, ориентированную на искусственный интеллект» в ответ на эскалацию конфликта с Ираном. На момент публикации Пентагон официально не прокомментировал этот план тренировок.

По словам двух человек, знакомых с соответствующими режимами работы, вышеуказанное обучение будет организовано в центре обработки данных, сертифицированном для секретных проектов, где определенная версия модели ИИ будет сочетаться с секретными данными в той же безопасной среде. По словам представителя министерства обороны, хотя право собственности на данные остается за Министерством обороны США, в редких случаях сотрудникам компании, занимающейся искусственным интеллектом, также может быть разрешен доступ к конфиденциальным данным, если соответствующий персонал имеет соответствующий уровень допуска. Прежде чем непосредственно коснуться секретных данных, Пентагон планирует сначала протестировать их на несекретных данных, таких как снимки с коммерческих спутников, чтобы оценить фактическое улучшение точности и эффективности обученной модели.

Военные США уже давно используют модели компьютерного зрения старшего поколения для распознавания объектов на изображениях и видео, собранных дронами и самолетами-разведчиками, и поручают компаниям в рамках государственных контрактов обучать алгоритмы на таких данных. В последние годы одна за другой появились специализированные модели на больших языках и версии чат-ботов для правительственных сценариев, например, Claude Gov, запущенный Anthropic, который делает упор на многоязычные возможности и развертывание в безопасной среде. Тем не менее, это заявление представителей Министерства обороны является первым случаем, когда было ясно показано, что такие компании, как OpenAI и xAI, которые разрабатывают крупномасштабные языковые модели, могут напрямую обучать модели, настроенные правительством, на конфиденциальных данных.

Аалок Мехта, бывший глава отдела политики в области искусственного интеллекта в Google и OpenAI, а ныне директор Центра искусственного интеллекта Вадхвани при Центре стратегических и международных исследований (CSIS), отметил, что по сравнению с простым «чтением и ответом» в конфиденциальной среде, настоящее использование конфиденциальных данных для обучения моделей несет в себе новые риски. Он считает, что самая большая проблема заключается в том, что конфиденциальная информация, полученная в ходе обучения модели, может «всплывать на поверхность», когда она будет запрошена или вызвана другими пользователями в будущем. Это особенно опасно при совместном использовании набора моделей несколькими службами или службами с разными уровнями безопасности и разными потребностями в аналитике.

Например, Мехта сказал, что если модель имела доступ к высокочувствительной человеческой разведке, такой как личность тайного оперативника, эта информация могла случайно «утечки» в другой род войск, когда модель использовалась другим родом войск, у которого не было доступа. Это не только создаст угрозу жизни или смерти для разведывательных источников и передового персонала, но также будет технически трудно полностью предотвратить это, особенно когда одна и та же модель используется несколькими подразделениями. Напротив, он считает, что относительно легче «заблокировать» конфиденциальную информацию внутри вооруженных сил и избежать ее попадания обратно в открытый Интернет или в компании, занимающиеся искусственным интеллектом.

В настоящее время правительство США создало соответствующую инфраструктуру: например, охранная компания Palantir получила несколько крупномасштабных контрактов на создание системы безопасности для правительства, которая может отвечать на вопросы и ответы на конфиденциальные темы, не передавая информацию обратно компаниям, занимающимся искусственным интеллектом. В этих системах чиновники могут подвергать сомнению модели секретного контента, в то время как данные ограничиваются контролируемой средой. Однако применение одной и той же архитектуры безопасности к обучению, а не только к выводам и ответам на вопросы, остается новой технической и управленческой задачей.

В январе этого года министр обороны Пит Хегсет опубликовал меморандум, призывающий ускорить внедрение большего количества возможностей искусственного интеллекта во всей системе обороны, продвигая гоночный план Пентагона в этой области. Генеративный ИИ использовался в реальных боях, например, для ранжирования потенциальных целей и предложения приоритетных ударов. Он также использовался в административной работе, такой как составление контрактов и организация отчетов. С точки зрения оборонного сектора, многие задачи, первоначально выполняемые людьми-аналитиками, в будущем могут зависеть от более сильных моделей ИИ, но это также означает, что моделям придется открыть большие объемы конфиденциальных данных.

Мехта сказал, что военные, возможно, захотят, чтобы ИИ научился некоторым тонким суждениям, которые в значительной степени полагаются на опыт, например, выявление чрезвычайно тонких подсказок на изображениях, как старший аналитик, или установление сложных связей между недавно полученными разведывательными данными и исторической информацией. С этой целью обширные и многоязычные текстовые, аудио-, графические и видеоданные спецслужб могут стать источниками учебных материалов. Однако он также подчеркнул, что сложно объяснить внешнему миру, какие конкретные задачи требуют обучения на конфиденциальных данных, поскольку у Минобороны есть сильный стимул держать в секрете свои конкретные возможности и не хочет, чтобы другие страны точно понимали технологические границы США в этой области.

В глазах внешнего мира шаг Пентагона является не только ответом на нужды фронта, но и технологической ставкой высокого риска: как только конфиденциальная разведка будет глубоко внедрена в крупные модели, военные получат возможности автоматического анализа и помощи в принятии решений, которые намного превзойдут возможности традиционных систем. Однако ему также придется столкнуться с новыми угрозами безопасности, такими как чрезмерная «память» модели, случайные утечки и размытые границы доступа. В настоящее время оборонные ведомства США пытаются найти баланс между «получением военного преимущества» и «контролем рисков безопасности», который еще не был полностью проверен на практике, путем создания высокоизолированных безопасных центров обработки данных, строгого контроля доступа, а также методов развертывания многоуровневых и настраиваемых моделей.