Исследователи искусственного интеллекта Microsoft случайно раскрыли десятки терабайт конфиденциальных данных, включая закрытые ключи и пароли, когда они опубликовали корзину обучающих данных с открытым исходным кодом на GitHub. В исследовательской записке, предоставленной TechCrunch, стартап облачной безопасности Wiz сообщил, что обнаружил репозиторий GitHub, принадлежащий исследовательскому подразделению Microsoft по искусственному интеллекту, в рамках своей продолжающейся работы по случайному раскрытию данных, размещенных в облаке.
Этот репозиторий GitHub предоставляет открытый исходный код и модели искусственного интеллекта для распознавания изображений, а также предлагает читателям загрузить модель с URL-адреса хранилища Azure. Однако Wiz обнаружил, что URL-адрес был настроен на предоставление разрешений всей учетной записи хранения, тем самым ошибочно раскрывая больше личных данных.
Данные включали 38 ТБ конфиденциальной информации, включая личные резервные копии компьютеров двух сотрудников Microsoft. Данные также содержали другие конфиденциальные личные данные, включая пароли и ключи для служб Microsoft, а также более 30 000 внутренних сообщений Microsoft Teams от сотен сотрудников Microsoft.
По словам Wiz, URL-адреса, которые предоставили эти данные с 2020 года, также были неправильно настроены, чтобы разрешить «Полный доступ» вместо разрешений «Только чтение», а это означает, что любой, кто знал, где искать, потенциально мог удалить, заменить и внедрить вредоносный контент.
Виз отметил, что учетная запись хранения не была открыта напрямую. Вместо этого разработчики Microsoft AI включили в URL-адрес токен подписи общего доступа (SAS) с избыточным разрешением. Токены SAS — это механизм, используемый Azure, позволяющий пользователям создавать общие ссылки, предоставляющие доступ к данным учетной записи хранения Azure.
Ами Латтвак, соучредитель и технический директор Wiz, сказал: «Искусственный интеллект открыл огромный потенциал для технологических компаний. Однако, поскольку специалисты по данным и инженеры стремятся внедрить в производство новые решения искусственного интеллекта, огромные данные, с которыми они работают, требуют дополнительных проверок безопасности и мер защиты. Поскольку многим командам разработчиков необходимо обрабатывать большие объемы данных, обмениваться данными с коллегами или сотрудничать в общедоступных проектах с открытым исходным кодом, такие случаи, как Microsoft, становится все труднее отслеживать и избегать».
Wiz заявила, что поделилась своими выводами с Microsoft 22 июня, а Microsoft отозвала токены SAS через два дня, 24 июня. Microsoft заявила, что завершила расследование потенциального организационного воздействия 16 августа.
«Никакие данные клиентов не были раскрыты, и никакие другие внутренние службы не подверглись риску в результате этой проблемы», — говорится в сообщении Microsoft Security Response в блоге, опубликованном перед публикацией.
Microsoft заявила, что на основе выводов Wiz она расширила службу сканирования секретов GitHub, которая отслеживает изменения во всем общедоступном открытом исходном коде, чтобы предотвратить раскрытие учетных данных и других секретов в открытом виде, включая любые токены SAS, у которых может быть чрезмерный срок действия разрешений или разрешений.