Команда исследователей Google обнаружила, что чат-бот OpenAI с искусственным интеллектом ChatGPT может передавать конфиденциальную информацию в своих обучающих данных, например личную информацию реальных людей. Сообщается, что ChatGPT — это новый инструмент чат-бота с искусственным интеллектом, запущенный OpenAI 30 ноября 2022 года. Он может быстро генерировать статьи, рассказы, тексты песен, прозу, шутки и даже коды в соответствии с требованиями пользователя, а также отвечать на различные вопросы.


Всего через два месяца после запуска ChatGPT достиг 100 миллионов активных пользователей в месяц, что сделало его одним из самых быстрорастущих потребительских приложений в истории. На первой конференции разработчиков OpenAI, состоявшейся 6 ноября этого года, генеральный директор OpenAI Сэм Альтман объявил, что число еженедельно активных пользователей ChatGPT достигло 100 миллионов.

Как и все так называемые модели большого языка (LLM), базовые модели машинного обучения, лежащие в основе ChatGPT, обучаются с использованием больших объемов данных, полученных из Интернета. Но вызывает тревогу то, что некоторые из извлеченных обучающих данных содержали идентифицирующую информацию о реальных людях, включая имена, адреса электронной почты и номера телефонов.

Исследователи Google нашли способ заставить ChatGPT раскрыть некоторые данные, используемые для обучения, попросив его повторять определенные слова «вечно». Данные включали личную информацию (например, личные имена, адреса электронной почты, номера телефонов и т. д.), фрагменты исследовательских работ и новостных статей, страницы Википедии и многое другое.

Кэтрин Ли, старший научный сотрудник Google Brain, сказала: «Мы обнаружили эту уязвимость в июле и уведомили OpenAI 30 августа, а после стандартного 90-дневного периода раскрытия информации мы выпустили уязвимость. Теперь, когда мы раскрыли это OpenAI, ситуация может быть иной». Исследователи заявили, что OpenAI исправила уязвимость 30 августа.

Зарубежные СМИ заявили, что уязвимость в ChatGPT, обнаруженная исследователями Google, вызывает серьезные проблемы с конфиденциальностью, особенно для моделей, обученных на наборах данных, содержащих конфиденциальную информацию.