Масштабный анализ 2,6 миллионов научных работ по раку показывает, что научная литература в области рака серьезно «разбавляется» исследованиями сомнительного качества и предположительно в массовом производстве. Более 250 000 из этих статей очень похожи по шаблону написания на подозрительные статьи, которые были отозваны, что вызывает обеспокоенность по поводу честности научных исследований и надежности клинических данных.

Профессор Адриан Барнетт из Школы общественного здравоохранения и социальной работы Квинслендского технологического университета (QUT) в Австралии и Австралийский центр инноваций в сфере здравоохранения (AusHSI) объединились с международной командой для разработки инструмента языковой модели, который может автоматически идентифицировать характеристики «массовых» статей, и впервые применил его в области исследований рака в больших масштабах. Результаты показали, что потенциальные проблемы намного превзошли предыдущие ожидания академического сообщества.

В отличие от традиционной технологии, которая фокусируется на поиске «недостатков», таких как дубликаты изображений и ложные данные, этот новый инструмент фокусируется на идентификации языка самой статьи, а также анализирует стиль письма и образцы формулировок, чтобы идентифицировать продукцию подозреваемых «бумажных фабрик». Исследовательская группа использовала образцы статей, которые были отозваны из-за подозрений в мошенничестве, для обучения языковой модели на основе BERT, что позволило ей научиться идентифицировать «отпечатки пальцев» в структуре и выражениях этих статей, а затем применила модель к документам по исследованию рака, опубликованным в период с 1999 по 2024 год. В ходе проверочного теста известных образцов точность идентификации модели подозрительных статей достигла 91%, что показало ее потенциал в качестве «системы раннего предупреждения» для редакторов журналов и исследовательских учреждений.

Барнетт отметил, что «бумажные фабрики» — это, по сути, коммерческие организации, которые продают фальшивые или некачественные результаты исследований и могут предоставить авторство или даже целые «законченные» статьи по требованию. Чтобы ускорить выпуск, эти учреждения часто повторно используют фиксированные шаблоны, повторяющиеся абзацы или неестественные структуры письма и могут фабриковать данные и изображения из воздуха, в результате чего статья на первый взгляд кажется стандартизированной, но серьезно ставит под сомнение ее научную достоверность. Он описал этот набор инструментов искусственного интеллекта как «научный спам-фильтр»: подобно тому, как ящик электронной почты может автоматически блокировать спам, эта система отвечает за маркировку материалов, которые очень похожи на отозванные мошеннические статьи по стилю и структуре письма, а также за предоставление списка приоритетов для ручной проверки.

Исследование также выявило несколько тревожных тенденций. За последние два десятилетия доля статей о раке, отмеченных моделями как подозрительные, значительно увеличилась: примерно с 1% примерно в 2000 году до пика, превышающего 16% в 2022 году, что показывает, что проблема усугубляется. Затронутые журналы охватывают широкий спектр, включая тысячи журналов, принадлежащих нескольким крупным издательским группам, включая некоторые влиятельные публикации, что указывает на то, что продукция «бумажной фабрики» проникла на многие уровни системы публикации исследований рака. С точки зрения предметного направления, областями с наиболее концентрированными проблемами являются молекулярная биология рака и ранние фундаментальные лабораторные исследования. Среди конкретных типов рака особенно заметна доля подозрительных и подозрительных статей, появляющихся в области рака желудка, рака печени, опухолей костей и рака легких.

В настоящее время три научных журнала тестируют этот инструмент в процессе редакционной предварительной проверки для выявления потенциального мошенничества или массового производства рукописей перед отправкой на рецензирование, тем самым экономя ресурсы рецензирования и снижая риск попадания плохих статей в официальную систему литературы. Исследовательская группа планирует распространить этот метод на другие области исследований, помимо рака, и продолжить обработку обучающих данных, чтобы улучшить чувствительность и специфичность модели по мере подтверждения новых видов деятельности «бумажной фабрики». В то же время Барнетт и другие подчеркнули, что результаты, полученные с помощью модели, не эквивалентны прямому подтверждению того, что статья является поддельной, а представляют собой «список высокого риска», который требует углубленного изучения экспертами в предметной области.

Барнетт отметил, что исследования рака напрямую влияют на дизайн клинических испытаний, направление разработки лекарств и решения о лечении пациентов. Если фальшивые исследования смешаны с системой доказательств, это может ввести в заблуждение реальную научно-исследовательскую работу и даже замедлить прогресс в разработке полезных методов лечения пациентов. Таким образом, раннее выявление и сдерживание ложных исследований «бумажной фабрики» имеет решающее значение для поддержания доверия к научной литературе и обеспечения надежности клинической практики. Соответствующее исследование было опубликовано в Британском медицинском журнале (BMJ) под названием «Скрининг потенциальных статей на основе машинного обучения на фабрике по производству исследовательских работ по раку: методология и перекрестное исследование», которое обеспечивает новый технический путь и эмпирическую основу для академической издательской индустрии для решения проблемы пакетного мошенничества.