Белки — это природные молекулы, которые выполняют важные клеточные функции в организме и являются строительными блоками всех заболеваний. Характеристика белков может выявить механизмы заболеваний, в том числе способы замедления или обращения вспять болезни, а создание белков может привести к разработке совершенно новых лекарств и методов лечения.

доступ:

Официальный торговый центр Microsoft в Китае — домашняя страница

Однако нынешний процесс создания белков в лаборатории является дорогостоящим с точки зрения вычислительных и человеческих ресурсов. Для этого необходимо придумать структуру белка, выполняющую определенную задачу в организме, а затем найти последовательность белка (последовательность аминокислот, составляющих белок), которая могла бы «сворачиваться» в эту структуру. (Белки должны правильно складываться в трехмерную форму, чтобы выполнять свою функцию).

Это не должно быть так сложно.

На этой неделе Microsoft запустила EvoDiff, общую структуру, которая, по утверждению компании, может генерировать «высокоточные» и «разнообразные» белки на основе белковых последовательностей. В отличие от других систем генерации белков, EvoDiff не требует никакой структурной информации о целевом белке, что исключает обычно самый трудоемкий этап.

Кевин Янг, старший научный сотрудник Microsoft, сказал, что после того, как EvoDiff станет открытым, его можно будет использовать для создания ферментов для новых методов лечения и доставки лекарств, а также новых ферментов для промышленных химических реакций.

«Наше видение состоит в том, что EvoDiff расширит возможности белковой инженерии за пределы парадигмы структура-функция в сторону программируемого дизайна, ориентированного на последовательность», — сказал TechCrunch в интервью по электронной почте Ян, один из соавторов EvoDiff. «С помощью EvoDiff мы продемонстрировали, что для контролируемого создания новых белков нам может понадобиться не структура, а скорее «последовательность белка — это все, что вам нужно».

В основе платформы EvoDiff лежит 640-параметрическая модель, обученная на данных всех видов и функциональных классов белков. (Параметры — это то, что модель ИИ узнает из обучающих данных, и, по сути, определяют способность модели решать проблему — в данном случае генерировать белки.) Данные для обучения модели поступают из набора данных OpenFold по выравниванию последовательностей и из UniRef50, подмножества набора данных UniProt, базы данных последовательностей белков и функциональной информации, поддерживаемой консорциумом UniProt.

EvoDiff — это диффузионная модель, структура которой аналогична многим современным моделям генерации изображений, таким как стабильная диффузия и DALL-E2. EvoDiff учится постепенно вычитать шум из исходного белка, который почти полностью состоит из шума, позволяя ему медленно, шаг за шагом приближаться к последовательности белка.

Процесс, с помощью которого EvoDiff генерирует белки.

Модели диффузии все чаще используются в областях, выходящих за рамки генерации изображений: от разработки новых белков (таких как EvoDiff) до сочинения музыки и даже синтеза речи.

«Если есть один вывод [из EvoDiff], я думаю, что мы можем — и должны — генерировать белки из последовательности, потому что мы обеспечиваем универсальность, масштабируемость и модульность», — сказала по электронной почте Ава Амини, еще один соавтор EvoDiff и старший научный сотрудник Microsoft. «Наша диффузионная система дает нам возможность делать это, а также позволяет нам контролировать, как эти белки предназначены для достижения конкретных функциональных целей».

По мнению Амини, EvoDiff не только создает новые белки, но и заполняет «пробелы» в существующих конструкциях белков. Например, если определенная часть белка связывается с другим белком, модель может генерировать последовательность аминокислот белка вокруг этой части, которая соответствует ряду критериев.

Поскольку EvoDiff проектирует белки в «пространстве последовательностей», а не в структуре белка, он также может синтезировать «неупорядоченные белки», которые в конечном итоге не могут свернуться в окончательную трехмерную структуру. Подобно нормально функционирующим белкам, нарушенные белки играют важную роль в биологии и заболеваниях, например, усиливая или снижая активность других белков.

Важно отметить, что исследование EvoDiff не было рецензировано — по крайней мере, пока. Сара АлАМДари, специалист по данным Microsoft, участвовавшая в проекте, признала, что «предстоит еще много работы по масштабированию», прежде чем инфраструктуру можно будет ввести в коммерческое использование.

«Это всего лишь модель с 640 миллионами параметров, и если мы масштабируем ее до миллиардов параметров, мы можем увидеть улучшение качества генерации», — сказал Аламдари по электронной почте. «Хотя мы продемонстрировали некоторые грубые стратегии, для достижения более точного контроля мы хотели бы, чтобы EvoDiff зависел от текста, химической информации или других средств для определения желаемых функций».

Затем команда EvoDiff планирует протестировать модель на белках, созданных в лаборатории, чтобы проверить, работают ли они. Если это сработает, они начнут работу над фреймворком следующего поколения.