Белки представляют собой линейные цепочки аминокислот, связанных пептидными связями, которые складываются в чрезвычайно сложные трехмерные структуры, в зависимости от последовательности и физических взаимодействий внутри цепи. Эта структура, в свою очередь, определяет биологическую функцию белка.
Следовательно, знание трехмерной структуры белка полезно, например, для прогнозирования того, как белки могут реагировать на определенные лекарства.
Однако, несмотря на десятилетия исследований и разработку множества методов визуализации, мы знаем лишь очень небольшую часть возможных белковых структур – десятки тысяч из миллионов. Исследователи начинают использовать модели машинного обучения для прогнозирования структур белков на основе их аминокислотных последовательностей, что может позволить открывать новые структуры белков. Но это сложно, поскольку разные аминокислотные последовательности могут образовывать очень похожие структуры.
И структур, на которых можно тренировать модели, не так много.
В статье, представленной на Международной конференции по обучающим представлениям в мае, исследователи Массачусетского технологического института разрабатывают метод "обучения" легко вычислимым представлениям каждой аминокислотной позиции в последовательности белка, первоначально используя трехмерную структуру белка в качестве учебного пособия. Затем исследователи могут использовать эти представления в качестве входных данных, которые помогают моделям машинного обучения предсказывать функции отдельных аминокислотных сегментов – без каких-либо дополнительных данных о структуре белка.
В будущем модель может быть использована для усовершенствования белковой инженерии, давая исследователям возможность лучше сосредоточиться и модифицировать определенные аминокислотные сегменты. Модель может даже полностью увести исследователей от предсказания структуры белка.
«Я хочу маргинализировать структуру», – говорит первый автор Тристан Беплер, аспирант группы вычислений и биологии Лаборатории компьютерных наук и искусственного интеллекта (CSAIL). "Мы хотим знать, что делают белки, и для этого важно знать структуру. Но можем ли мы предсказать функцию белка, учитывая только его аминокислотную последовательность??
Мотивация состоит в том, чтобы отойти от специфического предсказания структур и перейти к [поиску] того, как аминокислотные последовательности связаны с функцией."
К Беплеру присоединяется соавтор Бонни Бергер, профессор математики Саймонса в Массачусетском технологическом институте, занимающая совместную должность преподавателя на кафедре электротехники и информатики, а также руководитель группы вычислений и биологии.
Изучение структуры
Вместо прямого предсказания структуры – как это пытаются делать традиционные модели – исследователи закодировали предсказанную структурную информацию белка непосредственно в представления. Для этого они используют известные структурные сходства белков, чтобы контролировать свою модель, поскольку модель изучает функции определенных аминокислот.
Они обучили свою модель примерно 22000 белков из базы данных структурной классификации белков (SCOP), которая содержит тысячи белков, организованных в классы по сходству структур и аминокислотных последовательностей. Для каждой пары белков они рассчитали реальную оценку сходства, означающую, насколько они близки по структуре, на основе их класса SCOP.
Затем исследователи загрузили в свою модель случайные пары белковых структур и их аминокислотные последовательности, которые были преобразованы в числовые представления, называемые встраиванием кодировщиком. При обработке естественного языка вложения – это, по сути, таблицы из нескольких сотен чисел, объединенных способом, который соответствует букве или слову в предложении.
Чем более похожи два вложения, тем больше вероятность того, что буквы или слова появятся вместе в предложении.
В работе исследователей каждое вложение в пару содержит информацию о том, насколько похожа каждая аминокислотная последовательность на другую.
Модель выравнивает два вложения и вычисляет показатель сходства, чтобы затем предсказать, насколько похожими будут их трехмерные структуры. Затем модель сравнивает свою прогнозируемую оценку сходства с реальной оценкой сходства SCOP для их структуры и отправляет сигнал обратной связи на кодировщик.
Одновременно модель предсказывает «карту контактов» для каждого встраивания, которая в основном говорит о том, насколько далеко каждая аминокислота находится от всех других в предсказанной трехмерной структуре белка – по сути, вступают ли они в контакт или нет? Модель также сравнивает свою прогнозируемую карту контактов с известной картой контактов из SCOP и отправляет сигнал обратной связи на кодировщик.
Это помогает модели лучше узнать, где именно аминокислоты попадают в структуру белка, что дополнительно обновляет функцию каждой аминокислоты.
По сути, исследователи тренируют свою модель, прося ее предсказать, будут ли встраиваемые парные последовательности иметь или не будут иметь схожую структуру белка SCOP.
Если прогнозируемая оценка модели близка к реальной оценке, она знает, что находится на правильном пути; если нет, он регулирует.
Белковый дизайн
В конце концов, для одной введенной аминокислотной цепи модель будет производить одно числовое представление или встраивание для каждого положения аминокислоты в трехмерной структуре. Затем модели машинного обучения могут использовать эти встраивания последовательностей для точного прогнозирования функции каждой аминокислоты на основе ее предсказанного трехмерного структурного «контекста» – ее положения и контакта с другими аминокислотами.
Например, исследователи использовали модель, чтобы предсказать, какие сегменты, если таковые имеются, проходят через клеточную мембрану. Учитывая только аминокислотную последовательность, модель исследователей предсказывала все трансмембранные и нетрансмембранные сегменты более точно, чем современные модели.
Затем исследователи стремятся применить модель к большему количеству задач прогнозирования, таких как выяснение, какие сегменты последовательности связываются с небольшими молекулами, что имеет решающее значение для разработки лекарств.
Они также работают над использованием модели для дизайна белков. Используя встроенные последовательности, они могут предсказать, скажем, при каких цветовых длинах волн белок будет флуоресцировать.
«Наша модель позволяет нам переносить информацию из известных белковых структур в последовательности с неизвестной структурой. Используя наши вложения в качестве функций, мы можем лучше прогнозировать функции и обеспечивать более эффективный дизайн белков на основе данных », – говорит Беплер. "На высоком уровне такой вид белковой инженерии является целью."
Бергер добавляет: «Таким образом, наши модели машинного обучения позволяют нам изучать« язык »сворачивания белков – одну из первоначальных проблем« Святого Грааля »- из относительно небольшого числа известных структур."
ДОКУМЕНТ: «Изучение встраивания белковых последовательностей с использованием информации из структуры."
