Новый подход глубокого обучения предсказывает структуру белка по аминокислотной последовательности

Состоящие из длинных цепочек аминокислот, белки выполняют эти бесчисленные задачи, складываясь в точные трехмерные структуры, которые регулируют их взаимодействие с другими молекулами. Поскольку форма белка определяет его функцию и степень его дисфункции при заболевании, усилия по освещению белковых структур занимают центральное место во всей молекулярной биологии – и, в частности, в терапевтической науке и разработке спасающих и изменяющих жизнь лекарств.
В последние годы вычислительные методы достигли значительных успехов в прогнозировании сворачивания белков на основе знания их аминокислотной последовательности. В случае полной реализации эти методы могут изменить практически все аспекты биомедицинских исследований.

Однако современные подходы ограничены масштабом и объемом белков, которые могут быть определены.
Теперь ученый Гарвардской медицинской школы использовал форму искусственного интеллекта, известную как глубокое обучение, для эффективного предсказания трехмерной структуры любого белка на основе его аминокислотной последовательности.
В своем сообщении на веб-сайте Cell Systems 17 апреля системный биолог Мохаммед Аль-Кураиши подробно описывает новый подход к вычислительному определению структуры белка, обеспечивающий точность, сопоставимую с современными методами, но со скоростью, в миллион раз быстрее.

«Сворачивание белка было одной из самых важных проблем для биохимиков за последние полвека, и этот подход представляет собой принципиально новый способ решения этой проблемы», – сказал Аль-Кураиши, преподаватель системной биологии в Институте Блаватника при HMS и научный сотрудник. Лаборатория системной фармакологии. "Теперь у нас есть совершенно новые возможности для изучения сворачивания белков, и я думаю, что мы только начали царапать поверхность."
Легко заявить

Несмотря на высокую эффективность, процессы, в которых используются физические инструменты для идентификации белковых структур, дороги и требуют много времени даже при использовании современных методов, таких как криоэлектронная микроскопия.

Таким образом, подавляющее большинство белковых структур – и влияние болезнетворных мутаций на эти структуры – все еще в значительной степени неизвестны.
Вычислительные методы, которые вычисляют, как белки складываются, могут значительно снизить затраты и время, необходимые для определения структуры. Но проблема сложна и остается нерешенной после почти четырех десятилетий напряженных усилий.

Белки построены из библиотеки из 20 различных аминокислот. Они действуют как буквы в алфавите, объединяясь в слова, предложения и абзацы, чтобы произвести астрономическое количество возможных текстов. Однако, в отличие от букв алфавита, аминокислоты – это физические объекты, расположенные в трехмерном пространстве. Часто участки белка находятся в непосредственной близости друг от друга, но разделяются на большие расстояния с точки зрения последовательности, поскольку его аминокислотные цепи образуют петли, спирали, листы и завитки.

«Что привлекает в этой проблеме, так это то, что ее довольно легко сформулировать: взять последовательность и выяснить форму», – сказал Аль-Кураиши. "Белок начинается с неструктурированной струны, которая должна принимать трехмерную форму, и возможные наборы форм, в которые она может складываться, огромны. Многие белки состоят из тысяч аминокислот, и их сложность быстро превосходит возможности человеческой интуиции или даже самых мощных компьютеров."
Трудно решить
Чтобы решить эту проблему, ученые используют тот факт, что аминокислоты взаимодействуют друг с другом на основе законов физики, выявляя энергетически благоприятные состояния, такие как шар, катящийся с горы, чтобы осесть на дне долины.

Самые продвинутые алгоритмы вычисляют структуру белка, работая на суперкомпьютерах – или на вычислительных мощностях краудсорсинга в случае таких проектов, как Rosetta @ Home и Folding @ Home – для моделирования сложной физики взаимодействия аминокислот с помощью грубой силы. Чтобы снизить массовые вычислительные требования, эти проекты основываются на отображении новых последовательностей на заранее определенные шаблоны, которые представляют собой структуры белков, ранее определенные в ходе экспериментов.
Другие проекты, такие как AlphaFold от Google, вызвали в последнее время огромный ажиотаж благодаря использованию достижений в области искусственного интеллекта для предсказания структуры белка.

Для этого эти подходы анализируют огромные объемы геномных данных, которые содержат план белковых последовательностей. Они ищут последовательности у многих видов, которые, вероятно, эволюционировали вместе, используя такие последовательности в качестве индикаторов непосредственной физической близости, чтобы направлять сборку структур.
Эти подходы AI, однако, не предсказывают структуры, основанные исключительно на аминокислотной последовательности белка.

Таким образом, они имеют ограниченную эффективность в отношении белков, о которых нет предварительных знаний, эволюционных уникальных белков или новых белков, созданных людьми.
Глубоко тренироваться
Чтобы разработать новый подход, AlQuraishi применил так называемое сквозное дифференцируемое глубокое обучение.

Эта ветвь искусственного интеллекта значительно сократила вычислительную мощность и время, необходимое для решения таких проблем, как распознавание изображений и речи, благодаря чему появились такие приложения, как Apple Siri и Google Translate.
По сути, дифференцируемое обучение включает в себя одну огромную математическую функцию – гораздо более сложную версию математического уравнения средней школы – организованную в виде нейронной сети, причем каждый компонент сети передает информацию вперед и назад.

Эта функция может настраиваться и настраиваться снова и снова на невообразимых уровнях сложности, чтобы «узнать» точно, как последовательность белка математически соотносится с ее структурой.
AlQuraishi разработал модель глубокого обучения, называемую повторяющейся геометрической сетью, которая фокусируется на ключевых характеристиках сворачивания белков.

Но прежде чем он сможет делать новые прогнозы, его необходимо обучить с использованием ранее определенных последовательностей и структур.
Для каждой аминокислоты модель предсказывает наиболее вероятный угол химических связей, которые соединяют аминокислоту с ее соседями.

Он также предсказывает угол поворота вокруг этих связей, который влияет на то, как любой локальный участок белка геометрически связан со всей структурой.
Это делается многократно, при каждом расчете учитывается и уточняется относительное положение каждой другой аминокислоты. После того, как вся структура завершена, модель проверяет точность своего прогноза, сравнивая его с «основной истинной» структурой белка.
Весь этот процесс повторяется для тысяч известных белков, с обучением модели и повышением ее точности с каждой итерацией.

Новая перспектива
После того, как его модель была обучена, Аль-Кураиши проверил ее предсказательную силу. Он сравнил его эффективность с другими методами из нескольких последних лет Критической оценки прогноза структуры белка – ежегодного эксперимента, в ходе которого проверяются вычислительные методы на предмет их способности делать прогнозы с использованием структур белков, которые были определены, но не опубликованы публично.
Он обнаружил, что новая модель превзошла все другие методы в прогнозировании белковых структур, для которых не существует ранее существовавших шаблонов, включая методы, использующие коэволюционные данные.

Он также превзошел все методы, кроме лучших, когда для прогнозирования были доступны уже существующие шаблоны.
Хотя эти улучшения в точности относительно невелики, AlQuraishi отмечает, что каких-либо улучшений в верхней части этих тестов добиться трудно. И поскольку этот метод представляет собой совершенно новый подход к сворачиванию белков, он может дополнять существующие методы, как вычислительные, так и физические, для определения гораздо более широкого диапазона структур, чем это было возможно ранее.
Поразительно, но новая модель выполняет свои прогнозы примерно на шесть-семь порядков быстрее, чем существующие вычислительные методы.

Обучение модели может занять месяцы, но после обучения она может делать прогнозы за миллисекунды по сравнению с часами или днями, которые требуются при использовании других подходов. Это резкое улучшение отчасти связано с единственной математической функцией, на которой оно основано, требующей для выполнения всего нескольких тысяч строк компьютерного кода вместо миллионов.
По словам Аль-Кураиши, быстрая скорость предсказаний этой модели позволяет новые приложения, которые раньше были медленными или трудными, например, предсказание того, как белки изменяют свою форму при взаимодействии с другими молекулами.

«Подходы к глубокому обучению, не только мои, будут продолжать расти в своей предсказательной силе и в популярности, потому что они представляют собой минимальную, простую парадигму, которая может интегрировать новые идеи более легко, чем существующие сложные модели», – добавил он.
По словам Аль-Кураиши, новая модель не сразу готова к использованию, скажем, при открытии или разработке лекарств, потому что ее точность в настоящее время падает примерно на 6 ангстрем – все еще на некотором расстоянии от 1-2 ангстрем, необходимых для разрешения полной атомной структуры. белок.

Но есть много возможностей для оптимизации подхода, сказал он, включая дальнейшую интеграцию правил, взятых из химии и физики.
«Точное и эффективное прогнозирование сворачивания белка было святым Граалем для этой области, и я надеюсь и надеюсь, что этот подход в сочетании со всеми другими замечательными методами, которые были разработаны, сможет сделать это в ближайшем будущем, "Аль-Кураиши сказал. "Мы можем решить эту проблему в ближайшее время, и я думаю, что никто бы не сказал, что пять лет назад. Это очень захватывающе и одновременно шокирующе."
Чтобы помочь другим участвовать в разработке методов, AlQuraishi сделал свое программное обеспечение и результаты в свободном доступе через платформу совместного использования программного обеспечения GitHub.

«Одна примечательная особенность работы АльКураиши заключается в том, что один научный сотрудник, включенный в богатую исследовательскую экосистему Гарвардской медицинской школы и биомедицинского сообщества Бостона, может конкурировать с такими компаниями, как Google, в одной из самых горячих областей компьютерных наук», – сказал Питер. Соргер, HMS Отто Крайер, профессор системной фармакологии в Институте Блаватника в HMS, директор лаборатории системной фармакологии в HMS и академический наставник Аль-Кураиши.
«Неразумно недооценивать разрушительное влияние таких выдающихся людей, как Аль-Кураиши, работающих с открытым исходным кодом в общественном достоянии», – сказал Соргер.

Исследование было поддержано Национальным институтом общих медицинских наук и Национальным институтом рака при Национальных институтах здравоохранения (P50GM107618 и U54CA225088).