Несмотря на их повсеместное распространение и важность, гликаны остаются плохо изученными из-за их сложности. Вместо четырех нуклеотидных «букв», из которых состоят молекулы ДНК и РНК, гликаны имеют «алфавит» из сотен различных моносахаридов, которые можно объединить в последовательности с кажущимся бесконечным набором длин и ветвей. Кроме того, отдельная последовательность гликана может быть изменена из-за взаимодействия нескольких ферментов и условий как внутри, так и вне клетки, без необходимости генетических мутаций.
Теперь команда ученых из Института биологической инженерии Висса при Гарвардском университете и Массачусетского технологического института (MIT) взломала код гликанов, разработав новые методы машинного обучения и биоинформатики, которые позволяют исследователям систематически изучать гликаны и определять последовательности, которые играют роль во взаимодействии микробов и их клеток-хозяев, а также в других до сих пор неизвестных функциях.
Инструменты представлены в новом документе, опубликованном сегодня в Cell Host & Microbe, и доступны в Интернете в виде бесплатного веб-приложения Wyss, которое исследователи могут использовать для выполнения собственных анализов тысяч гликанов.
«Созданные нами языковые модели могут использоваться для прогнозирования того, будет ли и каким образом данный гликан обнаруживаться иммунной системой человека, что помогает нам определить, может ли штамм бактерий, несущих этот гликан на своей поверхности, быть патогенны ", – сказал первый автор Даниэль Бояр, доктор философии.D., научный сотрудник Института Висса и Массачусетского технологического института. «Эти ресурсы также позволяют изучать гликановые последовательности, участвующие в молекулярной мимикрии и уклонении от иммунитета, расширяя наше понимание взаимодействий хозяина и микроба."
Правила грамматики гликанов
Поскольку гликаны являются самым внешним слоем среди всех типов живых клеток, они обязательно участвуют в процессе инфекции, как во взаимодействии связывания прокариотической бактерии с эукариотической клеткой-хозяином, так и во взаимодействиях между клетками иммунной системы.
Это привело к эволюционной гонке вооружений, в которой бактериальные гликаны эволюционируют, чтобы имитировать те, которые обнаруживаются в клетках их хозяев, чтобы избежать иммунного обнаружения, а гликаны хозяев модифицируются так, что патогены больше не могут использовать их для получения доступа. Чтобы проследить эту историю развития гликановой последовательности и определить значимые тенденции и закономерности, исследовательская группа обратилась к алгоритмам машинного обучения, в частности к обработке естественного языка (NLP), которая ранее продемонстрировала успех в анализе других биополимеров, таких как РНК и белки.
«Языки на самом деле очень похожи на молекулярные последовательности: порядок элементов имеет значение, элементы, которые не расположены рядом друг с другом, все еще могут влиять друг на друга, и их структуры со временем развиваются», – сказала соавтор Рани Пауэрс, доктор философии.D., старший научный сотрудник Института Висс.
Во-первых, команде нужно было собрать большую базу данных последовательностей гликанов, на которой можно было бы обучить алгоритм на основе НЛП.
Они прочесали существующие наборы данных как в Интернете, так и в академической литературе, чтобы создать базу данных из 19299 уникальных последовательностей гликанов, которые они назвали SugarBase. В SugarBase они идентифицировали 1027 уникальных молекул или связей гликанов, которые они назвали «гликолетами», составляющими гликановый алфавит, которые теоретически можно было бы объединить в «гликоворды», которые команда определила как три гликолеттера и две связи.
Чтобы разработать основанную на НЛП модель, которая могла бы анализировать последовательности гликолетов и выделять отдельные глико-корды, команда решила использовать двунаправленную рекуррентную нейронную сеть (RNN). RNN, которые также лежат в основе функции «автозаполнения» программ обмена текстовыми сообщениями и электронной почты, предсказывают следующее слово в последовательности с учетом предыдущих слов, что позволяет им изучать сложные, зависящие от порядка взаимодействия.
Они обучили свою языковую модель на основе гликолетов, получившую название SweetTalk, на последовательностях из SugarBase и использовали ее для предсказания следующего наиболее вероятного гликолеттера в последовательности гликана на основе предыдущих гликолетов в контексте гликоордин.
SweetTalk показал, что от 1 до 1.2 триллиона теоретически возможных гликоордин, всего 19866 различных гликоорд (~ 0.0000016%) присутствовали в базе существующих гликанов. Наблюдаемые глико-корды также имели тенденцию группироваться в группы с очень похожими последовательностями, что частично указывает на таксономические группы, в которых встречаются глико-корды, а не распределяться равномерно среди всех возможных комбинаций последовательностей. Эти результаты, вероятно, отражают высокую «стоимость» для организма развивающихся специализированных ферментов для создания специфических субструктур гликанов – в этом сценарии более эффективно с эволюционной точки зрения подправить существующие гликоворды, чем генерировать совершенно новые.
Учитывая важную роль гликанов в иммунитете человека, исследователи доработали SweetTalk, используя небольшой тщательно подобранный список гликанов, которые, как известно из литературы, вызывают иммунный ответ. При прогнозировании иммуногенности гликановых последовательностей из SugarBase модель SweetTalk достигла точности ~ 92% по сравнению с точностью ~ 51% для модели, обученной на скремблированных гликановых последовательностях. Например, гликаны, богатые простым сахаром, называемым рамнозой, который содержится в бактериях, но не у млекопитающих, были однозначно обозначены SweetTalk как иммуногенные. Превосходная производительность модели показала, что модели на основе языка могут использоваться для изучения характеристик гликанов в крупном масштабе и со многими потенциальными приложениями, такими как исследование взаимодействий гликанов с иммунной системой.
Положи мне немного сахара
Основываясь на успехе своей первой модели глубокого обучения, ориентированной на гликаны, у команды возникла догадка, что глубокое обучение может также пролить свет на «генеалогическое древо» последовательностей гликанов.
Для этого они создали классификатор на основе языковой модели под названием SweetOrigins. Сначала они предварительно обучили SweetOrigins с помощью модели SweetTalk, а затем использовали языковые свойства гликанов для точной настройки новой модели для решения другой задачи: прогнозирования таксономической группы гликанов путем изучения видоспецифических особенностей гликанов, которые указывают на их эволюцию. история. Они воспроизвели эту структуру для каждого уровня классификации, от отдельных видов до доменов (e.грамм., Bacteria, Eukarya), создав восемь моделей SweetOrigins, которые смогли классифицировать таксономическую группу гликанов с высокой точностью. Например, модель точно предсказала гликаны из царства Animalia (91.1%) и бактерии (97.2%), что позволяет быстро классифицировать гликаны неизвестного происхождения как связанные с животными, связанные с микробами или обнаруженные на обоих типах клеток.
Затем исследователи использовали SweetOrigins для изучения взаимодействий между хозяином и патогеном, аргументируя это тем, что различия в гликанах, связанных с различными штаммами E. coli можно использовать для прогнозирования степени заразности штаммов. Они обучили классификатор на основе глубокого обучения с той же архитектурой языковой модели, что и SweetOrigins на E. coli-специфические гликановые последовательности и были способны предсказать E. coli с точностью ~ 89%. Он также поместил большинство гликанов, связанных с E. coli с неизвестной патогенностью в различных местах по спектру заразности, помогая идентифицировать штаммы, которые могут быть патогенными для человека.
«Интересно, что гликаны, которые, по прогнозам нашей модели, в наибольшей степени связаны с инфекцией, имеют поразительное сходство с гликанами, обнаруженными в клетках, которые образуют барьеры слизистой оболочки в телах животных, которые удерживают патогены», – сказал Диого Камачо, доктор философии.D., соавтор статьи и старший научный сотрудник по биоинформатике в Институте Висса. "Это говорит о том, что гликаны патогенных бактерий эволюционировали, чтобы имитировать гликаны, обнаруженные в клетках хозяев, облегчая их проникновение в иммунную систему и уклонение от нее."
Чтобы более глубоко исследовать, как гликаны функционируют во взаимодействиях между хозяином и микробом, команда разработала метод выравнивания последовательностей гликанов, который сравнивает отдельные последовательности гликанов для определения областей, которые являются консервативными между гликанами и, следовательно, вероятно, выполняют аналогичную функцию. Они выбрали конкретную полисахаридную последовательность из патогена Staphylococcus aureus, который, как известно, увеличивает бактериальную вирулентность, и выдвинули гипотезу, что этот гликан помог бактериям избежать иммунного обнаружения. Когда они сравнили этот полисахарид с аналогичными последовательностями гликанов в наборе данных, они обнаружили лучший результат сопоставления с общим антигеном энтеробактерий (ECA), гликаном, обнаруженным в семействе Enterobacteriaceae симбиотических и патогенных бактерий.
Команда также обнаружила ECA-подобные последовательности, связанные с бактериями родов Staphylococcus, Acinetobacter и Haemophilus, которые не являются частью семейства Enterobacteriaceae, которое обычно несет ECA.
Это понимание предполагает, что, помимо имитации гликанов, обнаруженных на их хозяевах, бактериальные гликаны также могут развиваться, чтобы имитировать те, которые обнаружены у других бактерий, таких как те, что в нашем микробиоме, и что патогенность может возникать через гликаны на микробах, которые традиционно не считаются быть опасным.
«Ресурсы, которые мы здесь разработали – SugarBase, SweetTalk и SweetOrigins – позволяют быстро обнаруживать, понимать и использовать гликановые последовательности, а также могут прогнозировать патогенный потенциал бактериальных штаммов на основе их гликанов», – сказал соавтор-корреспондент Джим Коллинз, доктор философии.D., член факультета Wyss Core, который также является профессором Термира медицинской инженерии и науки в Массачусетском технологическом институте. «По мере развития гликобиологии эти инструменты могут быть легко расширены и обновлены, что в конечном итоге позволит провести точную классификацию гликанов и облегчить изучение взаимодействий хозяина и микробов на основе гликанов с беспрецедентным разрешением, что потенциально может привести к новым противомикробным терапевтическим средствам."
"Это достижение является еще одним примером возможности применения вычислительных подходов к биологическим проблемам, которые до сих пор не решались из-за их сложности.
Я также очень впечатлен тем, что эта команда сделала свои инструменты открытыми для исследователей по всему миру, что обещает ускорить темпы нашего коллективного понимания гликанов и их влияния на здоровье человека », – сказал директор-основатель Wyss Institute Дон Ингбер, штат Массачусетс.D., Ph.D. Ингбер также является профессором биологии сосудов Гарвардской медицинской школы и программы сосудистой биологии в Бостонской детской больнице Джуды Фолкман, а также профессором биоинженерии в Гарвардском университете имени Джона А. Школа инженерии и прикладных наук Полсона.
Это исследование было поддержано программой Predictive BioAnalytics Initiative в Институте биологической инженерии Висса.