«Мы можем быстро собрать целые геномы и метагеномы, включая микробные геномы, на скромном портативном компьютере», – говорит Бонни Бергер (@lab_berger), профессор математики Саймонса в лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и автор исследования. "Эта способность важна для оценки изменений в микробиоме кишечника, связанных с болезнями и бактериальными инфекциями, такими как сепсис, чтобы мы могли быстрее лечить их и спасать жизни."
Проекты сборки генома прошли долгий путь со времен проекта «Геном человека», который завершил сборку первого полного генома человека в 2003 году за сумму около 2 долларов.7 миллиардов и более десяти лет международного сотрудничества. Но хотя проекты сборки генома человека больше не занимают годы, они по-прежнему требуют нескольких дней и огромной мощности компьютера. Технологии секвенирования третьего поколения предлагают терабайты высококачественных геномных последовательностей с десятками тысяч пар оснований, однако сборка генома с использованием такого огромного количества данных оказалась сложной задачей.
Чтобы подойти к сборке генома более эффективно, чем существующие методы, которые включают попарные сравнения всех возможных пар чтений, Бергер и его коллеги обратились к языковым моделям. Основываясь на концепции графа де Брейна, простой и эффективной структуры данных, используемой для сборки генома, исследователи разработали минимизирующий пространственный граф де Бруэна (mdBG), который использует короткие последовательности нуклеотидов, называемые минимизаторами, вместо отдельных нуклеотидов.
«Наши графы де Брейна в пространстве минимизатора хранят лишь небольшую часть всех нуклеотидов, сохраняя при этом общую структуру генома, что позволяет им быть на несколько порядков более эффективными, чем классические графы де Брейна», – говорит Бергер.
Исследователи применили свой метод для сбора реальных данных HiFi (которые имеют почти идеальную точность считывания одной молекулы) для плодовых мушек Drosophila melanogaster, а также данных генома человека, предоставленных Pacific Biosciences (PacBio). Когда они оценивали полученные геномы, Бергер и его коллеги обнаружили, что их программное обеспечение на основе mdBG требовало примерно в 33 раза меньше времени и в 8 раз меньше вычислительного оборудования с оперативной памятью (ОЗУ), чем другие сборщики генома. Их программное обеспечение выполняло сборку генома для человеческих данных HiFi в 81 раз быстрее, используя в 18 раз меньше памяти, чем ассемблер Peregrine, и в 338 раз быстрее при меньшем использовании памяти в 19 раз, чем ассемблер hifiasm.
Затем Бергер и его коллеги использовали свой метод для построения индекса для коллекции из 661 406 бактериальных геномов, самой большой коллекции такого рода на сегодняшний день.
Они обнаружили, что новый метод позволяет искать во всей коллекции гены устойчивости к противомикробным препаратам за 13 минут – процесс, который занял 7 часов с использованием стандартного выравнивания последовательностей.
«Мы знали, что наше представление было эффективным, но не знали, что оно будет так хорошо масштабироваться на реальных данных после дальнейшей оптимизации кода», – говорит Бергер.
«Общая идея просто работает и не требует некоторых обычно дорогостоящих шагов предварительной обработки, таких как исправление ошибок, выполняемых большинством других методов сборки генома», – говорит Райан Чихи (@RayanChikhi), исследователь и руководитель группы в Institut Pasteur and автор исследования.
«Мы также можем обрабатывать данные секвенирования с коэффициентом ошибок до 4%», – добавляет Бергер. "Поскольку долгосрочно считываемые секвенаторы с различным уровнем ошибок быстро падают в цене, эта возможность открывает дверь к демократизации анализа данных секвенирования."
Бергер отмечает, что, хотя в настоящее время этот метод лучше всего работает при обработке считываний PacBio HiFi, уровень ошибок которых значительно ниже 1%, вскоре он может быть совместим со сверхдлинными считываниями из Oxford Nanopore, которые в настоящее время имеют частоту ошибок 5-12%, но могут скоро предложение будет читать на уровне 4%.
«Мы планируем обратиться к полевым ученым, чтобы помочь им разработать быстрые участки геномного тестирования, выходящие за рамки ПЦР и массивов маркеров, которые могут упустить важные различия между геномами», – говорит Бергер.
Эта работа была поддержана Национальными институтами здравоохранения, ANR Inception, PRAIRIE и PANGAIA.