Удивительно, но до сих пор это было невозможно. Биологи Калифорнийского университета в Сан-Диего разработали первую систему для определения экспрессии генов на основе машинного обучения. Учитывая отсутствие такого метода, новый процесс считается для биологов разновидностью генетического розеттского камня.
«Эта статья представляет собой первый метод, позволяющий отличить гены, которые могут быть экспрессированы, от генов, которые не могут быть экспрессированы», – сказал Стив Бриггс, профессор отделения биологических наук и старший автор статьи. "Это основа всей биологии.
Будь то открытие лекарств, селекция или эволюция растений, это касается фундаментальных исследований биологии."
Метод, разработанный аспирантом Райаном Сартором, Бриггсом и их коллегами, описан 12 августа 2019 года в Трудах Национальной академии наук.
Биологи ранее классифицировали экспрессию генов с помощью экспериментальных наблюдений и ссылок на научную литературу.
Но в области геномики отсутствовал формализованный процесс раскрытия этой информации, называемый «набор экспрессируемых генов», или EGS, который включает все гены, кодирующие белок, с потенциалом экспрессии.
«В биологии не существует метода для этого», – сказал Бриггс. «В прошлом у нас были только эмпирические подходы к составлению каталогов – у нас не было научных критериев, которые классифицируют гены на основе их молекулярных характеристик."
Новый метод использует машинное обучение, использование алгоритмов и других процессов для анализа данных и основан на наборе примеров из почти 30 000 генов растений кукурузы, содержащих конкретные, подробные молекулярные особенности. Продвинутый алгоритм был обучен на данных и «научился» классифицировать экспрессию генов на 99.4-процентная точность.
Ключ к успеху – объединение биологии хроматина, которая способствует регулированию упаковки ДНК в клетках, с молекулярными особенностями, которые, как известно, определяют экспрессию генов. Комбинируя их с математическим машинным обучением, новым методом определения общевидового набора транскрибируемых генов, или «экспрессома», затем создается атлас экспрессируемых генов. Этот метод также может быть полезен для понимания эволюционных механизмов, которые заглушают определенные гены.
Бриггс сейчас применяет этот метод к сорго, важному зерну для производства продуктов питания и кормов, но говорит, что он может быть полезен не только для растений.
В конечном итоге, по его словам, новый метод похож на декодер слов.
«Последовательность генома похожа на книгу», – сказал Бриггс. "Слова – это гены. До сих пор мы не могли сказать, какие последовательности ДНК были настоящими словами, а какие просто напоминали слова. Удалив не-слова, мы можем более точно читать книгу."
Соавторы статьи – Жаклин Ношей и Натан Спрингер из Университета Миннесоты. Программа исследования генома растений Национального научного фонда поддержала исследование.