Многозадачный инструмент искусственного интеллекта для извлечения данных о раке в рекордно короткие сроки

«Наблюдение за раком на уровне населения имеет решающее значение для мониторинга эффективности инициатив общественного здравоохранения, направленных на предотвращение, обнаружение и лечение рака», – сказала Джина Турасси, директор Института медицинских данных и Национального центра вычислительных наук Министерства энергетики США. Национальная лаборатория Окриджа. «Сотрудничая с Национальным институтом рака, моя команда разрабатывает передовые решения в области искусственного интеллекта для модернизации национальной программы наблюдения за раком за счет автоматизации трудоемких операций по сбору данных и предоставления отчетов о раке почти в реальном времени."

С помощью цифровых реестров рака ученые могут определять тенденции в диагностике рака и ответных мерах по лечению, что, в свою очередь, может помочь направить средства на исследования и общественные ресурсы. Однако, как и болезнь, которую они отслеживают, отчеты о онкологической патологии сложны.

Различия в обозначениях и языке должны интерпретироваться регистраторами рака человека, обученными анализировать отчеты.
Чтобы лучше использовать данные о раке для исследований, ученые ORNL разрабатывают инструмент обработки естественного языка на основе искусственного интеллекта для улучшения извлечения информации из текстовых отчетов о патологии. Проект является частью сотрудничества Министерства энергетики и Национального института рака, известного как Joint Design of Advanced Computing Solutions for Cancer (JDACS4C), которое ускоряет исследования за счет объединения данных о раке с расширенным анализом данных и высокопроизводительными вычислениями.

Как крупнейшая лаборатория Управления науки Министерства энергетики США, ORNL располагает уникальными вычислительными ресурсами для решения этой проблемы, включая самый мощный в мире суперкомпьютер для искусственного интеллекта и безопасную среду данных для обработки защищенной информации, такой как данные о здоровье. Через свою программу эпиднадзора, эпидемиологии и конечных результатов (SEER) NCI получает данные из реестров рака, таких как Реестр опухолей Луизианы, который включает информацию о диагнозе и патологии для отдельных случаев раковых опухолей.
«Извлечение информации вручную является дорогостоящим, трудоемким и подверженным ошибкам, поэтому мы разрабатываем инструмент на основе ИИ», – сказал Мохаммед Алавад, научный сотрудник Управления вычислений и вычислительных наук ORNL и ведущий автор статьи, опубликованной в Journal of Американская ассоциация медицинской информатики по результатам работы инструмента искусственного интеллекта команды.

В первом отчете о онкологической патологии команда разработала многозадачную сверточную нейронную сеть, или CNN – модель глубокого обучения, которая учится выполнять задачи, такие как определение ключевых слов в тексте, путем обработки языка как двумерного набор числовых данных.

«Мы используем общую технику, называемую встраиванием слов, при которой каждое слово представляет собой последовательность числовых значений», – сказал Алавад.
Слова, которые имеют семантическую связь – или вместе передают значение – близки друг к другу в пространственном пространстве как векторы (значения, которые имеют величину и направление). Эти текстовые данные вводятся в нейронную сеть и фильтруются через сетевые слои в соответствии с параметрами, которые находят связи в данных. Эти параметры затем все больше оттачиваются по мере обработки все большего и большего количества данных.

Хотя некоторые однозадачные модели CNN уже используются для просмотра отчетов о патологии, каждая модель может извлекать только одну характеристику из диапазона информации в отчетах. Например, однозадачную CNN можно обучить извлекать только первичный очаг рака, выводя орган, в котором был обнаружен рак, такой как легкие, простата, мочевой пузырь или другие.

Но для извлечения информации о гистологической степени или росте раковых клеток потребуется обучение отдельной модели глубокого обучения.
Исследовательская группа увеличила эффективность, разработав сеть, которая может выполнять несколько задач примерно за то же время, что и однозадачная CNN. Нейронная сеть команды одновременно извлекает информацию по пяти характеристикам: первичный участок (орган тела), латеральность (правый или левый орган, если применимо), поведение, гистологический тип (тип клеток) и гистологический класс (насколько быстро растут раковые клетки. или распространение).

Многозадачный CNN команды выполнил и превзошел однозадачный CNN по всем пяти задачам за одно и то же время, что сделало его в пять раз быстрее. Однако Алавад сказал: «Дело не в том, что он в пять раз быстрее.

Дело в том, что это в n раз быстрее. Если бы у нас было n разных задач, это заняло бы одну энную часть времени на задачу."
Ключом к успеху команды стала разработка архитектуры CNN, которая позволяет слоям обмениваться информацией между задачами без снижения эффективности или снижения производительности.

«Это эффективность в вычислениях и эффективность в производительности», – сказал Алавад. «Если мы используем однозадачные модели, то нам нужно разработать отдельную модель для каждой задачи. Однако при многозадачном обучении нам нужно разработать только одну модель, но разработка этой одной модели, выяснение архитектуры, требовала вычислительных затрат времени. Нам понадобился суперкомпьютер для разработки модели."

Чтобы построить эффективную многозадачную CNN, они использовали самый мощный и умный суперкомпьютер в мире – суперкомпьютер Summit на 200 петафлопс в ORNL, который имеет более 27 600 графических процессоров, оптимизированных для глубокого обучения.
Команда начала с разработки двух типов многозадачных архитектур CNN – общего метода машинного обучения, известного как жесткое совместное использование параметров, и метода, показавшего некоторый успех с классификацией изображений, известной как вышивка крестиком. Жесткое совместное использование параметров использует одни и те же параметры для всех задач, тогда как при вышивке крестиком используется больше параметров, фрагментированных между задачами, в результате чего выходные данные должны быть «сшиты» вместе.
Чтобы обучить и протестировать многозадачные CNN с реальными данными о здоровье, команда использовала защищенную среду данных ORNL и более 95000 отчетов о патологии из реестра опухолей Луизианы.

Они сравнили свои CNN с тремя другими устоявшимися моделями ИИ, включая однозадачную CNN.
«Помимо предложения ресурсов высокопроизводительных вычислений и научных вычислений, в ORNL есть место для обучения и хранения защищенных данных – все это вместе очень важно», – сказал Алавад.
В ходе тестирования они обнаружили, что модель многозадачности с жестким совместным использованием параметров превосходит четыре другие модели (включая многозадачную модель с вышивкой крестиком) и повышает эффективность за счет сокращения времени вычислений и энергопотребления. По сравнению с однозадачной CNN и традиционными моделями ИИ, многозадачная CNN с жестким разделением параметров решила задачу за короткий промежуток времени и наиболее точно классифицировала каждую из пяти характеристик рака.

«Следующим шагом будет запуск крупномасштабного исследования пользователей, в ходе которого технология будет развернута во всех онкологических реестрах для определения наиболее эффективных способов интеграции в рабочие процессы реестров. Цель состоит не в том, чтобы заменить человека, а, скорее, в его увеличении », – сказал Турасси.