При небольшом обучении алгоритмы машинного обучения могут раскрыть скрытые научные знания

Команда под руководством Анубхава Джайна, ученого из отдела хранения энергии и распределенных ресурсов лаборатории Беркли, собрала 3.3 миллиона рефератов опубликованных материалов по материаловедению и загрузили их в алгоритм под названием Word2vec. Анализируя взаимосвязи между словами, алгоритм смог предсказать открытия новых термоэлектрических материалов на много лет вперед и предложить еще неизвестные материалы в качестве кандидатов на роль термоэлектрических материалов.
«Ничего не рассказывая о материаловедении, он изучил такие понятия, как периодическая таблица и кристаллическая структура металлов», – сказал Джайн. "Это намекало на потенциал техники.

Но, наверное, самое интересное, что мы выяснили, это то, что вы можете использовать этот алгоритм для устранения пробелов в исследовании материалов, вещей, которые люди должны изучать, но еще не изучены."
Результаты были опубликованы 3 июля в журнале Nature.

Ведущий автор исследования «Неконтролируемые встраивания слов, извлекающие скрытые знания из материаловедческой литературы» – Ваге Тшитоян, научный сотрудник лаборатории Беркли, сейчас работает в Google. Вместе с Джайном ученые из лаборатории Беркли Кристин Перссон и Гербранд Седер помогли провести исследование.

«В документе устанавливается, что интеллектуальный анализ текстов научной литературы может раскрыть скрытые знания, и что чистое извлечение на основе текста может установить базовые научные знания», – сказал Седер, который также работает в Департаменте материаловедения и инженерии Калифорнийского университета в Беркли.
Тшитоян сказал, что этот проект был мотивирован трудностью разобраться в огромном количестве опубликованных исследований. «В каждой области исследований есть научная литература за последние 100 лет, и каждую неделю появляются десятки новых исследований», – сказал он. "Исследователь может получить доступ только к части этого. Мы подумали, может ли машинное обучение сделать что-то, чтобы использовать все эти коллективные знания неконтролируемым образом – без необходимости руководства со стороны исследователей?"
‘Король – королева + человек = ?’

Команда собрала 3.3 миллиона рефератов из статей, опубликованных в более чем 1000 журналов с 1922 по 2018 год.

Word2vec взял каждое из примерно 500000 отдельных слов в этих отрывках и превратил каждое в 200-мерный вектор или массив из 200 чисел.
«Важно не каждое число, а использование чисел, чтобы увидеть, как слова связаны друг с другом», – сказал Джайн, возглавляющий группу, работающую над открытием и разработкой новых материалов для энергетических приложений, используя сочетание теории, вычислений и сбор данных. "Например, вы можете вычитать векторы, используя стандартную векторную математику. Другие исследователи показали, что если вы обучите алгоритм на ненаучных текстовых источниках и возьмете вектор, полученный из «король минус королева», вы получите тот же результат, что и «мужчина минус женщина».’Он выясняет отношения, даже если вы ему ничего не говорите."

Аналогичным образом, при обучении тексту по материаловедению алгоритм смог узнать значение научных терминов и понятий, таких как кристаллическая структура металлов, просто на основе положений слов в отрывках и их совпадения с другими словами. Например, так же, как он мог бы решить уравнение «король – королева + человек», он мог бы вычислить, что для уравнения «ферромагнетик – NiFe + IrMn» ответ будет «антиферромагнитный."

Word2vec даже смог узнать отношения между элементами в периодической таблице, когда вектор для каждого химического элемента был спроецирован в двух измерениях.
Прогнозирование открытий на годы вперед

Итак, если Word2vec настолько умен, сможет ли он предсказывать новые термоэлектрические материалы?? Хороший термоэлектрический материал может эффективно преобразовывать тепло в электричество и изготовлен из безопасных, богатых и простых в производстве материалов.

Команда лаборатории Беркли взяла лучших кандидатов в термоэлектрические свойства, предложенные алгоритмом, и ранжировала каждое соединение по схожести его словарного вектора со словом «термоэлектрический»."Затем они провели расчеты, чтобы проверить прогнозы алгоритма.

Они обнаружили, что все из 10 лучших прогнозов имели рассчитанные коэффициенты мощности немного выше, чем средние значения известных термоэлектриков; три лучших кандидата имели коэффициент мощности выше 95-го процентиля известных термоэлектриков.
Затем они проверили, может ли алгоритм проводить эксперименты «в прошлом», давая ему отрывки, скажем, до 2000 года.

Опять же, значительное количество предсказаний было обнаружено в более поздних исследованиях – в четыре раза больше, чем если бы материалы были выбраны просто случайным образом. Например, с тех пор были обнаружены три из пяти лучших прогнозов, подготовленных с использованием данных до 2008 года, а остальные два содержат редкие или токсичные элементы.

Результаты были удивительными. «Честно говоря, я не ожидал, что алгоритм будет так предсказывать будущие результаты», – сказал Джайн. "Я думал, что, возможно, алгоритм может описывать то, что люди делали раньше, но не придумал эти разные связи. Я был очень удивлен, когда увидел не только предсказания, но и доводы, лежащие в основе предсказаний, такие вещи, как структура полу-Гейслера, которая в наши дни является действительно горячей кристаллической структурой для термоэлектриков."
Он добавил: «Это исследование показывает, что, если бы этот алгоритм применялся раньше, некоторые материалы могли бы быть обнаружены на много лет раньше."Наряду с исследованием исследователи выпускают 50 лучших термоэлектрических материалов, предсказанных алгоритмом. Они также выпустят встраивание слов, необходимое для того, чтобы люди могли создавать свои собственные приложения, если они хотят искать, скажем, лучший материал топологического изолятора.

Далее Джейн сказал, что команда работает над более умной и мощной поисковой системой, которая позволит исследователям искать в аннотациях более удобный способ.
Исследование финансировалось Исследовательским институтом Toyota.

Другими соавторами исследования являются исследователи лаборатории Беркли Джон Дагделен, Ли Уэстон, Александр Данн и Зицин Ронг, а также исследователь Калифорнийского университета в Беркли Ольга Кононова.