Портал функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям.

Искусственный интеллект добывает знания из руды статей

Алгоритм анализа текстов смог на основе статей по материаловедению вывести Периодический закон и сделать другие научные открытия.

Слева – спроецированные на два измерения соотношения элементов, полученные алгоритмом «Word2vec». Справа – периодическая таблица Менделеева.
Некоторые связи веществ и свойств, выявленные алгоритмом «Word2vec», которые позволяют предсказывать термоэлектрические материалы.

Компьютеры в настоящее время могут многое: моделируют сложнейшие процессы, играют в шахматы на уровне гроссмейстера и даже пишут картины и стихи, но могут ли они совершать научные открытия? Исследователи из Национальной лаборатории Лоуренса Беркли (США) утверждают, что могут!

В статье, опубликованной в журнале Nature, они рассказали, что разработанный ими алгоритм без предварительного обучения материаловедению может открывать новые научные знания, сканируя текст миллионов статей.

Одна из проблем современной науки – в большом количестве публикуемых и уже опубликованных научных работ. Учёные просто завалены  огромным количеством информации, которую они не в состоянии даже просмотреть, не говоря уже о внимательном изучении. К тому же подавляющее большинство работ публикуется в виде текста, который трудно анализировать и традиционным статистическим анализом, и современными методами машинного обучения. А ведь вся совокупность научных изданий содержит массу разрозненной информации, в том числе ценные знания о связях между элементами данных.

Исследователи собрали 3,3 миллиона рефератов из научных статей по материаловедению, опубликованных в более чем 1000 журналах в период между 1922 и 2018 годами, и загрузили их в алгоритм, который назвали «Word2vec». Ничего не зная заранее о материаловедении, анализируя лишь взаимосвязи между словами, алгоритм смог предсказать, например, открытия новых термоэлектрических материалов на годы вперед и предложить кандидатов на использование в качестве таковых. Таким образом, он может использоваться для устранения пробелов в исследованиях материалов, указывать на неисследованные вещества, которые стоит изучить.

Любопытно, что этот алгоритм самостоятельно открыл периодическую таблицу элементов и кристаллическую структуру металлов, что свидетельствует о его большом потенциале. Авторы работы утверждают, что анализ текста научной литературы может обнаружить скрытые в ней знания, а также создать систему базовых научных знаний.

Работа алгоритма «Word2vec» основана на превращении каждого из примерно 500 000 различных слов из рефератов в набор из 200 чисел (200-мерный вектор), характеризующий как слова связаны друг с другом. Эти вектора можно сравнивать, вычитать, складывать и т.д. В качестве примера приведём ситуацию, когда подобные алгоритмы обучаются на «ненаучных» данных. В этом случае, например, вектор «король минус королева» совпадёт с вектором «мужчина минус женщина». Это показывает некоторые отношения между этими понятиями, даже если мы не знаем их значений.

Аналогично, при обучении «текстовому» материаловедению алгоритм смог понять значение научных терминов и понятий, таких, как кристаллическая структура металлов, основываясь просто на сочетаниях слов в рефератах и их совпадении с другими словами. Например, он обнаружил, что вектор «ферромагнитный - NiFe + IrMn» совпадает с вектором «антиферромагнитный». Как уже сказано выше, «Word2vec» даже смог выяснить отношения между элементами в периодической таблице, когда вектор для каждого химического элемента был спроецирован на два измерения.

Поиск термоэлектрических материалов основывался на том, что вектор для различных химических соединений сравнивался с вектором слова «термоэлектрический». Чем выше их сходство, тем лучше данное вещество подходит на эту роль. Кандидаты в термоэлектрические материалы должны не только эффективно преобразовывать тепло в электричество, но и быть сделаны из материалов, которые безопасны, распространены в природе и просты в производстве. Проверив затем 10 лучших прогнозов, исследователи убедились в правильности работы алгоритма. Поэтому они решили опубликовать 50 лучших термоэлектрических материалов, предсказанных алгоритмом, с целью помочь исследованиям в этой области.

Кроме того, исследователи проверили алгоритм «машиной времени». Они закладывали в него рефераты только до определённой даты, скажем, до 2000 года, и проверяли, предскажет ли он материалы, реально открытые после неё. Оказалось – предсказывает!

Значит, используйся этот алгоритм ранее, некоторые известные сейчас материалы могли быть обнаружены на много лет раньше, чем это фактически произошло. Авторы признаются, что результаты оказались для них удивительными. Они не ожидали, что алгоритм будет обладать такими прогнозирующими свойствами.

Авторы работы опубликуют также данные, необходимые другим исследователям для создания собственных приложений, например, если они захотят найти лучший материал для топологического изолятора.

По материалам Национальной лаборатории Лоуренса Беркли (США) 

Автор: Алексей Понятов

Источник: Наука и жизнь (nkj.ru)