Научный руководитель — Д.А. Бойко, ИОХ РАН
В настоящее время в органическом синтезе широко применяются катализаторы, содержащие комплексы переходных металлов. Использование данных катализаторов способствует повышению скорости реакции и выхода. Важным аспектом при изучении механизмов химических превращений является определение присутствия соединений переходных металлов в реакционных смесях. В качестве наиболее универсального метода анализа широко используется масс-спектрометрия. Однако из-за большого количества сигналов (десятки и сотни тысяч на приборах сверхвысокого разрешения) ручная обработка спектров является трудоёмким процессом. Для разрешения данной проблемы использование алгоритмов машинного обучения представляется весьма перспективным решением. Такие алгоритмы позволяют автоматизировано обрабатывать большое количество спектров за короткий период времени. При этом преимущество классических алгоритмов перед нейронными сетями заключается в их меньшей вычислительной сложности, что, безусловно, влияет на скорость их работы.
Целью нашей работы было создание модели классического машинного обучения, позволяющей с высокой точностью определить присутствие заданных элементов в изотопных распределениях ионов в масс-спектрах.
Для достижения поставленной цели необходимо было осуществить следующие задачи: сгенерировать набор данных, на котором в дальнейшем будут обучаться модели, выбрать алгоритмы машинного обучения, обучить их и оценить качество их работы.
Для генерации тренировочного датасета с базы данных химических соединений Pubchem было выгружено порядка одного миллиона химических формул. Случайным образом из списка было выбрано 50 тысяч веществ, для каждого из которых с помощью специализированного программного обеспечения были рассчитаны изотопные распределения. Во избежание переобучения моделей изотопные распределения были аугментированы: каждое изотопное распределение модифицировалось случайным образом для того, чтобы отразить погрешность экспериментальных измерений. Полученные данные были переведены в вектор, в начале которого последовательно располагаются интенсивности, а в конце отношение массы к заряду иона. Эти вектора для каждой формулы были объединены в матрицу, являющуюся искомым тренировочным набором данных.
После этого были выбраны 5 классификаторов, для каждого из которых было проделана кросс-валидация с делением тренировочного датасета на 5 частей, что позволило выбрать оптимальные гиперпараметры и добиться лучших результатов на тренировочном датасете. Для оценки качества моделей была использована метрика ROC AUC, показывающая площадь под кривой ошибок.
Для итоговой оценки качества моделей был использован 441 реальный спектр высокого разрешения, зарегистрированный на масс-спектрометре с времяпролетным масс-анализатором Bruker maXis с разрешением до 30 000.
В результате работы обученные модели с высокой точностью определяют в соединениях серебро, медь и никель. Также с хорошей точностью детектируют палладий, бром и хлор.
Список литературы:
1.Boiko D.A., Kozlov K.S., Burykina J.V., Ilyushenkova V.V., Ananikov V.P. Fully Automated Unconstrained Analysis of High-Resolution Mass Spectrometry Data with Machine Learning // J. Am. Chem. Soc. 2022, 144, 32, 14590–14606.
2.Масс-спектрометрия в органической химии / А.Т. Лебедев. — М.: БИНОМ. Лаборатория знания, 2003.