Исследователи из Университета Сантьяго-де-Чили и Университета Нотр-Дам, работающие с машинным обучением, разработали метод идентификации органических соединений на основе показателя преломления на одной оптической длине волны. Этот метод может иметь исследовательское и промышленное применение для автоматизированного химического анализа, который дешевле, безопаснее и требует меньше опыта для работы.
В статье «Идентификация органических соединений с помощью машинного обучения с использованием видимого света», опубликованной в The Journal of Physical Chemistry A , исследователи документируют творческий и новый способ, которым они получили уникальный набор данных, и шаги, которые они использовали для построения доказательства. детектор органической химии концепции.
Машинное обучение обучалось на общедоступной базе данных прошлых оптических экспериментов с опубликованными данными из научной литературы, датируемой 1940 годом. В этой базе исследователи нашли все параметры, необходимые для составления идентификационных профилей для 61 органической молекулы; групповая скорость и дисперсия групповой скорости, диапазон измеряемых длин волн и состояние вещества образцов, показатели преломления и коэффициенты экстинкции в широком диапазоне длин волн. Всего было применено 194 816 спектральных записей показателей преломления и кривых экстинкции 61 органического соединения и полимера.
В типичном инфракрасном (ИК) детекторе молекулярной классификации идентичность молекул подтверждается пиками поглощения и комбинационного рассеяния, создавая отпечаток комбинированных признаков, сопоставленных с базой данных. Статический показатель преломления органических соединений является однозначным признаком, который не имеет одинаковой закодированной информации. То же самое относится к базам данных показателей преломления на отдельных длинах волн вдали от резонансов поглощения ультрафиолетового и инфракрасного излучения, возможно, поэтому видимый свет не использовался для классификации органических молекул.
Первоначальное тестирование с необработанными данными достигло 80%, и исследователи попытались увеличить его оттуда. Первоначальная база данных не предназначалась для оптимизации машинного обучения , поскольку большая ее часть была получена в результате исследований, проведенных до изобретения первого домашнего компьютера. Было огромное количество информации о длинах волн в УФ- и ИК-диапазонах, на которых проходил перекрестное обучение ИИ. Поэтому исследователи решили применить более целенаправленный подход.
Было использовано несколько стратегий предварительной обработки данных, чтобы смоделировать более идеализированную среду обучения для ИИ. Цель состояла в том, чтобы создать сбалансированный набор данных, чтобы ИИ не отдавал приоритет одним функциям по сравнению с другими только по объему информации. Передискретизация и недостаточная выборка, а также методы увеличения данных, основанные на физических данных, использовались для существенного уменьшения влияния ИК-длин волн на общий набор данных. Обучаясь с предварительно обработанными сбалансированными данными, исследователи добились точности тестирования молекулярной классификации в видимых областях выше 98%.
Исследователи заявляют, что необходима дополнительная работа по расширению и обобщению классификатора для определения структурных и других химических особенностей молекул, присутствующих в базе данных показателей преломления. Подводя итог, они пишут, что работа является хорошей отправной точкой для разработки удаленных химических сенсоров.
Теги: полимеры