Connect with us

Hi, what are you looking for?

Наука и технологии

Новый набор инструментов для химии ускоряет анализ молекул в растворе

Новый набор инструментов для химии ускоряет анализ молекул в растворе
Новый набор инструментов для химии ускоряет анализ молекул в растворе

Новый набор инструментов с открытым исходным кодом автоматизирует процесс вычисления молекулярных свойств в фазе растворения, открывая новые пути для разработки и открытия искусственного интеллекта в химии и за ее пределами. Журнал химической физики опубликовал бесплатный набор инструментов с открытым исходным кодом, разработанный химиками-теоретиками из Университета Эмори.

Набор инструментов, известный как AutoSolvate, может ускорить создание больших высококачественных наборов данных, необходимых для достижения прогресса во всем, от возобновляемых источников энергии до здоровья человека.

«Используя наш автоматизированный рабочий процесс, исследователи могут быстро генерировать в 10 или даже в 100 раз больше данных по сравнению с традиционным подходом», — говорит Фанг Лю, доцент кафедры химии Эмори и соответствующий автор статьи. «Мы надеемся, что многие исследователи получат доступ к нашему набору инструментов для высокопроизводительного моделирования и обработки данных для молекул в растворе».

Такие наборы данных, добавляет Лю, послужат основой для применения передовых методов машинного обучения для внедрения инноваций в широкий спектр научных направлений.

Первым автором статьи является Евгений Хруска, научный сотрудник лаборатории Лю. Соавторы включают доктора философии Эмори. кандидат Ариэль Гейл и Сяо Хуан, которые работали над статьей, будучи студентом Эмори, а сейчас аспирант кафедры химии в Университете Дьюка.

Изучение квантового мира

Химик-теоретик Лю возглавляет группу, специализирующуюся на вычислительной квантовой химии, включая моделирование и расшифровку молекулярных свойств и реакций в фазе раствора.

Мир становится намного более сложным по мере того, как он сжимается до масштабов атомов и малых молекул , где квантовая механика описывает корпускулярно-волновой дуализм энергии и материи.

Химики-теоретики используют суперкомпьютеры для моделирования структуры молекул и огромного количества взаимодействий, которые могут происходить во время реакции, чтобы они могли предсказать, как молекула будет вести себя в определенных условиях. Понимание этой динамики является ключом к выявлению перспективных молекул для различных приложений и эффективного управления реакциями.

Исследователи уже создали наборы данных о свойствах многих молекул в газовой фазе. Однако молекулярные свойства в фазе раствора остаются относительно неизученными в контексте больших данных и машинного обучения, несмотря на то, что большинство реакций происходит в растворе.

Проблема в том, что изучение молекулы в растворе требует гораздо больше времени и усилий.

Сложный процесс

«В газовой фазе молекулы находятся далеко друг от друга, — объясняет Лю, — поэтому, когда мы изучаем интересующую молекулу, нам не нужно рассматривать ее соседей».

Однако в фазе раствора молекула тесно погружена во многие другие молекулы, что делает систему намного больше. «Представьте себе молекулу растворителя, окруженную слоями молекул воды, — говорит Лю. «В зависимости от размера и структуры молекула может быть покрыта десятками или даже сотнями молекул воды. В системах такого большого размера вычисления будут медленными и могут быть даже неосуществимыми».

Перед запуском программы квантовой химии для молекулы в фазе раствора необходимо сначала определить геометрию молекулы, а также расположение и ориентацию окружающих молекул растворителя.

«Этот процесс трудновыполним, — говорит Лю. «Это требует так много времени и усилий, и это так сложно, что исследователь может выполнить этот расчет только для нескольких систем, которые ему интересны, в одной статье», — говорит Лю.

Технические проблемы также могут возникать на каждом этапе процесса, добавляет она, что приводит к ошибкам в результатах.

Оптимизированное решение

Лю и ее коллеги заменили сложные шаги, необходимые для выполнения этих вычислений, своей автоматизированной системой AutoSolvate.

Раньше химику-вычислителю приходилось вводить сотни строк кода в суперкомпьютер, чтобы запустить моделирование. Однако интерфейс командной строки для AutoSolgate требует всего несколько строк кода для автоматического выполнения сотен вычислений.

«Время запуска моделирования может быть долгим, но это работа для компьютера», — говорит Лю. «Мы освободили исследователей от большинства утомительных ручных задач по вводу данных, чтобы они могли сосредоточиться на анализе своих результатов и другой творческой работе».

В дополнение к интерфейсу командной строки, предназначенному для более опытных химиков-теоретиков, AutoSolgate включает в себя интуитивно понятный графический интерфейс, который подходит для аспирантов, которые учатся проводить моделирование.

Лаборатории теперь могут эффективно генерировать множество точек данных для сольватированных молекул, а затем использовать набор данных для создания моделей машинного обучения для химического дизайна и открытий. AutoSolgate также упрощает создание наборов данных и обмен ими между различными исследовательскими группами.

Подготовка к машинному обучению

«За последние 10 лет машинное обучение стало популярным инструментом для изучения химии, но узким местом стало отсутствие наборов вычислительных данных», — говорит Лю. «AutoSolgate позволит исследовательскому сообществу курировать огромное количество наборов данных для молекулярных свойств в фазе решения».

Определение окислительно-восстановительного потенциала молекулы растворителя или вероятности возникновения окисления — лишь один из примеров ключевой области исследований, в развитии которой AutoSolvate может помочь. Редокс-активные молекулы имеют потенциал для применения в разработке противораковых препаратов и химических батарей для хранения возобновляемой энергии.

«Создание наборов данных о окислительно-восстановительном потенциале позволит нам использовать машинное обучение для просмотра миллионов различных соединений, чтобы быстро найти те, у которых окислительно-восстановительный потенциал находится в нужном диапазоне», — говорит Лю.

Вместо результата «черного ящика» такой анализ больших наборов данных может дать интерпретируемый искусственный интеллект или базовые правила для молекулярных моделей.

«Конечная цель — определить правила, которые затем можно применять для решения широкого круга фундаментальных научных проблем», — говорит Лю.

В тренде