Исследователи Амстердамского университета вместе с коллегами из Университета Квинсленда и Норвежского института водных исследований разработали стратегию использования машинного обучения для оценки токсичности химических веществ.
Они представили свой подход в статье журнала Environmental Science & Technology для специального выпуска «Наука о данных для развития экологических наук, инженерии и технологий». Модели, разработанные в этом исследовании, могут привести к существенным улучшениям по сравнению с обычными оценками «in silico», основанными на моделировании количественной зависимости структура-активность (QSAR).
По словам исследователей, использование машинного обучения может значительно улучшить оценку опасности молекул как при разработке новых химических веществ с учетом их безопасности, так и при оценке существующих химических веществ. Важность последнего подтверждается тем фактом, что химические агентства Европы и США перечислили около 800 000 химических веществ, которые были разработаны на протяжении многих лет, но для которых почти нет данных о поведении в окружающей среде или токсичности.
Поскольку экспериментальная оценка химической судьбы и токсичности требует много времени, усилий и ресурсов, подходы к моделированию уже используются для прогнозирования показателей опасности. В частности, часто применяется моделирование количественной зависимости структура-активность (QSAR), связывающее молекулярные характеристики, такие как расположение атомов и трехмерная структура, с физико-химическими свойствами и биологической активностью.
На основе результатов моделирования (или данных измерений, если таковые имеются) эксперты классифицируют молекулу по категориям, определенным, например, в Согласованной на глобальном уровне системе классификации и маркировки химических веществ (СГС). Для конкретных категорий молекул затем проводятся дополнительные исследования, более активный мониторинг и, в конечном итоге, законодательство.
Однако этому процессу присущи недостатки, многие из которых можно отнести к ограничениям моделей QSAR. Они часто основаны на очень однородных обучающих наборах и предполагают линейную зависимость структура-активность для проведения экстраполяций. В результате многие химические вещества плохо представлены в существующих моделях QSAR, и их использование потенциально может привести к существенным ошибкам прогнозирования и неправильной классификации химических веществ.
Пропуск прогноза QSAR
В своей статье, опубликованной в журнале Environmental Science & Technology , д-р Саер Саманипур и соавторы предлагают альтернативную стратегию оценки, которая полностью пропускает этап прогнозирования QSAR.
Саманипур, ученый-эколог из Института молекулярных наук Ван-т-Хоффа Амстердамского университета, объединилась с доктором Антонией Преториус, химиком-экологом из Института биоразнообразия и динамики экосистем того же университета. Вместе с коллегами из Квинслендского университета и Норвежского института водных исследований они разработали основанную на машинном обучении стратегию прямой классификации острой водной токсичности химических веществ на основе молекулярных дескрипторов.
Модель была разработана и протестирована на основе 907 экспериментально полученных данных по острой токсичности для рыб (96-часовые значения LC50). Новая модель пропускает явный прогноз значения токсичности (96 ч LC50) для каждого химического вещества, но напрямую классифицирует каждое химическое вещество по ряду заранее определенных категорий токсичности.
Эти категории могут, например, определяться специальными правилами или системами стандартизации, как показано в статье с категориями СГС для острой опасности в водной среде. Модель объяснила около 90% дисперсии данных, используемых в обучающем наборе, и около 80% для данных тестового набора.
Более точные прогнозы
Эта стратегия прямой классификации привела к пятикратному уменьшению неправильной категоризации по сравнению со стратегией, основанной на регрессионной модели QSAR. Впоследствии исследователи расширили свою стратегию, чтобы предсказать категории токсичности большого набора из 32 000 химических веществ.
Они демонстрируют, что их прямой подход к классификации приводит к более точным прогнозам, поскольку наборы экспериментальных данных из разных источников и для разных семейств химических веществ могут быть сгруппированы для создания более крупных обучающих наборов. Его можно адаптировать к различным предопределенным категориям в соответствии с различными международными нормами и системами классификации или маркировки.
В будущем подход с прямой классификацией также может быть расширен на другие категории опасности (например, хроническая токсичность ), а также на поведение в окружающей среде (например, мобильность или стойкость), и демонстрирует большой потенциал для улучшения инструментов in-silico для оценки химической опасности и риска.
Теги: ИИ