Connect with us

Hi, what are you looking for?

Наука и технологии

Ученые разрабатывают новый вычислительный подход для уменьшения шума в рентгеновских данных

Ученые из Национального источника синхротронного света II (NSLS-II) и Инициативы вычислительной науки (CSI) в Брукхейвенской национальной лаборатории Министерства энергетики США (DOE) помогли решить общую проблему в экспериментах с синхротронным рентгеновским излучением: снижение шума, или бессмысленная информация, присутствующая в данных. Их работа направлена ​​на повышение эффективности и точности рентгеновских исследований в NSLS-II с целью расширения общего исследовательского опыта ученых на объекте.

NSLS-II, объект пользователя Управления науки Министерства энергетики США, производит рентгеновские лучи для изучения огромного количества образцов, от потенциальных новых материалов для батарей до растений, которые могут восстанавливать загрязненную почву. Исследователи со всей страны и со всего мира приезжают в NSLS-II, чтобы исследовать свои образцы с помощью рентгеновских лучей, собирая при этом огромное количество данных. Одним из многих рентгеновских методов, доступных в NSLS-II для приезжающих исследователей, является рентгеновская фотонная корреляционная спектроскопия (XPCS). XPCS обычно используется для изучения поведения материалов, которое зависит от времени и имеет место на наноуровне и ниже, например, динамика между структурными элементами и внутри них, такими как крошечные зерна. XPCS использовался, например, для изучения магнетизма в передовых вычислительных материалах и структурных изменений в полимерах (пластмассах).

Хотя XPCS является мощным методом сбора информации, качество собранных данных и диапазон материалов, которые могут быть изучены, ограничены «потоком» рентгеновского луча XPCS. Поток — это мера количества рентгеновских лучей, проходящих через данную область в определенный момент времени, и высокий поток может привести к слишком большому «шуму» в данных, маскируя сигнал, который ищут ученые. Попытки уменьшить этот шум были успешными для некоторых экспериментальных установок. Но для некоторых типов XPCS-экспериментов достижение более приемлемого отношения сигнал/шум является большой проблемой.

В XPCS рентгеновские лучи рассеиваются на образце, образуя спекл-структуру. Исследователи делают множество последовательных изображений узора и анализируют их, чтобы найти корреляции между их интенсивностью. Эти корреляции дают информацию о процессах в образце, которые зависят от времени, например о том, как его структура может релаксировать или реорганизоваться. Но когда изображения зашумлены, эту информацию извлечь труднее.

Для этого проекта команда намеревалась создать новые методы и модели с использованием машинного обучения (ML), типа искусственного интеллекта, при котором компьютерные программы и системы могут самостоятельно обучаться решению проблемы и адаптироваться на основе полученных данных. В проекте участвуют сотрудники двух линий пучка NSLS-II, когерентного рассеяния рентгеновских лучей (CSX) и когерентного рассеяния жесткого рентгеновского излучения (CHX), а также программы NSLS-II по науке о данных и системной интеграции (DSSI) и Брукхейвенской группы CSI.

«Хотя разработка инструментов и оптимизация экспериментальных протоколов имеют решающее значение для снижения шума, бывают ситуации, когда вычислительные методы могут еще больше продвинуть улучшения», — сказала исследователь вычислительных систем NSLS-II Татьяна Константинова. Она является первым автором статьи, которая появилась в онлайн-издании Nature’s Scientific Reports от 20 июля 2021 года .

Константинова и ее коллеги хотят создать модели, которые можно было бы применять к различным экспериментам XPCS. Они также хотят, чтобы модели можно было использовать на разных этапах проекта, от сбора данных до всестороннего анализа конечных результатов. Этот проект является примером инновационного решения проблем, которое может быть результатом открытого и совместного мышления.

«Время луча на таких объектах, как NSLS-II, является ограниченным ресурсом. Поэтому, помимо достижений в экспериментальном оборудовании, единственный способ улучшить научную производительность в целом — это работа над обобщаемыми и масштабируемыми решениями для извлечения значимых данных, а также для помощи пользователям. будьте более уверены в результатах», — сказал ученый NSLS-II Энди Барбур, главный исследователь проекта. «Мы хотим, чтобы пользователи могли больше времени уделять размышлениям о науке».

В анализе XPCS данные представляются математически с помощью так называемой двухвременной корреляционной функции интенсивность-интенсивность. Эта функция может обобщать любое зависящее от времени поведение системы и выводит набор данных. Здесь эти данные использовались в качестве входных данных для модели машинного обучения группы. Оттуда они должны были определить, как модель будет обрабатывать данные. Чтобы принять решение, команда обратилась к установленным вычислительным подходам к удалению шума. В частности, они исследовали подходы, основанные на подмножестве искусственных нейронных сетей, известных как модели «автоэнкодера». Автоэнкодеры могут обучаться реконструировать данные в более компактные версии и модифицироваться для борьбы с шумом, заменяя зашумленные цели бесшумными входными сигналами.

Недостатком многих приложений машинного обучения являются значительные ресурсы, необходимые для обучения, хранения и применения моделей. В идеале модели должны быть как можно более простыми, но при этом обеспечивать желаемую функциональность. Это особенно верно для научных приложений, где требуется опыт в конкретной области для сбора и выбора обучающих примеров.

Группа обучила свою модель, используя реальные экспериментальные данные, собранные в CHX. Они использовали разные выборки, скорости сбора данных и температуры, при этом каждый набор данных содержал от 200 до 1000 кадров. Они обнаружили, что выбранная архитектура модели ускоряет их обучение и не требует большого количества обучающих данных или вычислительных ресурсов во время ее применения. Эти преимущества дают возможность за несколько минут настроить модели под конкретный эксперимент с помощью ноутбука, оснащенного графическим процессором.

«Наши модели могут извлекать значимые данные из изображений с высоким уровнем шума, обработка которых в противном случае потребовала бы от исследователей много утомительной работы», — сказал Энтони ДеДженнаро, ученый-вычислитель из CSI, который также является главным исследователем проекта. . «Мы думаем, что они смогут служить плагинами для автономных экспериментов, например, останавливая измерения, когда будет собрано достаточно данных, или выступая в качестве входных данных для других экспериментальных моделей».

В текущей и будущей работе группа расширит возможности модели и интегрирует ее в рабочие процессы анализа данных XPCS в CHX и CSX. Они изучают, как использовать свою модель шумоподавления для выявления инструментальной нестабильности во время измерений, а также неоднородностей или другой необычной динамики в данных XPCS, присущих образцу. Обнаружение аномальных наблюдений, таких как подозрительное поведение в видео наблюдениях или мошенничество с кредитными картами, является еще одним распространенным применением моделей автокодировщика, которые также могут применяться для автоматического сбора или анализа данных.

В полную исследовательскую группу входили ученый-компьютерщик DSSI Максим Ракитин и ученый Лутц Вигарт, оба соавторы статьи. В этом исследовании использовалась Bluesky, программная библиотека, предназначенная для экспериментального контроля и сбора данных , в значительной степени разработанная NSLS-II, а также библиотеки кода Python с открытым исходным кодом, разработанные научным сообществом, включая Jupyter и Dask.

Project Jupyter — это некоммерческий проект с открытым исходным кодом, который разрабатывается на GitHub на основе консенсуса сообщества Jupyter.

Ученые разрабатывают новый вычислительный подход для уменьшения шума в рентгеновских данных

Теги: ИИ, МРТ

В тренде