Глобальный набор данных изображений Земли с высоким разрешением с открытым исходным кодом — самый обширный и подробный в своем роде — был разработан экспертами во главе с UCL на основе данных Европейского космического агентства (ЕКА).
Бесплатный набор данных WorldStrat будет представлен на конференции NeurIPS 2022 в Новом Орлеане. Он включает почти 10 000 км² бесплатных спутниковых изображений, показывающих все типы местоположений, городских районов и землепользования , от сельского хозяйства, лугов и лесов до городов любого размера и полярных ледяных шапок.
Набор данных включает места на Глобальном Юге и те, кто нуждается в гуманитарной помощи , которые часто недостаточно представлены на спутниковых снимках, поскольку они обычно собираются для коммерческой выгоды, поэтому непропорционально представлены более богатые регионы.
Ученые говорят, что коллекция позволяет проводить анализ местности во всем мире для решения глобальных проблем, таких как реагирование на природные и техногенные катастрофы, управление природными ресурсами и городское планирование.
Работа над WorldStrat началась в 2021 году, и с момента его запуска в июне 2022 года его скачали более 3000 раз.
Руководитель проекта д-р Жюльен Корнебиз (UCL Computer Science) сказал: «Сочетание коммерческих изображений высокого разрешения и машинного обучения имеет огромный потенциал для анализа всей планеты, который может помочь в решении всех видов глобальных проблем — проблема в том, что коммерческая данные часто блокируются платным доступом».
«Программа ESA TPM сделала наш проект возможным, предоставив бесплатный доступ к данным, которые обычно обходятся очень дорого».
Команда использовала данные спутников Airbus SPOT 6 и SPOT 7, заказанных ЕКА и запущенных в 2012 и 2014 годах соответственно. Спутники могут предоставлять изображения с разрешением до 1,5 м на пиксель, что означает, что каждый пиксель представляет собой область размером 1,5 м на 1,5 м на земле.
Ученые использовали около 4000 высокодетализированных изображений со спутников SPOT. Даже если эти изображения имеют высокое (пространственное) разрешение, они имеют низкое временное разрешение, что означает в этом контексте, что каждый спутник не посещает и не повторяет регулярно каждое место. Это связано с тем, что изображения, сделанные спутниками, изначально предназначались для использования в конкретных коммерческих целях, а не для долгосрочного анализа.
Чтобы бороться с этим, команда также использовала свободно доступные изображения с более низким разрешением со спутника Copernicus Sentinel-2. Они имеют более высокое временное разрешение , то есть они были сняты в более регулярные моменты времени каждые пять дней. Они сопоставили каждое изображение SPOT с 16 изображениями Copernicus Sentinel-2, используя в общей сложности около 64 000 изображений.
Исследователи разработали набор данных, чтобы также поддержать разработку приложений машинного обучения для его расширения и улучшения, например, для дальнейшего улучшения разрешения изображения. Чтобы обеспечить разработку дополнительных приложений, ученые разработали набор инструментов искусственного интеллекта, а также полный исходный код, что позволяет разработчикам воспроизводить, расширять и преобразовывать работу.
Доктор Корнебиз продолжил: «Тысячи пользователей данных со всего мира уже загрузили WorldStrat, и мы с нетерпением ждем возможности увидеть, как они расширят и улучшат его, используя методы машинного обучения».