Используя генеративный искусственный интеллект, группа исследователей Техасского университета в Остине преобразовала звуки из аудиозаписей в изображения с видом на улицу. Визуальная точность этих сгенерированных изображений демонстрирует, что машины могут воспроизводить человеческую связь между аудио- и визуальным восприятием окружающей среды.
В статье, опубликованной в журнале Computers, Environment and Urban Systems , исследовательская группа описывает обучение модели искусственного интеллекта, преобразующей звуковой ландшафт в изображение, с использованием аудио- и визуальных данных, собранных с различных городских и сельских улиц, а затем использование этой модели для генерации изображений из аудиозаписей.
«Наше исследование показало, что акустическая среда содержит достаточно визуальных подсказок для создания высокоузнаваемых изображений уличного пейзажа, которые точно отображают различные места», — сказал Юхао Кан, доцент кафедры географии и окружающей среды в Техасском университете и соавтор исследования. «Это означает, что мы можем преобразовать акустическую среду в яркие визуальные представления, эффективно переводя звуки в зрелища».
Используя видео и аудио YouTube из городов Северной Америки, Азии и Европы, команда создала пары 10-секундных аудиоклипов и кадров изображений из разных мест и использовала их для обучения модели ИИ, которая могла создавать изображения высокого разрешения из аудиовхода. Затем они сравнили творения ИИ по преобразованию звука в изображение, сделанные из 100 аудиоклипов, с соответствующими им реальными фотографиями, используя как человеческие, так и компьютерные оценки.
Компьютерные оценки сравнивали относительные пропорции зелени, зданий и неба на исходных и сгенерированных изображениях, в то время как экспертов-людей просили правильно сопоставить одно из трех сгенерированных изображений с аудиообразцом.
Результаты показали сильную корреляцию в пропорциях неба и зелени между сгенерированными и реальными изображениями и немного меньшую корреляцию в пропорциях зданий. А участники-люди в среднем имели 80% точности при выборе сгенерированных изображений, которые соответствовали исходным аудиообразцам.
«Традиционно способность представлять себе сцену по звукам является уникальной человеческой способностью, отражающей нашу глубокую сенсорную связь с окружающей средой . Использование нами передовых методов искусственного интеллекта, поддерживаемых большими языковыми моделями (LLM), демонстрирует, что у машин есть потенциал приблизиться к этому человеческому сенсорному опыту», — сказал Канг.
«Это говорит о том, что ИИ может выйти за рамки простого распознавания физического окружения и потенциально обогатить наше понимание субъективного опыта человека в разных местах».
Помимо приблизительного воспроизведения пропорций неба, зелени и зданий, созданные изображения часто сохраняли архитектурные стили и расстояния между объектами своих реальных аналогов, а также точно отражали, были ли записаны звуковые ландшафты в условиях солнечного, облачного или ночного освещения.
Авторы отмечают, что информация об освещении может исходить из изменений активности в звуковых ландшафтах. Например, звуки дорожного движения или стрекотание ночных насекомых могут указывать на время суток. Такие наблюдения способствуют пониманию того, как мультисенсорные факторы влияют на наше восприятие места.
«Когда вы закрываете глаза и слушаете, звуки вокруг вас рисуют картины в вашем воображении», — сказал Канг. «Например, далекий гул транспорта становится шумным городским пейзажем, а нежный шелест листьев переносит вас в безмятежный лес. Каждый звук сплетает яркий гобелен сцен, как по волшебству, в театре вашего воображения».
Работа Канга сосредоточена на использовании геопространственного ИИ для изучения взаимодействия людей с окружающей средой. В другой недавней статье, опубликованной в Humanities and Social Sciences Communications , он и его соавторы исследовали потенциал ИИ для захвата характеристик, которые придают городам их уникальную идентичность.