Connect with us

Hi, what are you looking for?

Наука и технологии

Создана модель для создания художественных изображений на основе текстовых описаний

Создана модель для создания художественных изображений на основе текстовых описаний

Инструменты искусственного интеллекта (ИИ) оказались очень ценными для выполнения широкого круга задач. Хотя они в основном используются для повышения производительности или упрощения повседневных процессов, они также показали себя многообещающими для автоматического создания творческих текстов и художественных изображений.

Исследователи из Университета Ватерлоо и Института Куранта Нью-Йоркского университета недавно создали инструмент искусственного интеллекта, который может автоматически генерировать уникальные художественные изображения на основе текстовых описаний. Их метод, представленный в статье, предварительно опубликованной на arXiv, основан на состязательной сети, генерирующей динамическую память (DM-GAN), модели, основанной на двух искусственных нейронных сетях , которые работают вместе для создания все более убедительных изображений.

«Мы создаем комплексное решение, которое может генерировать художественные изображения из текстовых описаний», — говорит Цинхэ Тянь и проф. Жан-Клод Франкитти писал в своей газете.

Ключевой идеей недавней работы Тиана и Франкитти было создание модели, которая могла бы использовать текстовые описания, предоставленные пользователями, для создания художественных изображений, соответствующих этим описаниям. Это позволило бы людям с ограниченными возможностями, которые мешают им эффективно рисовать, и другим людям, которые не очень хорошо рисуют, создавать красивые художественные изображения, изображающие конкретные вещи.

Однако большинство существующих наборов данных для обучения генеративных моделей содержат либо помеченные изображения, либо тексты, а не изображения в сочетании с их текстовыми описаниями. Поэтому исследователям пришлось придумать альтернативный способ обучения своей модели.

«Из-за отсутствия наборов данных с парным текстовым описанием и художественными изображениями трудно напрямую обучить алгоритм, который может создавать искусство на основе ввода текста», — объясняют исследователи в своей статье. «Чтобы решить эту проблему, мы разделили нашу задачу на три этапа».

Во-первых, исследователи использовали свою модель DM-GAN для создания реалистичного изображения, представляющего собой текстовое описание. Впоследствии они использовали ResNet, искусственную нейронную сеть с несколькими слоями, чтобы классифицировать изображение, созданное DM-GAN, в одну из жанровых категорий, указанных в наборе данных WikiArt.

Набор данных WikiArt, который часто использовался для обучения методам глубокого обучения, содержит более 40 000 художественных картин, созданных 195 художниками. После того, как изображение, созданное DM-GAN, было отнесено к одной из жанровых категорий, указанных WikiArt, модель может выбрать стиль рисования, совместимый с этой жанровой категорией, и перенести его на сгенерированное изображение с помощью нейронной сети художественной стилизации.

Исследователи оценили свой многоосновной метод в серии первоначальных пробных экспериментов. Хотя он достиг довольно хороших результатов, они хотели бы улучшить его производительность в своих следующих работах.

«В целом мы получаем приемлемые результаты для нескольких комбинаций ввода текста и желаемых стилей», — пишут исследователи в своей статье. «Однако есть еще много областей нашего решения, которые можно улучшить. В частности, мы планируем добавить модуль распознавания речи, чтобы люди с ограниченными возможностями рук могли вводить данные голосом, а не печатать».

В будущем техника, разработанная Тианом и Франкитти, потенциально может быть интегрирована в графические и графические приложения, что позволит всем людям создавать высококачественные художественные изображения, независимо от их способностей и художественных талантов. Код модели, разработанной исследователями, находится в открытом доступе на GitHub . В своих следующих исследованиях команда также планирует сравнить его производительность с другими методами генерации изображений и улучшить производительность отдельных компонентов.

Создана модель для создания художественных изображений на основе текстовых описаний

Теги: ИИ

В тренде