Обучение машины распознавать действия человека имеет много потенциальных применений, например, автоматическое обнаружение рабочих, упавших на строительной площадке, или предоставление возможности умному домашнему роботу интерпретировать жесты пользователя.
Для этого исследователи обучают модели машинного обучения, используя обширные наборы данных видеоклипов, которые показывают, как люди выполняют действия. Однако не только дорого и трудоемко собирать и маркировать миллионы или миллиарды видео, но и клипы часто содержат конфиденциальную информацию, такую как лица людей или номерные знаки. Использование этих видео может также нарушать законы об авторском праве или защите данных . И это предполагает, что видеоданные в первую очередь общедоступны — многие наборы данных принадлежат компаниям и не могут использоваться бесплатно.
Поэтому исследователи обращаются к синтетическим наборам данных. Они создаются компьютером, который использует 3D-модели сцен, объектов и людей для быстрого создания множества различных клипов с конкретными действиями — без потенциальных проблем с авторскими правами или этических проблем , связанных с реальными данными.
Но так ли «хороши» синтетические данные , как настоящие? Насколько хорошо работает модель, обученная на этих данных, когда ее просят классифицировать реальные действия человека? Группа исследователей из Массачусетского технологического института, Лаборатории искусственного интеллекта Watson MIT-IBM и Бостонского университета попыталась ответить на этот вопрос. Они создали синтетический набор данных из 150 000 видеоклипов, в которых запечатлен широкий спектр человеческих действий, которые они использовали для обучения моделей машинного обучения. Затем они показали этим моделям шесть наборов данных видео из реального мира, чтобы увидеть, насколько хорошо они могут научиться распознавать действия в этих клипах.
Исследователи обнаружили, что синтетически обученные модели работали даже лучше, чем модели, обученные на реальных данных, для видео с меньшим количеством фоновых объектов.
Эта работа может помочь исследователям использовать синтетические наборы данных таким образом, чтобы модели достигали более высокой точности в реальных задачах. Это также может помочь ученым определить, какие приложения машинного обучения лучше всего подходят для обучения с использованием синтетических данных, чтобы смягчить некоторые проблемы этики, конфиденциальности и авторских прав, связанные с использованием реальных наборов данных.
«Конечная цель нашего исследования — заменить предварительную подготовку реальных данных предварительной подготовкой синтетических данных. Создание действия в синтетических данных требует затрат, но как только это будет сделано, вы сможете создавать неограниченное количество изображений или видео, изменяя поза, освещение и т. д. В этом вся прелесть синтетических данных», — говорит Рожерио Ферис, главный научный сотрудник и менеджер лаборатории искусственного интеллекта Watson AI Lab при Массачусетском технологическом институте IBM и соавтор статьи, подробно описывающей это исследование.
Автором статьи является ведущий автор Йо-ван «Джон» Ким ’22; Од Олива, директор по стратегическому взаимодействию с промышленностью в MIT Schwarzman College of Computing, директор MIT-IBM Watson AI Lab и старший научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и семь других. Исследование будет представлено на конференции по нейронным системам обработки информации.
Создание синтетического набора данных
Исследователи начали с составления нового набора данных с использованием трех общедоступных наборов синтетических видеоклипов, в которых запечатлены действия человека. Их набор данных под названием Synthetic Action Pre-training and Transfer (SynAPT) содержал 150 категорий действий, по 1000 видеоклипов в каждой категории.
Они выбрали как можно больше категорий действий, таких как люди, машущие руками или падающие на пол, в зависимости от наличия клипов, содержащих чистые видеоданные .
После того, как набор данных был подготовлен, они использовали его для предварительной подготовки трех моделей машинного обучения для распознавания действий. Предварительное обучение включает в себя обучение модели одной задаче, чтобы дать ей преимущество для изучения других задач. Вдохновленная тем, как люди учатся — мы повторно используем старые знания, когда изучаем что-то новое — предварительно обученная модель может использовать уже изученные параметры, чтобы помочь ей быстрее и эффективнее изучить новую задачу с новым набором данных.
Они протестировали предварительно обученные модели, используя шесть наборов данных реальных видеоклипов, каждый из которых зафиксировал классы действий, которые отличались от тех, что были в обучающих данных.
Исследователи были удивлены, увидев, что все три синтетические модели превзошли модели, обученные с помощью реальных видеоклипов, на четырех из шести наборов данных. Их точность была самой высокой для наборов данных, содержащих видеоклипы с «низким смещением объекта сцены».
Низкое смещение объекта сцены означает, что модель не может распознать действие, глядя на фон или другие объекты сцены — она должна сосредоточиться на самом действии. Например, если перед моделью стоит задача классифицировать позы для ныряния в видеоклипах , где люди ныряют в бассейн, она не сможет определить позу, глядя на воду или плитку на стене. Он должен сосредоточиться на движении и положении человека, чтобы классифицировать действие.
«В видеороликах с низким смещением сцены и объекта временная динамика действий важнее, чем внешний вид объектов или фона, и кажется, что это хорошо улавливается синтетическими данными», — говорит Ферис.
«Высокое смещение объекта сцены может на самом деле выступать в качестве препятствия. Модель может неправильно классифицировать действие, глядя на объект, а не на само действие. Это может сбить модель с толку», — объясняет Ким.
Повышение производительности
Основываясь на этих результатах, исследователи хотят включить в будущую работу больше классов действий и дополнительных синтетических видеоплатформ, в конечном итоге создав каталог моделей, предварительно обученных с использованием синтетических данных, говорит соавтор Рамесвар Панда, исследователь из Массачусетского технологического института. — Лаборатория искусственного интеллекта IBM Watson.
«Мы хотим создавать модели, которые имеют очень похожую производительность или даже лучшую производительность, чем существующие модели в литературе, но не связаны какими-либо предубеждениями или проблемами безопасности», — добавляет он.
Они также хотят совместить свою работу с исследованиями, направленными на создание более точных и реалистичных синтетических видеороликов, которые могли бы повысить производительность моделей, — говорит СуЁн Джин, соавтор и постдоктор CSAIL. Она также заинтересована в изучении того, как модели могут учиться по-другому, когда они обучаются на синтетических данных.
«Мы используем синтетические наборы данных, чтобы предотвратить проблемы с конфиденциальностью, контекстную или социальную предвзятость, но что на самом деле изучает модель? Изучает ли она что-то беспристрастное?» она сказала.
Теперь, когда они продемонстрировали этот потенциал использования синтетических видео, они надеются, что другие исследователи будут опираться на их работу.
«Несмотря на более низкую стоимость получения хорошо аннотированных синтетических данных, в настоящее время у нас нет набора данных с масштабом, который мог бы конкурировать с самыми большими наборами аннотированных данных с реальными видео. Обсуждая различные затраты и проблемы с реальными видео и показывая эффективность синтетических данных, мы надеемся мотивировать усилия в этом направлении», — добавляет соавтор Самарт Мишра, аспирант Бостонского университета (BU).
Теги: ИИ, распознавание