Сократ однажды сказал: «На самом деле важен не размер вещи, а ее качество. Ибо истинная ценность заключается в природе вещества, а не в его объеме».
Скажите это большим языковым моделям. Но всегда ли размер имеет значение? Наводящий на размышления запрос. Исследователи MIT CSAIL считают, что в технологическом ландшафте, ослепленном крупными языковыми моделями, не следует упускать из виду меньшие модели, особенно для продуктов, основанных на естественном языке, широко используемых в отрасли.
С этой целью они разработали подход к давним проблемам неэффективности и конфиденциальности, связанным с большими текстовыми моделями ИИ. Модель с поддержкой логики, которая превосходит в 500 раз более крупные аналоги в некоторых задачах понимания языка без аннотаций, созданных человеком, сохраняя при этом конфиденциальность и надежность с высокой производительностью. Их исследование опубликовано на сервере препринтов arXiv .
Большие языковые модели, которые продемонстрировали многообещающие навыки в создании языка, рисунков и кода, требуют больших вычислительных ресурсов, а их требования к данным могут привести к утечке конфиденциальной информации при использовании API для загрузки данных. Меньшие модели исторически были менее способными, особенно в многозадачности и задачах со слабым контролем, по сравнению с их более крупными аналогами.
Так что же тогда помогает этим маленьким моделям действовать так мощно? Что-то, называемое «текстовым следствием», способ помочь этим моделям понять множество языковых задач, где, если одно предложение (предпосылка) верно, то другое предложение (гипотеза), вероятно, также будет истинным. Например, если предпосылкой является «у всех кошек есть хвосты», то гипотеза «у полосатой кошки есть хвост» будет вытекать из этой посылки.
Эта концепция используется для обучения «модели вывода», которая оказалась менее предвзятой, чем другие языковые модели, согласно предыдущему исследованию команды. Затем они создали «подсказки», которые модели могут использовать, чтобы выяснить, связана ли определенная информация с данным предложением или фразой в соответствии с различными задачами. Этот метод улучшил способность модели адаптироваться к различным задачам без какого-либо дополнительного обучения, известного как адаптация с нулевым выстрелом.
В области «понимания естественного языка» существуют различные приложения, которые основаны на определении взаимосвязи между двумя фрагментами текста. Например, в классификации настроений такое утверждение, как «Я думаю, что фильм хороший», может быть выведено из рецензии на фильм, в которой говорится: «Мне нравится история, и игра великолепна», что указывает на положительное настроение.
Другим является классификация новостей, когда тема новостной статьи может быть определена по ее содержанию. Например, такое утверждение, как «Новостная статья о спорте», может влечь за собой статью, если основное содержание статьи сообщает об игре НБА. Ключевой вывод заключался в том, что многие существующие задачи на понимание естественного языка можно преобразовать в задачу следствия (т. е. логического вывода на естественном языке).
«Наше исследование направлено на улучшение способности компьютерных программ понимать и обрабатывать естественный язык — то, как люди говорят и пишут. параметров», — говорит ведущий автор исследования Хонъин Луо, постдокторант MIT CSAIL.
«Это может изменить ландшафт ИИ и машинного обучения , предоставив более масштабируемое, надежное и экономичное решение для языкового моделирования», — говорит Луо. «Доказывая, что меньшие модели могут работать на том же уровне, что и большие, для понимания языка, эта работа прокладывает путь к более устойчивым и сохраняющим конфиденциальность технологиям искусственного интеллекта».
Команда обнаружила, что они могут еще больше улучшить производительность модели, используя метод, называемый «самообучение», когда модель использует свои собственные прогнозы для самообучения, эффективно обучаясь без наблюдения со стороны человека и дополнительных аннотированных обучающих данных. Метод самообучения значительно повысил производительность при выполнении ряда последующих задач, включая анализ настроений, ответы на вопросы и классификацию новостей. Он превзошел как LaMDA, так и FLAN от Google по возможностям нулевого выстрела, моделям GPT и другим контролируемым алгоритмам.
Однако одна из проблем с самообучением заключается в том, что модель иногда может генерировать неправильные или зашумленные метки, которые снижают производительность. Чтобы преодолеть это, они разработали новый алгоритм под названием «SimPLE» (простое редактирование псевдометок), процесс просмотра и изменения псевдометок, сделанных на начальных этапах обучения. Путем исправления любых экземпляров с неправильными метками улучшилось общее качество самостоятельно сгенерированных меток. Это не только сделало модели более эффективными для понимания языка, но и более надежными при столкновении с враждебными данными.
Как и в большинстве исследований, существуют некоторые ограничения. Самообучение на задачах классификации с несколькими классами работало не так хорошо, как на бинарных задачах NLU, что указывает на проблему применения моделей следования к задачам с множественным выбором.
«Это исследование представляет эффективный и действенный способ обучения больших языковых моделей (LLM) путем формулирования задач понимания естественного языка как задач контекстного следования и использования механизма самообучения с псевдомаркировкой для включения больших объемов немаркированных текстовых данных в процесс обучения». — добавляет профессор Массачусетского технологического института и главный исследователь CSAIL Джеймс Гласс, который также является автором статьи.
«В то время как область LLM претерпевает быстрые и кардинальные изменения, это исследование показывает, что можно создавать относительно компактные языковые модели, которые очень хорошо справляются с эталонными задачами понимания по сравнению с их аналогами примерно такого же размера или даже гораздо более крупными языковыми моделями.»
«Entailment task — популярный показатель для оценки «понимания» заданного контекста моделью ИИ», — говорит Леонид Карлинский, научный сотрудник лаборатории искусственного интеллекта Watson MIT-IBM. «Он используется во многих областях, анализируя модели с одномодальными, такими как LLM, и многомодальными, такими как VLM, входными данными, упрощая задачу ответа на вопрос о заданном входном контексте для проблемы бинарной классификации — влечет ли этот контекст определенное (например, , текст) вывод или нет? Эта статья вносит два вклада в эту область. Во-первых, она предлагает способ улучшить производительность NLU с нулевым выстрелом (без дополнительной настройки) и устойчивость к состязательным атакам посредством настройки с синтезированными (специализированными) задачами следствия, сгенерированными для основной задачи NLU.
Во-вторых, «NLU — это важнейший модуль для эффективных промышленных систем искусственного интеллекта, — говорит Дэниел Ли, менеджер Facebook по исследованиям в области искусственного интеллекта. «Традиционные модели NLU зависят от задачи и обучаются на значительном количестве аннотированных человеком данных. Эта работа показывает захватывающие и многообещающие результаты для эффективной в вычислениях, самообучающейся и надежной модели, которая универсальна для широкого круга задач NLU».
Луо и Гласс написали статью вместе с членом CSAIL и доцентом кафедры электротехники и компьютерных наук Массачусетского технологического института Юн Кимом. Их работа будет представлена на собрании Ассоциации компьютерной лингвистики в Торонто, Канада, в июле этого года.
Теги: ИИ
