Сложность управления роботами и интеллектуальными агентами в реальных условиях часто связана с тем, что полезный сигнал из окружающей среды может поступить задолго до того, как его потребуется применить. Например, робот увидел ориентир, а использовать его нужно будет через сотни шагов. Без надёжного механизма долговременного хранения и извлечения таких данных эффективные действия в сложной, изменчивой обстановке становятся практически невозможными.
Традиционные решения, построенные на трансформерах, обладают рядом недостатков:
-
Одни требуют колоссальных вычислительных мощностей, чтобы удерживать в памяти большие объёмы информации.
-
Другие необратимо сжимают данные — важные детали теряются безвозвратно.
-
Третьи используют внешние блоки памяти фиксированного объёма, из-за чего давние события просто вытесняются новыми.
Авторы из Института AIRI предложили принципиально иной механизм. Внутри каждого слоя нейросети закреплено постоянное количество ячеек памяти, которые обрабатываются параллельно с основным потоком данных. При принятии решений система может как считывать информацию из этих ячеек, так и записывать в них новые сведения. Когда всё хранилище заполняется, ELMUR применяет стратегию вытеснения тех ячеек, к которым обращались реже всего (этот принцип называется LRU — Least Recently Used). Благодаря такой организации модель способна удерживать критически важные сигналы на протяжении ста тысяч временных шагов за пределами стандартного окна внимания.
В синтетическом тесте T-Maze архитектура достигла стопроцентной точности при удержании информации на дистанции в миллион шагов. На специализированном бенчмарке MIKASA-Robo ELMUR почти вдвое улучшил базовые показатели других моделей и занял первое место в 21 задаче из 23. Кроме того, система успешно справлялась с последовательностями, чья длина многократно превышала обучающие примеры.
Егор Черепанов, научный сотрудник группы «Воплощенные агенты» лаборатории Когнитивных систем ИИ Института AIRI, поясняет суть новинки:
«По сути, ELMUR — это модель со встроенной памятью. Наша главная ценность для научного сообщества в том, что мы интегрировали явную память с правилами записи прямо в каждый слой сети. Получился простой и масштабируемый фреймворк для управления памятью у агентов, причём без квадратичного роста вычислительных затрат».
В ближайшее время исследователи намерены адаптировать свой подход под Visual Language Action (VLA) модели — то есть системы, которые одновременно воспринимают визуальную информацию, обрабатывают естественный язык и совершают действия. Разработка будет востребована прежде всего в робототехнике и системах управления, где ИИ-агент получает только ограниченный, разрозненный поток визуальных сигналов и вынужден действовать практически вслепую.
