Сложность управления роботами и интеллектуальными агентами в реальных условиях часто связана с тем, что полезный сигнал из окружающей среды может поступить задолго до того, как его потребуется применить. Например, робот увидел ориентир, а использовать его нужно будет через сотни шагов. Без надёжного механизма долговременного хранения и извлечения таких данных эффективные действия в сложной, изменчивой обстановке становятся практически невозможными.

Традиционные решения, построенные на трансформерах, обладают рядом недостатков:

  • Одни требуют колоссальных вычислительных мощностей, чтобы удерживать в памяти большие объёмы информации.

  • Другие необратимо сжимают данные — важные детали теряются безвозвратно.

  • Третьи используют внешние блоки памяти фиксированного объёма, из-за чего давние события просто вытесняются новыми.

Авторы из Института AIRI предложили принципиально иной механизм. Внутри каждого слоя нейросети закреплено постоянное количество ячеек памяти, которые обрабатываются параллельно с основным потоком данных. При принятии решений система может как считывать информацию из этих ячеек, так и записывать в них новые сведения. Когда всё хранилище заполняется, ELMUR применяет стратегию вытеснения тех ячеек, к которым обращались реже всего (этот принцип называется LRU — Least Recently Used). Благодаря такой организации модель способна удерживать критически важные сигналы на протяжении ста тысяч временных шагов за пределами стандартного окна внимания.

В синтетическом тесте T-Maze архитектура достигла стопроцентной точности при удержании информации на дистанции в миллион шагов. На специализированном бенчмарке MIKASA-Robo ELMUR почти вдвое улучшил базовые показатели других моделей и занял первое место в 21 задаче из 23. Кроме того, система успешно справлялась с последовательностями, чья длина многократно превышала обучающие примеры.

Егор Черепанов, научный сотрудник группы «Воплощенные агенты» лаборатории Когнитивных систем ИИ Института AIRI, поясняет суть новинки:

«По сути, ELMUR — это модель со встроенной памятью. Наша главная ценность для научного сообщества в том, что мы интегрировали явную память с правилами записи прямо в каждый слой сети. Получился простой и масштабируемый фреймворк для управления памятью у агентов, причём без квадратичного роста вычислительных затрат».

В ближайшее время исследователи намерены адаптировать свой подход под Visual Language Action (VLA) модели — то есть системы, которые одновременно воспринимают визуальную информацию, обрабатывают естественный язык и совершают действия. Разработка будет востребована прежде всего в робототехнике и системах управления, где ИИ-агент получает только ограниченный, разрозненный поток визуальных сигналов и вынужден действовать практически вслепую.