Специалисты активно ищут способы преодолеть классическую проблему ИИ со стеной памяти: даже быстрые модели тратят много времени и энергии на перемещение данных между процессором и памятью. Сопротивительная память (RRAM) способна решить эту задачу, перенеся вычисления прямо в ячейки памяти. Однако большинство вариантов такой неvolatile памяти слишком нестабильны и сложны в использовании для этой цели.
Недавно появилась перспективная разработка. На декабрьской Международной конференции IEEE по электронным устройствам (IEDM) ученые из Калифорнийского университета в Сан-Диего продемонстрировали запуск алгоритма обучения на совершенно новом типе RRAM.
«Мы полностью переосмыслили принцип переключения RRAM», — отметила ведущий разработчик из Калифорнийского университета в Сан-Диего, инженер-электрик Дуйгу Кузум.
RRAM сохраняет данные в виде уровня сопротивления току. Ключевая операция нейросети — умножение матриц чисел с последующим суммированием — реализуется в аналоговом режиме: достаточно пропустить ток через массив ячеек RRAM, соединить выходы и измерить итоговый ток.
В традиционных RRAM данные записываются путем формирования низкоомных нитей в высокоомной диэлектрической среде. Это требует высоких напряжений, несовместимых со стандартным CMOS, что мешает интеграции в процессоры. К тому же процесс формирования нитей хаотичен и шумный, что плохо для хранения данных. Представьте, как веса нейросети случайно меняются: ответы на один вопрос будут разными в разные дни.
Шумность таких ячеек требует изоляции от окружения с помощью селекторного транзистора, что усложняет 3D-стекирование.
Из-за этих ограничений классическая RRAM плохо подходит для вычислений. В частности, трудно применять ее для параллельных матричных операций, ключевых для современных нейросетей.
Исследователи из Сан-Диего отказались от нитей полностью. Они создали устройства, переключающие весь слой целиком из высокоомного в низкоомный состояние и обратно. Такой формат, называемый bulk RRAM, избавляет от высоковольтного формирования нитей и ограничивающего геометрию селектора.
3D-память для машинного обучения
Команда из Сан-Диего не первая, кто собрал bulk RRAM, но добилась прорывов в миниатюризации и 3D-интеграции. Их ячейки достигли наноразмеров — всего 40 нм в поперечнике. Кроме того, удалось стековать их в 8 слоев.
Один импульс одинакового напряжения устанавливает в стеке из восьми слоев по 64 дискретных значения сопротивления — результат, недостижимый для традиционной нитевой RRAM. Если сопротивление нитевых ячеек ограничивается киломами, то сан-диеговский стек работает в мегаомном диапазоне, удобном для параллельных операций.
«Мы можем настроить сопротивление на любой уровень, но для интеграции и системных симуляций мегаомы оптимальны», — поясняет Кузум.
Больше уровней сопротивления и выше номинал позволяют bulk RRAM выполнять сложные операции, недоступные нитевым аналогам.
Ученые собрали из нескольких стеков по 8 слоев массив на 1 килобайт без селекторов. На нем протестировали алгоритм непрерывного обучения: распознавание данных с носимых сенсоров — например, по акселерометру смартфона на поясе определять, сидит ли человек, идет, поднимается по лестнице или делает что-то еще, — при постоянном поступлении новых данных. Точность достигла 90 процентов, что сопоставимо с цифровой нейросетью.
Такой тест показывает сильную сторону bulk RRAM: модели на периферийных устройствах, обучающиеся на месте без облака.
«Мы проводим множество тестов и оптимизируем материалы, чтобы создать чипы специально под задачи ИИ», — говорит Кузум.
Интеграция RRAM в такой массив — важный шаг вперед, считает материаловед Альберт Талин из Национальной лаборатории Sandia в Ливерморе, Калифорния, специалист по bulk RRAM, не участвовавший в работе. «Любой прогресс в интеграции полезен», — подчеркивает он.
Но Талин указывает на проблему: долговременное хранение данных. Сан-диеговская RRAM держит информацию при комнатной температуре несколько лет — на уровне флеш-памяти. Однако при рабочих температурах компьютеров надежность хранения под вопросом. «Это ключевая трудность технологии, особенно для edge-применений».
Если подтвердить характеристики, выигрыш получат все модели. Стена памяти растет: традиционная память не поспевает за аппетитами крупных сетей. Любая возможность вычислять в памяти станет ценным решением.