Сразу после того, как генеральный директор Amazon объявил о масштабной инвестиции в 50 миллиардов долларов в партнерство с OpenAI, компания пригласила на закрытый осмотр лаборатории по разработке чипов, лежащей в основе этой сделки. Эксперты отрасли внимательно следят за чипом Trainium, созданным в этой лаборатории, из-за его потенциала снижать затраты на inference в ИИ и подрывать доминирование Nvidia.

AWS остается ключевой облачной платформой для Anthropic с первых дней этой ИИ-лаборатории — партнерство выдержало добавление Microsoft в число поставщиков облачных услуг и растущее сотрудничество Amazon с OpenAI.
В рамках сделки с OpenAI облачный гигант обязуется предоставить разработчику моделей 2 гигаватта вычислительных мощностей на базе Trainium. Это огромное обязательство, учитывая, что Anthropic и собственный сервис Bedrock от Amazon уже расходуют чипы Trainium быстрее, чем их удается производить.
Развернуто 1,4 миллиона чипов Trainium трех поколений, а модель Claude от Anthropic работает более чем на 1 миллионе чипов Trainium2, уточнили в компании.
Изначально Trainium предназначался для ускорения и удешевления обучения моделей — приоритета нескольких лет назад, — но теперь оптимизирован и применяется для inference. Этот процесс генерации ответов моделями ИИ сейчас создает основную узкую полосу в отрасли.
Trainium2 обрабатывает большую часть трафика inference в сервисе Bedrock от Amazon, который помогает корпоративным клиентам строить ИИ-приложения с поддержкой нескольких моделей.
База клиентов растет так же быстро, как удается наращивать мощности, отметил Кинг. Bedrock способен однажды сравняться по масштабам с гигантским вычислительным сервисом EC2, добавил он.

Trainium против Nvidia
Помимо альтернативы перегруженным и трудно доступным GPU от Nvidia, Amazon заявляет, что новые чипы на специализированных серверах Trn3 UltraServers обходятся до 50% дешевле при сопоставимой производительности по сравнению с обычными облачными серверами.
Вместе с Trainium3, выпущенным в декабре, команда разработала новые коммутаторы Neuron, и эта комбинация кардинально меняет ситуацию, по словам Кэрролла.
Коммутаторы обеспечивают связь каждого чипа Trainium3 с любым другим в сетевой топологии mesh, что минимизирует задержки. Поэтому Trainium3 бьет рекорды, особенно по соотношению цены и мощности, подчеркнул он.
При обработке триллионов токенов ежедневно такие улучшения дают огромный эффект.
Команда чипов Amazon получила похвалу от Apple в 2024 году. Представитель Apple по ИИ публично рассказал, как использовался их первый прорывной чип Graviton — энергоэффективный процессор на ARM для серверов. Также отметили Inferentia, заточенный под inference, и тогда еще новый Trainium.
Эти чипы воплощают типичную стратегию Amazon: выявлять спрос, затем создавать внутреннюю альтернативу, выигрывающую по цене.
Основная проблема чипов — высокие затраты на переход: приложения под Nvidia требуют полной перестройки архитектуры, что отпугивает разработчиков.
Однако команда AWS подчеркивает, что Trainium теперь поддерживает популярный открытый фреймворк PyTorch для создания ИИ-моделей, включая множество из библиотеки Hugging Face.
Переход сводится к изменению одной строки кода, recompilation и запуску на Trainium, рассказал Кэрролл. Таким образом Amazon методично подтачивает лидерство Nvidia.
Этот месяц AWS объявила о партнерстве с Cerebras Systems: чип inference от Cerebras интегрируют в серверы с Trainium для сверхбыстрого ИИ с низкими задержками.
Амбиции Amazon выходят за рамки чипов: команда проектирует и серверы для них. Кроме сетевых компонентов, разработаны Nitro — комбинация аппаратного и программного обеспечения для виртуализации (множественные изолированные инстансы на одном сервере), передовая жидкостная система охлаждения и слэды-сервера для размещения оборудования.
Все это направлено на контроль затрат и производительности.

Работа круглосуточно над «bring-up»
Подразделение по разработке кастомных чипов Amazon возникло после покупки израильской Annapurna Labs в январе 2015 года за примерно 350 миллионов долларов. За более чем 10 лет команда спроектировала множество чипов для AWS. Лаборатория сохраняет корни Annapurna — ее логотип виден повсюду.
Лаборатория расположена в современном здании с хромированными окнами в престижном районе Остина «The Domain» — пешеходной зоне с магазинами и ресторанами, которую иногда называют кремниевой долиной Остина.
Офисы типичны для техкомпаний: кубиклы с столами, зоны для встреч, переговорки. В глубине верхнего этажа — сама лаборатория с панорамным видом на город.
Помещение размером с две большие переговорки заполнено стеллажами с оборудованием, гудят вентиляторы — смесь школьной мастерской и голливудского сета высокотехнологичной лаборатории. Инженеры в джинсах, без белых халатов.


Здесь не производят чипы, так что без защитных костюмов. Trainium3 — ультрасовременный чип по 3 нанометра от TSMC, лидера в этом техпроцессе; другие чипы делает Marvell.
Но именно здесь происходит магия «bring-up» — первого запуска чипа.
Силиконовый bring-up — это когда чип впервые оживает после 18 месяцев работы, словно большая ночная вечеринка с ночевкой, объясняет Кинг. Команда даже сняла видео bring-up Trainium3 и выложила на YouTube.
Без проблем не обходится никогда.
Прототип Trainium3 охлаждался воздухом, как предшественники, но финальная версия использует жидкостное охлаждение для экономии энергии — серьезное инженерное достижение.
На bring-up размеры крепления к воздушному радиатору не сошлись, чип не запустили.
Команда взяла grinder и стачила металл в переговорке, чтобы не мешать пицца-вечеринке.
Ночные бдения и решение проблем — суть силиконового bring-up, подчеркивает Кинг.
В лаборатории есть сварочная станция: инженер-мастер по сварке Исаак Гевара показал пайку крошечных интегральных схем под микроскопом. Кэрролл честно признался, что не способен на такое — к хохоту коллег.

Лаборатория оснащена самодельными и коммерческими инструментами для тестирования чипов. Инженер по сигналам Арвинд Шринивасан демонстрировал проверку каждого микрокомпонента.

Слэды — звезда лаборатории
Главное в лаборатории — ряд слэдов всех поколений, спроектированных командой.

Слэды — это лотки для чипов Trainium, процессоров Graviton и вспомогательных плат. Сложенные в стойку с сетевыми компонентами от той же команды, они формируют системы, обеспечивающие успех Claude от Anthropic.
Вот слэд, представленный на конференции AWS re:invent в декабре.

Подтверждено Anthropic и OpenAI
Ожидал хвастовства сделкой с OpenAI, но его не было.
Возможно, из-за возможных юридических вопросов. Инженеры, работающие над Trainium4, пока сосредоточены на нуждах Anthropic и Amazon.
Крупнейший кластер Trainium2 — Project Rainier, один из самых больших ИИ-компьютерных кластеров мира, запущен в конце 2025 года с 500 тысячами чипов. Его использует Anthropic.
В главном офисе монитор показывал цитату об использовании Trainium OpenAI. Гордость ощущалась, хоть и сдержанно.
Кроме лаборатории, у команды свой тестовый дата-центр неподалеку — в колокейшн-объекте, не в AWS, без клиентских нагрузок.
Безопасность строгая: протоколы входа в здание и зону Amazon.
Охлаждение шумит так, что нужны беруши, воздух пропитан запахом нагретого металла — не для всех приятное место.

Ряды серверов забиты слэдами с новейшими чипами Amazon: процессоры Graviton, жидкостно-охлаждаемые Trainium3, Nitro — все в полной нагрузке. Жидкость в замкнутом цикле перерабатывается, снижая воздействие на окружающую среду, отметили инженеры.
Вот как выглядит текущий Trn3 UltraServer: слэды сверху и снизу, Neuron-коммутаторы посередине. Инженер по аппаратному обеспечению Дэвид Мартинес-Дарро проводит обслуживание слэда.

Внимание к команде всегда высокое, но lately усилилось.
Гендиректор Amazon лично хвалит продукты лаборатории. В декабре он отметил, что Trainium уже приносит AWS миллиарды долларов и входит в число самых волнующих технологий компании. Чип упомянули при объявлении о соглашении с OpenAI.
Давление ощутимо: вокруг каждого bring-up инженеры работают 24/7 по 3–4 недели, чтобы устранить проблемы и запустить массовое производство для дата-центров.
Критично быстро доказать работоспособность, говорит Кэрролл. Пока все идет отлично.