Перенос ИИ на edge в АТР: борьба с затратами на вывод

Расходы на ИИ в Азиатско-Тихоокеанском регионе продолжают расти, но многим фирмам все еще сложно извлечь пользу из своих проектов. Большая часть проблем связана с инфраструктурой, которая поддерживает ИИ: большинство систем не предназначены для вывода результатов с нужной скоростью или масштабом, требуемыми реальными приложениями. Исследования отрасли показывают, что многие инициативы не достигают целей по отдаче от инвестиций, даже после значительных вложений в инструменты генеративного ИИ, именно из-за этих ограничений.

Этот разрыв подчеркивает, насколько инфраструктура влияет на производительность, расходы и возможность масштабирования развертываний в реальных условиях в этом регионе.

Akamai пытается решить эту задачу с помощью Inference Cloud, разработанного совместно с NVIDIA и использующего новейшие графические процессоры Blackwell. Концепция проста: если большинство приложений ИИ требуют принятия решений в реальном времени, то эти решения лучше принимать ближе к пользователям, а не в удаленных дата-центрах. По словам Akamai, такой подход позволяет компаниям контролировать затраты, снижать задержки и обеспечивать работу ИИ-сервисов, зависящих от мгновенных откликов.

Джей Дженкинс, технический директор по облачным вычислениям в Akamai, рассказал AI News, почему сейчас предприятия вынуждены пересматривать подходы к развертыванию ИИ и почему вывод результатов, а не обучение моделей, стал настоящим узким местом.

Почему проекты ИИ буксуют без подходящей инфраструктуры

Дженкинс отмечает, что разница между экспериментами и полноценным внедрением гораздо больше, чем ожидают многие организации. "Многие инициативы ИИ не приносят ожидаемой ценности для бизнеса, поскольку предприятия недооценивают разрыв между тестированием и производством", — говорит он. Даже при большом интересе к генеративному ИИ крупные счета за инфраструктуру, высокие задержки и сложности с запуском моделей в больших объемах часто тормозят развитие.

Джей Дженкинс, технический директор по облачным вычислениям в Akamai.

Большинство компаний по-прежнему опираются на централизованные облака и крупные кластеры GPU. Но по мере роста нагрузки эти конфигурации становятся слишком дорогими, особенно в районах, удаленных от основных зон облачных провайдеров. Задержки тоже превращаются в серьезную проблему, когда модели выполняют несколько шагов вывода на большие расстояния. "ИИ силен ровно настолько, насколько мощна инфраструктура и архитектура, на которой он работает", — подчеркивает Дженкинс, добавляя, что задержки часто портят впечатление пользователей и снижают ценность, которую бизнес планировал получить. Он также упоминает мультиоблачные среды, сложные правила обработки данных и усиливающиеся требования к соответствию нормам как типичные препятствия, мешающие переходу от пилотных проектов к полноценному использованию.

Почему вывод результатов теперь требует больше внимания, чем обучение

В Азиатско-Тихоокеанском регионе внедрение ИИ переходит от небольших тестов к реальным приложениям и сервисам. Дженкинс указывает, что в этот процесс повседневный вывод результатов — а не редкие циклы обучения — поглощает основную часть вычислительных ресурсов. Поскольку многие организации запускают языковые, визуальные и мультимодальные модели на нескольких рынках, спрос на быстрый и надежный вывод растет быстрее, чем прогнозировалось. Именно поэтому вывод стал ключевым ограничением в регионе. Модели теперь должны работать с разными языками, регуляциями и средами данных, часто в реальном времени. Это создает огромную нагрузку на централизованные системы, которые изначально не проектировались для такого уровня отзывчивости.

Как инфраструктура на краю улучшает производительность и снижает затраты ИИ

Дженкинс объясняет, что перенос вывода ближе к пользователям, устройствам или агентам может кардинально изменить баланс расходов. Такой шаг сокращает путь, который проходит данные, и ускоряет отклики моделей. Кроме того, он избавляет от необходимости перекачивать огромные объемы информации между основными облачными узлами.

Физические системы ИИ — такие как роботы, автономные машины или инструменты умных городов — зависят от решений, принимаемых за миллисекунды. Если вывод происходит удаленно, эти системы не функционируют как задумано.

Экономия от более локализованных развертываний может быть значительной. Анализ Akamai показывает, что предприятия в Индии и Вьетнаме добиваются существенного снижения затрат на запуск моделей генерации изображений, размещая нагрузки на краю, а не в централизованных облаках. Более эффективное использование GPU и уменьшение сборов за исходящий трафик внесли основной вклад в эту экономию.

Где ИИ на краю набирает популярность

Начальный спрос на вывод на краю самый высокий в отраслях, где даже минимальные задержки влияют на доходы, безопасность или вовлеченность пользователей. Розничная торговля и электронная коммерция — среди первых, кто внедряет это, поскольку покупатели часто уходят от медленных интерфейсов. Персонализированные рекомендации, поиск и мультимодальные инструменты для шопинга работают заметно лучше, когда вывод локальный и быстрый.

Финансовый сектор — еще одна сфера, где задержки напрямую сказываются на ценности. Дженкинс говорит, что задачи вроде проверки на мошенничество, одобрения платежей и скоринга транзакций опираются на цепочки ИИ-решений, которые должны происходить за миллисекунды. Запуск вывода ближе к месту создания данных помогает финансовым компаниям ускоряться и удерживать информацию в пределах регуляторных границ.

Почему партнерства облаков и GPU сейчас особенно важны

По мере роста нагрузок на ИИ компаниям нужна инфраструктура, которая поспевает за ними. Дженкинс отмечает, что это подталкивает провайдеров облаков и производителей GPU к более тесному сотрудничеству. Работа Akamai с NVIDIA — один из примеров: графические процессоры, DPUs и ПО для ИИ развертываются в тысячах точек на краю.

Цель — создать "сеть доставки ИИ", которая распределяет вывод по множеству локаций вместо концентрации всего в нескольких регионах. Это улучшает производительность, но также помогает с соблюдением норм. Дженкинс подчеркивает, что почти половина крупных организаций АТР сталкивается с разными правилами данных на рынках, что делает локальную обработку еще более актуальной. Новые партнерства сейчас определяют следующий этап инфраструктуры ИИ в регионе, особенно для задач, требующих минимальных задержек.

Безопасность закладывается в такие системы с самого начала, говорит Дженкинс. Контроли zero-trust,

Компании АТР переносят ИИ на edge из-за затрат на вывод

Почему проекты ИИ буксуют без подходящей инфраструктуры

Почему вывод результатов теперь требует больше внимания, чем обучение

Как инфраструктура на краю улучшает производительность и снижает затраты ИИ

Где ИИ на краю набирает популярность

Почему партнерства облаков и GPU сейчас особенно важны

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде