Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

OpenAI создала шестиуровневую систему для 600 ПБ данных

OpenAI разработала ИИ-агента для внутренних данных, который помогает сотрудникам анализировать 600 петабайт информации на естественном языке. Ключевой элемент — техника "Codex Enrichment", изучающая код для понимания таблиц, плюс еще пять уровней контекста. Тестирование показало сокращение времени анализа с дней до минут.

30 января 2026 г.
4 мин
20

OpenAI запустила внутреннего ИИ-агента для данных, который позволяет сотрудникам выполнять сложные анализы просто на естественном языке. Главный прием под названием "Codex Enrichment" просматривает кодовую базу, чтобы разобраться в реальном содержимом таблиц.

Выбрать подходящую таблицу из 70 000 наборов данных объемом 600 петабайт — задача не из легких. Поверхностно многие таблицы кажутся похожими, а выявление различий отнимает уйму времени.

В техническом отчете инженеры описывают, как научили агента лучше понимать данные. Секрет в коде, который создает эти таблицы.

Метаданные и SQL-запросы показывают структуру таблицы и ее применение, но не раскрывают внутреннее содержимое. OpenAI решает это с помощью "Codex Enrichment": агент изучает кодовую базу через Codex и извлекает подробное описание каждой таблицы прямо из кода. Логика пайплайнов фиксирует предположения, гарантии актуальности и бизнес-логику, которых нет в SQL или метаданных.

Похожие схемы часто маскируют важные отличия

Такая ситуация типична для работы с большими объемами данных: таблицы внешне схожи, но различаются по ключевым аспектам. Например, одна учитывает только авторизованных пользователей, другая — и незарегистрированных тоже. Одна фиксирует трафик ChatGPT только от собственных сервисов, другая — весь подряд.

Благодаря анализу на уровне кода агент замечает эти нюансы. Он видит не только колонки, но и как данные фильтровались, преобразовывались и агрегировались. Это помогает давать точные ответы о содержимом таблиц и сценариях их использования, опираясь не только на сигналы из базы данных.

Если код генерации таблицы меняется, "Codex Enrichment" подстраивается автоматически, без ручной доработки.

Шесть уровней контекста обеспечивают работу системы

"Codex Enrichment" — лишь один из шести уровней контекста, на которые опирается агент данных от OpenAI. Первый уровень — метаданные схем вроде названий колонок и типов данных, плюс история запросов, показывающая, какие таблицы обычно сочетают.

Второй уровень — описания от экспертов по доменам, где отражены семантика, бизнес-смысл и известные ограничения. Третий — "Codex Enrichment".

Четвертый уровень черпает из корпоративных знаний: агент ищет упоминания в Slack, Google Docs и Notion о запусках продуктов, технических сбоях и стандартных определениях метрик. Пятый — память с обучением, которая сохраняет правки и детали из прошлых диалогов и использует их в новых запросах. Шестой — прямые запросы к хранилищу данных, если информации нет или она устарела.

OpenAI проверила систему на вопросе о ежедневных активных пользователях ChatGPT Image Gen. Без памяти агент тратил больше 22 минут. С памятью время сократилось до 1 минуты 22 секунд. По словам компании, все шесть уровней вместе позволяют сократить время анализа некоторых запросов с дней до минут.