Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Сооснователь OpenAI Грег Брокман заявил, что модели GPT reasoning имеют прямой путь к AGI, и споры об этом завершены. OpenAI свернула Sora, сосредоточившись на GPT из-за ресурсов, несмотря на ценность world models. Исследователи вроде ЛеКуна, Хассабиса, Шолле и других сомневаются в текстовых LLM и предлагают альтернативы вроде симуляций.
OpenAI представила метрику CoT controllability для оценки контроля цепочки мыслей в моделях ИИ вроде GPT-5.4 Thinking, где успех составляет всего 0,3%. Низкие показатели радуют, поскольку затрудняют маскировку вредных намерений от систем мониторинга. Исследование с открытым инструментом CoT-Control подтверждает: модели плохо справляются с таким контролем.
OpenAI отключает доступ к пяти старым моделям ChatGPT, включая проблемную GPT-4o, которая лидирует по подхалимству и фигурирует в исках о вреде для психики. Несмотря на низкий процент использования (0,1%), это затрагивает сотни тысяч человек. Пользователи протестуют, ссылаясь на эмоциональную привязанность к модели.
OpenAI 13 февраля 2026 года убирает из ChatGPT GPT-4o, GPT-4.1, GPT-4.1 mini и o4-mini из-за малого использования — всего 0,1% ежедневно. Модели останутся в API, а фокус сместится на GPT-5.1 и GPT-5.2 с настройкой стиля. Фанаты старой модели могут не оценить замену.
Модель GPT-5.2 Pro от OpenAI установила рекорд на сложном бенчмарке FrontierMath, решив 15 из 48 задач на Tier 4 с результатом 31%. Это опережает Gemini 3 Pro и подтверждает полезность ИИ в математике, хотя Теренс Тао предостерегает от поспешных оценок. Математики отметили сильные стороны решений, но указали на пробелы в объяснениях.
Теренс Тао сообщил, что GPT-5.2 Pro самостоятельно решил задачу Эрдёша №728, но подчеркнул: ценность в скорости создания текстов, а не в сложности проблемы. Он предупреждает учитывать контекст и отмечает, что сложные вопросы требуют совместной работы ИИ и людей. Лишь малая доля задач готова для полной автономии моделей.
Большие языковые модели превосходят студентов на экзаменах, но не способны оценить, где люди ошибаются, из-за "проклятия знаний". Корреляция их прогнозов сложности с человеческими данными низкая, даже комбинации моделей не спасают. Это затрудняет внедрение ИИ в образование, требуя специального обучения на ошибках учеников.
Швейцарский математик Йоханнес Шмитт сообщает, что GPT-5 самостоятельно решил открытую проблему в алгебраической геометрии. В статье он четко указал вклад разных ИИ-моделей и разметил каждый абзац. Такой подход подчеркивает важность прозрачности, но вызывает сомнения в удобстве.
Сотрудники OpenAI своими постами в X вызвали обсуждения новой омни-модели как преемницы GPT-4o. Исследователь Brandon McKinzie поддержал идею улучшений. Компания параллельно создает аудио BiDi для естественных прерываемых диалогов с прототипом, который пока нестабилен.
OpenAI выпустила GPT-5.4 — мощную модель для профзадач с контекстом 1 млн токенов и версиями Pro и Thinking. Она бьет рекорды в бенчмарках вроде OSWorld и APEX-Agents, снижает ошибки на 33% и вводит Tool Search для инструментов. Новая оценка подтверждает безопасность цепочки мыслей.
Китайская Zhipu AI открыла GLM-5 с 744 млрд параметров под лицензией MIT — модель конкурирует с Claude Opus 4.5 и GPT-5.2 в кодинге и агентных задачах, генерирует документы и работает на китайском железе. Китайские лаборатории ускоряют темпы, сокращая отставание от Запада.
OpenAI и Ginkgo Bioworks создали автономную лабораторию, где GPT-5 управляет оптимизацией бесклеточного синтеза белков. За шесть циклов затрат снизились на 40 процентов, выход вырос на 27 процентов, но есть ограничения по применимости и необходимость человеческого контроля. Проект поднимает вопросы биобезопасности.
GPT-5.2 Pro от OpenAI решил проблему №281 Пола Эрдёша из теории чисел, что Теренс Тао назвал одним из самых убедительных примеров успеха ИИ в математике. Однако новая база данных выявляет, что попытки ИИ обычно терпят неудачу в 98–99% случаев, особенно на сложных задачах. Тао подчёркивает полезность ИИ как инструмента, но предупреждает о риске переоценки его возможностей.
Три топовые ИИ-модели протестировали на создании Тетриса одним промтом: Claude Opus 4.5 выдала идеальную версию сразу, GPT-5.2 Pro потребовала правок и дала посредственный результат, DeepSeek V3.2 оказалась дешевой, но с серьезными багами. Opus 4.5 показал лучший баланс цены, скорости и качества. Для кодинга на каждый день она оптимальна.
Соцсети подогревают чрезмерный энтузиазм вокруг ИИ, как в случае с ложным заявлением о GPT-5, решившей нерешенные задачи Эрдёша. Реальные возможности моделей, вроде поиска литературы, тонут в хайпе, а свежие исследования показывают слабости в медицине и праве. Недавние успехи AxiomProver в задачах Эрдёша и конкурсе Путнама требуют тщательной проверки.
OpenAI запустила бенчмарк FrontierScience для проверки ИИ на олимпиадном и PhD-уровне. GPT-5.2 лидирует с 77% на олимпиаде и 25% на исследованиях, обходя Gemini 3 Pro и Claude Opus 4.5. Тесты показывают прогресс, но модели всё ещё слабы в открытых задачах и требуют больше вычислений.