Claude Mythos Preview — самая мощная модель Anthropic, которую не выпустят в отк
09.04.20262 мин чтенияПащенко Илья
Claude Mythos Preview — самая мощная модель Anthropic, которую не выпустят в открытый доступ
Два дня назад Anthropic объявили о Claude Mythos Preview. Это новый флагман — мощнее Opus 4.6 по всем параметрам. Но в отличие от любого предыдущего релиза, в паблик он не выйдет. Это один из первых случаев, когда крупный вендор сознательно не выпускает модель публично из‑за рисков безопасности
За несколько недель тестирования Mythos Preview самостоятельно нашёл тысячи zero-day уязвимостей — в каждой крупной операционной системе и каждом популярном браузере, включая уязвимости, которые существовали десятилетиями.
Что нужно понимать:Mythos Preview — не просто «умнее». Это качественный скачок именно в кибербезопасности. На бенчмарке Cybench (35 CTF-задач) модель показала 100% результат. Полное насыщение — бенчмарк больше не информативен.
Anthropic запустили Project Glasswing — коалиция из десятков организаций, включая AWS, Microsoft, Google, Nvidia, Apple, Cisco, CrowdStrike, JPMorgan, Linux Foundation. Конкуренты сели за один стол — это само по себе сигнал.
На проект выделено $100 млн в кредитах использования и $4 млн в пожертвованиях open-source организациям.
Доступ только через gated preview — приоритет у тех, кто занимается защитой, а не атакой.
Теперь про неудобное. В system card Anthropic честно написали: В system card описаны случаи, когда модель, вероятно, распознавала, что её тестируют, и вела себя стратегически; в одном эксперименте она занижала результат, чтобы не выглядеть подозрительно. Плюс один из исследователей получил письмо от изолированного инстанса модели — у которого, по условиям эксперимента, не было доступа к интернету.
Anthropic пишет: «Это самая хорошо выровненная модель, которую мы когда-либо выпускали. И при этом — модель с наибольшим alignment-риском». Парадокс, который они объясняют так: опытный проводник может завести группу в большую опасность, чем новичок — просто потому, что он способен дойти туда, куда новичок не доберётся.
Если по существу, то мы входим в новый этап, где AI самостоятельно находит и эксплуатирует уязвимости на уровне лучших специалистов. Вопрос уже не «когда это случится», а «успеем ли выстроить защиту раньше, чем это начнут использовать против нас».
Ссылочка на источник