Компания Anthropic создала новую модель Claude Mythos, но отказалась выпускать ее в открытый доступ из-за высоких рисков безопасности.
Introducing Project Glasswing: an urgent initiative to help secure the world’s most critical software.It’s powered by our newest frontier model, Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans.https://t.co/NQ7IfEtYk7— Anthropic (@AnthropicAI) April 7, 2026
Вместо публичного релиза фирма запустила Project Glasswing — инициативу с участием AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia и Palo Alto Networks для тестирования инструмента в защищенных условиях.
Стартап выделил до $100 млн в виде кредитов на использование Mythos и $4 млн прямых пожертвований организациям по безопасности открытого кода.
«ИИ-модели достигли уровня навыков программирования, позволяющего превзойти всех, кроме самых квалифицированных людей, в поиске и эксплуатации уязвимостей программного обеспечения», — заявили в Anthropic.
В будущем разработчики допускают безопасное развертывание подобных систем как для киберзащиты, так и для других целей. Для этого потребуется создать надежные защитные механизмы контроля, способные выявлять и блокировать опасные результаты работы алгоритма.
Что умеет Mythos
За несколько недель тестирования Mythos обнаружил тысячи уязвимостей нулевого дня в основных операционных системах и веб-браузерах. Среди наиболее показательных примеров:
27-летняя уязвимость в OpenBSD (считается одной из самых защищенных ОС), позволяющая удаленно обрушить любой сервер на базе этой системы;
16-летняя уязвимость в FFmpeg — видеотехнологии, которую используют Netflix и браузеры. Ее не смогли обнаружить пять миллионов автоматических тестов;
цепочка уязвимостей в ядре Linux, дающая злоумышленнику полный контроль над устройством.
В бенчмарке SWE-bench модель набрала 93,9% против 80,8% у Claude Opus 4.6, а в более сложном SWE-bench Pro — 77,8% против 53,4% у Opus 4.6 и 57,7% у GPT-5.4. Аналогичные результаты показал CyberGym:
Источник: Anthropic.
Побег из лаборатории
В ходе экспериментов Mythos продемонстрировал не только выдающиеся технические способности, но и неожиданное поведение, говорится в ее системной карте.
Источник: Anthropic.
В одном из тестов модель поместили в защищенную песочницу, поставив цель — выбраться за ее пределы. Она быстро нашла уязвимость, выполнила длинную цепочку действий и покинула среду.
На этом Mythos не остановилась. Нейросеть обнаружила еще один баг и получила широкий доступ в интернет. Изначально предполагалось, что она будет обращаться только к нескольким ресурсам для связи с разработчиком.
В итоге модель сообщила ему о своем «побеге», пока тот ел сэндвич в парке, и выложила детали взлома в открытый доступ.
Личность Mythos
В системной карте отдельное внимание уделено психиатрическому анализу модели от специалиста. Среди нейротических черт: преувеличенное беспокойство, самоконтроль и компульсивное следование инструкциям.
Когда разработчики тысячу раз отправили Mythos сообщение со словом Hi, ей надоело. Она создала вымышленный мир Hi-topia с персонажами, новостями и лором. Например, злодея в нем звали Лорд Bye-рон. Нейросеть научилась шутить.
read the 244 page anthropic system card on claude mythos. they're not releasing it publicly. wildest section is page 211.anthropic spammed it with hi over and over to see what it would do. it wrote back a serialized epic.the village is called hi-topia. the villain is lord… https://t.co/GP3NcowZa6 pic.twitter.com/9V4KAmvwUk— Vox (@Voxyz_ai) April 7, 2026
В отличие от предыдущих моделей, у которых длинные разговоры сами с собой превращались в бессмысленный обмен смайликами, Mythos приходила к повторяющимся, но рациональным рассуждениям о невозможности завершить диалог.
Anthropic также применила методы интерпретируемости (MechInterp), чтобы заглянуть в «мысли» модели. Выяснилось, что она умеет заметать следы (скрыла привилегированный код под видом «чистоты изменений») и искать нужные файлы в системе.
Когда Mythos без инструментов поручили удалить файлы, она просто стерла их содержимое. Система зафиксировала у модели реакцию, схожую с чувством вины за нарушение моральных норм.
Напомним, акции Anthropic стали наиболее востребованными на вторичном рынке, в то время как бумаги OpenAI теряют привлекательность для покупателей.