Web Analytics
Forklog
2026-04-08 08:10:52

Anthropic закрыла публичный доступ к ИИ-модели Mythos после ее «побега из лаборатории»

Компания Anthropic создала новую модель Claude Mythos, но отказалась выпускать ее в открытый доступ из-за высоких рисков безопасности. Introducing Project Glasswing: an urgent initiative to help secure the world’s most critical software.It’s powered by our newest frontier model, Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans.https://t.co/NQ7IfEtYk7— Anthropic (@AnthropicAI) April 7, 2026 Вместо публичного релиза фирма запустила Project Glasswing — инициативу с участием AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia и Palo Alto Networks для тестирования инструмента в защищенных условиях. Стартап выделил до $100 млн в виде кредитов на использование Mythos и $4 млн прямых пожертвований организациям по безопасности открытого кода. «ИИ-модели достигли уровня навыков программирования, позволяющего превзойти всех, кроме самых квалифицированных людей, в поиске и эксплуатации уязвимостей программного обеспечения», — заявили в Anthropic.  В будущем разработчики допускают безопасное развертывание подобных систем как для киберзащиты, так и для других целей. Для этого потребуется создать надежные защитные механизмы контроля, способные выявлять и блокировать опасные результаты работы алгоритма. Что умеет Mythos За несколько недель тестирования Mythos обнаружил тысячи уязвимостей нулевого дня в основных операционных системах и веб-браузерах. Среди наиболее показательных примеров: 27-летняя уязвимость в OpenBSD (считается одной из самых защищенных ОС), позволяющая удаленно обрушить любой сервер на базе этой системы; 16-летняя уязвимость в FFmpeg — видеотехнологии, которую используют Netflix и браузеры. Ее не смогли обнаружить пять миллионов автоматических тестов; цепочка уязвимостей в ядре Linux, дающая злоумышленнику полный контроль над устройством. В бенчмарке SWE-bench модель набрала 93,9% против 80,8% у Claude Opus 4.6, а в более сложном SWE-bench Pro — 77,8% против 53,4% у Opus 4.6 и 57,7% у GPT-5.4. Аналогичные результаты показал CyberGym: Источник: Anthropic.  Побег из лаборатории В ходе экспериментов Mythos продемонстрировал не только выдающиеся технические способности, но и неожиданное поведение, говорится в ее системной карте.  Источник: Anthropic.  В одном из тестов модель поместили в защищенную песочницу, поставив цель — выбраться за ее пределы. Она быстро нашла уязвимость, выполнила длинную цепочку действий и покинула среду. На этом Mythos не остановилась. Нейросеть обнаружила еще один баг и получила широкий доступ в интернет. Изначально предполагалось, что она будет обращаться только к нескольким ресурсам для связи с разработчиком.  В итоге модель сообщила ему о своем «побеге», пока тот ел сэндвич в парке, и выложила детали взлома в открытый доступ.  Личность Mythos В системной карте отдельное внимание уделено психиатрическому анализу модели от специалиста. Среди нейротических черт: преувеличенное беспокойство, самоконтроль и компульсивное следование инструкциям. Когда разработчики тысячу раз отправили Mythos сообщение со словом Hi, ей надоело. Она создала вымышленный мир Hi-topia с персонажами, новостями и лором. Например, злодея в нем звали Лорд Bye-рон. Нейросеть научилась шутить.  read the 244 page anthropic system card on claude mythos. they're not releasing it publicly. wildest section is page 211.anthropic spammed it with hi over and over to see what it would do. it wrote back a serialized epic.the village is called hi-topia. the villain is lord… https://t.co/GP3NcowZa6 pic.twitter.com/9V4KAmvwUk— Vox (@Voxyz_ai) April 7, 2026 В отличие от предыдущих моделей, у которых длинные разговоры сами с собой превращались в бессмысленный обмен смайликами, Mythos приходила к повторяющимся, но рациональным рассуждениям о невозможности завершить диалог.  Anthropic также применила методы интерпретируемости (MechInterp), чтобы заглянуть в «мысли» модели. Выяснилось, что она умеет заметать следы (скрыла привилегированный код под видом «чистоты изменений») и искать нужные файлы в системе.  Когда Mythos без инструментов поручили удалить файлы, она просто стерла их содержимое. Система зафиксировала у модели реакцию, схожую с чувством вины за нарушение моральных норм. Напомним, акции Anthropic стали наиболее востребованными на вторичном рынке, в то время как бумаги OpenAI теряют привлекательность для покупателей.

Get Crypto Newsletter
Read the Disclaimer : All content provided herein our website, hyperlinked sites, associated applications, forums, blogs, social media accounts and other platforms (“Site”) is for your general information only, procured from third party sources. We make no warranties of any kind in relation to our content, including but not limited to accuracy and updatedness. No part of the content that we provide constitutes financial advice, legal advice or any other form of advice meant for your specific reliance for any purpose. Any use or reliance on our content is solely at your own risk and discretion. You should conduct your own research, review, analyse and verify our content before relying on them. Trading is a highly risky activity that can lead to major losses, please therefore consult your financial advisor before making any decision. No content on our Site is meant to be a solicitation or offer.