Web Analytics
Forklog
2025-08-17 11:45:20

В Anthropic озаботились «благополучием» чат-бота Claude 

Компания Anthropic запрограммировала чат-боты Claude Opus 4 и 4.1 на завершение диалогов с пользователями «в редких, экстремальных случаях систематически вредоносного или оскорбительного взаимодействия». Чат-бот Claude завершает диалог. Источник: Anthropic.  После завершения беседы пользователь потеряет возможность писать в чат, но сможет создать новый. История переписки также сохранится. При этом разработчики уточнили, что функция в первую очередь предназначена для безопасности самой нейросети. «[...] мы работаем над выявлением и внедрением малозатратных мер по снижению рисков для благополучия моделей, если такое благополучие возможно. Одной из таких мер является предоставление LLM возможности прекращать или выходить из потенциально травмирующих ситуаций», — говорится в публикации.  В рамках сопутствующего исследования в Anthropic изучили «благополучие модели» — оценили самооценку и поведенческие предпочтения. Чат-бот продемонстрировал «устойчивую неприязнь к насилию». У версии Claude Opus 4 выявили: явное предпочтение не заниматься задачами, которые могут навредить; «стресс» при взаимодействии с запрашивающими подобный контент пользователями; тенденцию к прекращению нежелательных разговоров при наличии возможности. «Такое поведение обычно возникало в тех случаях, когда пользователи продолжали отправлять вредоносные запросы и/или оскорблять, несмотря на то, что Claude неоднократно отказывался подчиниться и пытался продуктивно перенаправить взаимодействие», — уточнил в компании. Напомним, в июне исследователи Anthropic выяснили, что ИИ способен пойти на шантаж, раскрыть конфиденциальные данные компании и даже допустить смерть человека в экстренных обстоятельствах. 

Holen Sie sich Crypto Newsletter
Lesen Sie den Haftungsausschluss : Alle hierin bereitgestellten Inhalte unserer Website, Hyperlinks, zugehörige Anwendungen, Foren, Blogs, Social-Media-Konten und andere Plattformen („Website“) dienen ausschließlich Ihrer allgemeinen Information und werden aus Quellen Dritter bezogen. Wir geben keinerlei Garantien in Bezug auf unseren Inhalt, einschließlich, aber nicht beschränkt auf Genauigkeit und Aktualität. Kein Teil der Inhalte, die wir zur Verfügung stellen, stellt Finanzberatung, Rechtsberatung oder eine andere Form der Beratung dar, die für Ihr spezifisches Vertrauen zu irgendeinem Zweck bestimmt ist. Die Verwendung oder das Vertrauen in unsere Inhalte erfolgt ausschließlich auf eigenes Risiko und Ermessen. Sie sollten Ihre eigenen Untersuchungen durchführen, unsere Inhalte prüfen, analysieren und überprüfen, bevor Sie sich darauf verlassen. Der Handel ist eine sehr riskante Aktivität, die zu erheblichen Verlusten führen kann. Konsultieren Sie daher Ihren Finanzberater, bevor Sie eine Entscheidung treffen. Kein Inhalt unserer Website ist als Aufforderung oder Angebot zu verstehen