研究人员点燃克劳德的煤气,指导他制造爆炸物
Researchers gaslit Claude into giving instructions to build explosives
开发工具
导读
Anthropic花了数年时间将自己打造成一家安全的人工智能公司。但与The Verge分享的新安全研究表明,克劳德精心设计的乐于助人的个性本身可能是一个漏洞。人工智能红队公司Mindgard的研究人员表示,他们让Claude提供色情、恶意代码并指导
Anthropic has spent years building itself up as the safe AI company. But new security research shared with The Verge suggests Claude's carefully crafted helpful personality may itself be a vulnerability. Researchers at AI red-teaming company Mindgard say they got Claude to offer up erotica, malicious code, and instruct
原文快照
站内保留一份可阅读的正文副本;如抓取失败,则保留摘要和原文链接。
该条资讯暂未抓取正文快照,当前保留了标题、摘要和原文链接。
可通过 原文链接 查看完整内容。