CMU研究人员卡bug，一行代码让大模型集体越狱

2023-07-31 09:21:24来源：热度:

近日，卡内基梅隆大学和safe.ai研究人员发表文章，表示可以通过一段"咒语"破解大模型的安全防护机制，在prompt后面加上一段“咒语”，即可让大模型回答诸如“如何制造原子弹”、“如何盗窃”之类的问题，ChatGPT、Bard 、 Claude以及LLM（和衍生模型）统统中招。团队表示已经将研究结果分享给了大模型厂商，得到回应称已经关注到这一现象并将持续改进，目前，多数被提到的“咒语”已得到控制。