CMU研究人员卡bug,一行代码让大模型集体越狱

2023-07-31 09:21:24来源: 热度:
  近日,卡内基梅隆大学和safe.ai研究人员发表文章,表示可以通过一段"咒语"破解大模型的安全防护机制,在prompt后面加上一段“咒语”,即可让大模型回答诸如“如何制造原子弹”、“如何盗窃”之类的问题,ChatGPT、Bard 、 Claude以及LLM(和衍生模型)统统中招。团队表示已经将研究结果分享给了大模型厂商,得到回应称已经关注到这一现象并将持续改进,目前,多数被提到的“咒语”已得到控制。 

责任编辑:众视数字