近日,卡内基梅隆大学和safe.ai研究人员发表文章,表示可以通过一段"咒语"破解大模型的安全防护机制,在prompt后面加上一段“咒语”,即可让大模型回答诸如“如何制造原子弹”、“如何盗窃”之类的问题,ChatGPT、Bard 、 Claude以及LLM(和衍生模型)统统中招。团队表示已经将研究结果分享给了大模型厂商,得到回应称已经关注到这一现象并将持续改进,目前,多数被提到的“咒语”已得到控制。
责任编辑:众视数字
为您推荐
马斯克揭秘“宇宙级”AI:特斯拉搞硬件、xAI搞模型
两天前马斯克高调宣布成立xAI公司之后,很多人都对这个全新的、似乎不走寻常路的AI公司充满了好奇。