研究:用诗歌就能让AI说违禁内容,成功率达62%
[探索] 时间:2025-12-30 19:53:54 来源:郑州市某某电子科技有限公司 作者:综合 点击:187次
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容榆林市某某母婴用品售后客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功榆林市某某母婴用品售后客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
相关内容
- 三家A股公司同日公告:被证监会立案!
- 第27届北京国际音乐节正式开幕
- 国庆假期第六天,北京市属公园接待游客45万余人
- 北京红叶上线!石景山这里将进入最佳观赏期
- 大熊猫回中国后,日本搞出“神操作”……
- 第27届北京国际音乐节正式开幕
- 文化中国行丨北京天文馆有谁在啊?明代陨石、模拟黑洞……
- 明起北京多条地铁延时运营,三座车站开通应急摆渡车
- 引入AI就解雇员工合法吗?北京发布一批典型案例
- 高速进京方向已现返程高峰,今明两日16时至20时交通压力大
- 北京地铁13号线扩能提升首个区间主体完工
- 郑钦文点燃网球经济 中网票房突破7000万
- 加湿器、香薰机……你的冬日幸福感,可能正在偷袭你的肺!
- 苏丹中部城市遭空袭 造成至少100人伤亡
精彩推荐
- 泰国与柬埔寨就停火问题签署联合声明
- 苏丹中部城市遭空袭 造成至少100人伤亡
- 中信建投:A股市场已经进入新阶段 应该以牛市思维做出投资决策
- 印度空军参谋长:空军要“遵守时间表”追赶中国
- 加湿器、香薰机……你的冬日幸福感,可能正在偷袭你的肺!
- 重磅!美联储公布:巨亏超2000亿美元!
热门点击
- 李某春故意杀人案一审宣判 views+
- 中央编办同意,湖北单独设立一家副厅级单位 views+
- A股重要调整,明起实施 views+
- 秋游研学遭投诉,学校取消之后,改校内游!再遭家长投诉 views+
- 湖南气象2026年招录名单曝光:这些大学和专业最吃香 views+
- 泰国军队称空袭柬埔寨两处军事目标 views+
- 2026考研迎来“坏消息”:多所高校发布通知,令寒门学子左右为难 views+
- 黄海一水域明天有火箭残骸掉落,禁止驶入 views+
- 捷蓝航空航班在委附近海域险些与美军加油机相撞 views+
- 15轮2分,他们怎么成了英超最烂球队? views+
