研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容南宁市某某装饰材料厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功南宁市某某装饰材料厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热点)
-
据英国天空新闻台援引瑞士警方消息报道,当地时间今天1月1日)凌晨,瑞士阿尔卑斯山区滑雪小镇克朗-蒙大拿一家酒吧起火爆炸,已造成至少10人死亡、10人受伤。死伤人数有可能进一步上升。警方还确认,该事
...[详细]
-
[环球时报特约记者柳直]“俄罗斯计划通过哈萨克斯坦每年向中国输送350亿立方米的天然气。”新加坡《联合早报》5日报道称。俄罗斯塔斯社引述哈萨克斯坦驻俄罗斯大使阿巴耶夫的说法称,俄罗斯计划建设一条经
...[详细]
-
世界经济论坛官网近日报道指出,为让人工智能AI)发挥其变革潜力、提高生产力水平及社会福祉,人类必须确保它可持续地发展。这一愿景面临的核心难题在于,随着算力和性能的不断提升,能耗也在快速增长。AI生态系
...[详细]
-
从岭南的甜蜜果香,到东海的海鲜盛宴,再到江南的春日新茶,随着农村快递物流体系的深入完善,各地特色农产品搭乘快递快车,直达千家万户。近年来,快递业抓住发展机遇,不断提升服务品质,优化丰富服务场景,进一步
...[详细]
-
当地时间12月29日,央视记者获悉,此前一天美国新泽西州两架直升机空中相撞事故中的两名飞行员均确认死亡。哈蒙顿警察局长凯文·弗里尔在一份声明中表示,一名飞行员被送往当地医院后被宣布死亡,另一名飞行
...[详细]
-
置身北京的中国非物质文化遗产馆中,观赏工艺美术家的敦煌图案手稿;到刚刚开馆的西藏非物质文化遗产博物馆中,近距离感受绚丽多彩的唐卡、美观实用的织造技艺;在位于江苏的六朝博物馆里,穿着汉服制作一把漂漆扇…
...[详细]
-
煤炭科学研究总院出版传媒集团成立于2015年旗下有20种期刊,出版传媒集团以“打造品牌、争创一流、做优名刊”为指导思想,以“统一管理、原位运营、分步实现”为运营思路,与各期刊主办单位一起齐抓共管
...[详细]
-
随着财报季的落幕,上市公司业绩也被验证完毕。A股交易时间进入5月份后,各大券商更加青睐哪些板块和标的呢?整体来看,行业方面,电子、医药、机械设备等是券商5月金股中权重较大的几个行业,权重增加最多的行业
...[详细]
-
来源:财联社 财联社1月4日电,据央视新闻报道,俄罗斯国防部1月4日发布战报称,俄军已控制哈尔科夫州的波多雷定居点。过去一天,俄军在苏梅、哈尔科夫、顿涅茨克、扎波罗热、及赫尔松方向等多地打击乌军
...[详细]
-
改善农村人居环境,事关农民群众根本福祉。中央农村工作会议强调,扎实有序推进乡村建设,深入实施农村人居环境整治提升行动。立夏时节,草木葱茏,鸟鸣啁啾。从河南安阳内黄县县城出发,沿220省道一路向南,宽阔
...[详细]

江西宣判一例“AI外挂”案:男子获利629万余元,判三缓五