关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2840人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

双剑合璧:科创板、创业板的重大改革与长期投资价值

尺度商业 浏览 2487

小城大事:郑德诚风波解除,李秋萍为空降镇长

少女的烦恼 浏览 1633

印度稀土转卖丑闻曝光,伪造文件骗取稀土转卖老美

大国观察眼 浏览 1283

内装豪华感提升 小鹏X9增程版内饰发布

网易汽车 浏览 2633

媒体:马克龙戴墨镜出席达沃斯 说的话不给特朗普面子

新民周刊 浏览 18874

谢孟伟彻底“凉凉”,多平台账号被封,潘长江的含金量还在上升

扒虾侃娱 浏览 3296

海南冯强再被通报:酒驾 工作时间沉迷打高尔夫球

极目新闻 浏览 7327

为了考公上岸,我花2万元在郊区封闭备考

豹变 浏览 881

今年最流行的4双鞋,配西装时髦有态度!

LinkFashion 浏览 3286

森保一:若球迷都穿巴西球衣来看球,那我们恐怕很难赢

懂球帝 浏览 2757

姚明将在今年开始正式领取NBA退休金,每月可领约1.3万人民币

懂球帝 浏览 2657

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

LinkFashion 浏览 1410

努诺未来明确,西汉姆联确认新团队成员

绿茵情报局 浏览 1569

有望2026年亮相 曝法拉利首款纯电动车谍照

车质网 浏览 2753

牛弹琴:印度耍流氓太不地道 难怪巴基斯坦要发飙

北京日报客户端 浏览 12609

A股公司老总被抓宣布离婚 80后前妻分9.24亿紧急接班

每日经济新闻 浏览 7652

郑丽文要让国民党"羊群变狮群":不是反咬一口而已

海峡导报社 浏览 8484

问界M6官图首发 以年轻化设计叩击25-30万级市场

网易汽车 浏览 1350

好消息,来了!

博闻财经 浏览 2623

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT4o

量子位 浏览 2773

2019年资金荒隐现?全球货币市场流动性趋紧信号显现

华尔街见闻官方 浏览 2551
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1