关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2845人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新增插混系统 全新斯柯达柯珞克假想图曝光

车质网 浏览 1350

“苏超”MVP范厚泰:感恩亚泰,感恩泰州,感恩“苏超”平台

懂球帝 浏览 2207

1999元起 华为畅享70X尊享版开售:麒麟8000芯片、一键发送北斗卫星消息

快科技 浏览 2083

i茅台1499元直销飞天茅台“秒空”,每5分钟补货仍遭疯抢

红星资本局 浏览 1739

四名日本U17国脚在阿贾克斯试训,并与富安健洋、板仓滉合影

懂球帝 浏览 894

记者:尽管与热刺和切尔西传出绯闻,但托尼1月不会返回英超

懂球帝 浏览 2769

小扎千亿新模型被曝「套壳」Qwen!Meta开源已成笑话

新智元 浏览 2080

北京78-93天津1喜3忧!太吃杰曼状态,陈盈骏低迷,许利民辣眼!

篮球资讯达人 浏览 1466

离婚14年,宁静汪峰再传绯闻,前夫儿子为她争光

枫尘余往逝 浏览 2503

萨里:我们没给罗马太多机会,但随后自己阵脚大乱

直播吧 浏览 3422

仅上任两个月!某车企董事长突然辞职

汽车工程师 浏览 1656

加码中国“确定性”

国际金融报 浏览 2787

特朗普邀请俄罗斯重回西方怀抱 普京用一句话表明决心

空天力量 浏览 17706

芦哲:经济“温差”如何影响宏观调控?

首席经济学家论坛 浏览 2607

E句话| 女明星站个C位就要被封杀?

仙女事件簿 浏览 2608

今年最流行的5条半裙,怎么搭都好看!

LinkFashion 浏览 591

MIT最新发现:这十年,算法进步被高估了

机器之心Pro 浏览 1960

布拉格队长:下半场我们想踢得更具威胁,但阿森纳太强了

懂球帝 浏览 2482

未来四个月,汽车市场的目标增速-11.82%?

DearAuto 浏览 3461

老牌公募中邮基金换帅 张涛接替毕劲松面临权益短板挑战

Daily每日财报 浏览 1919

天空体育:若利物浦向塞门约发出邀约,球员就会选择加盟

懂球帝 浏览 1870
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1