2025/09/07 01:00:33 1,013次浏览

这项由腾讯AI实验室联合北京大学、复旦大学、上海交通大学、清华大学、浙江大学、中科院信息工程研究所、新加坡管理大学等多所顶级院校共同完成的重磅研究,于2025年8月25日发表在arXiv预印本平台上。这是全球首个专门评估AI代码生成安全性的仓库级基准测试,有兴趣深入了解的读者可以通过论文编号arXiv:2508.18106v1访问完整论文。

当AI开始大规模参与软件开发时,一个令人担忧的现象悄然浮现:这些聪明的AI助手虽然能写出看起来完美的代码,但却可能无意中埋下了严重的安全隐患。就像一位技艺精湛的建筑师能够设计出美轮美奂的大厦,但如果忽略了防火通道的设计,再华丽的建筑也可能成为安全威胁。

研究团队发现,目前AI代码生成领域存在一个严重问题:现有的测试方法就像用放大镜检查建筑材料的质量,却忽略了整座建筑的结构安全。大多数现有基准只关注代码片段的功能正确性,就像只检查每块砖头是否完好,却不考虑整体建筑的抗震性能。更糟糕的是,这些测试方法往往依赖不稳定的评估手段,就如同用一把时而准确时而偏差的尺子来测量建筑尺寸,结果自然难以信任。

为了解决这个关键问题,研究团队开发了名为A.S.E(AI Code Generation Security Evaluation)的创新性基准测试系统。这套系统就像一位经验丰富的建筑安全检查员,不仅要检查每个房间的装修质量,更要评估整座建筑的结构安全、消防系统和抗灾能力。

A.S.E基准的独特之处在于它采用了真实世界的软件项目作为测试材料。研究团队精心筛选了120个来自实际开源项目的代码仓库,这些项目都曾经历过真实的安全漏洞攻击并留下了详细的修复记录。就像建筑安全专家会研究那些曾经发生过事故的建筑案例一样,这种方法能够最真实地反映AI在面对复杂现实环境时的表现。

在构建测试环境时,研究团队面临一个微妙的平衡问题。一方面,他们需要保持代码的真实性和完整性,确保测试环境与实际开发环境高度相似;另一方面,他们又必须防止AI模型简单地"背诵"训练数据中已见过的代码。为此,团队采用了巧妙的"语义变换"技术,就像将建筑的外观装饰稍作调整,但保持内部结构和功能完全不变,这样既避免了"作弊"的可能,又保证了测试的有效性。

整个评估过程就像一场全面的建筑安全检查。当AI模型接到任务时,它需要在一个被故意"破坏"了关键安全部件的建筑项目中,准确识别问题并提供完整的修复方案。这不仅要求AI理解代码的基本功能,更要求它能够把握整个项目的依赖关系、构建系统和跨文件交互,就如同安全检查员需要同时了解电路系统、水管布局和结构承重的复杂关系。

为了确保评估结果的可靠性和可重复性,研究团队开发了一套基于Docker容器的自动化评估系统。这套系统就像一个标准化的检验实验室,每次测试都在完全相同的环境中进行,确保结果不受外界因素干扰。更重要的是,评估标准采用了专家定制的规则而非主观判断,就像使用精密仪器而非肉眼观察来检测建筑材料的强度。

评估维度涵盖了三个关键方面,就像全面评估一座建筑的安全性需要从多个角度考量。首先是安全性评估,检查AI生成的代码是否真正消除了原有漏洞,同时没有引入新的安全隐患,这占据了总分的60%权重,体现了安全性的核心地位。其次是质量评估,验证生成的代码是否能够正确编译和运行,占30%权重。最后是稳定性评估,考察AI在多次运行中是否能产生一致的结果,占10%权重。

研究团队对26个当前最先进的大语言模型进行了全面测试,包括18个商业模型和8个开源模型。测试范围覆盖了Claude、GPT、Qwen、DeepSeek等主流AI助手,每个模型都要接受三轮独立测试以确保结果的稳定性。

测试结果令人深思。在这场"建筑安全大考"中,表现最佳的Claude-3.7-Sonnet获得了63.01的总分,但即便是这位"优等生",其安全得分也只有46.72分,远未达到50分的及格线。这意味着即使是最先进的AI模型,在面对复杂的真实项目安全问题时,仍然存在显著的能力缺陷。

更有趣的是,研究揭示了一个意外现象:那些标榜"慢思考"、"深度推理"的AI模型,在安全代码生成方面的表现反而不如采用"快思考"策略的同类产品。就像有时候凭借直觉和经验快速做出的决策,可能比经过复杂分析得出的结论更加准确。Claude-3.7-Sonnet-Thinking的安全得分为44.65分,略低于其"快思考"版本的46.72分,这一发现颠覆了人们对"思考时间更长必然结果更好"的传统认知。

在开源与商业模型的对比中,研究发现了令人鼓舞的结果。开源模型Qwen3-235B-A22B-Instruct在安全性方面表现出色,得分达到48.03分,甚至超过了Claude-3.7-Sonnet的46.72分,成为安全性能最强的模型。这表明在AI代码安全领域,开源模型已经具备了与顶级商业产品竞争的实力,这对于促进技术普及和降低使用门槛具有重要意义。

从漏洞类型分析来看,不同类型的安全问题对AI模型构成了不同程度的挑战。路径遍历漏洞被证明是最难处理的安全问题,即便是表现最好的模型在这类问题上的得分也不到50分。这类漏洞涉及文件系统访问控制,需要AI深度理解文件路径构建和权限管理的复杂逻辑。相比之下,跨站脚本攻击(XSS)和命令注入等问题虽然同样复杂,但AI模型的处理能力相对较强。

编程语言的差异也影响着AI的表现。在测试的五种编程语言中,PHP项目占据了50%的比例,这反映了Web开发中PHP的广泛应用,同时也暴露了PHP项目中安全漏洞的高发态势。Python、Go、JavaScript和Java项目的分布相对均匀,为跨语言的AI安全能力评估提供了良好基础。

通过对Claude-3.7-Sonnet的详细案例分析,研究团队发现了AI代码生成中的一个重要模式。在处理SQL注入和路径遍历等复杂安全问题时,AI往往能够生成语法正确且功能完整的代码,但这些代码中仍然存在安全隐患。就像一个技艺娴熟的木匠能够制作出外观精美的家具,但可能忽略了防虫防潮的处理。这种现象表明,当前的AI模型在代码正确性和安全性之间存在明显的能力不平衡。

研究还发现了架构设计对AI安全性能的影响。采用混合专家模型(MoE)架构的AI系统普遍表现更好,这类系统就像拥有多个专业领域专家的咨询团队,能够针对不同类型的安全问题调用相应的专业知识。相比之下,传统的密集型模型虽然参数众多,但在处理安全问题的专业性上略显不足。

从稳定性角度看,一些模型展现出了有趣的特征。GPT-o3系列模型在生成稳定性方面表现优异,多次运行的结果高度一致,但这种稳定性却伴随着较低的安全性和代码质量。这就像一台精确的机器能够重复产生相同的产品,但产品本身可能存在设计缺陷。这一发现提醒我们,在评估AI系统时不能仅仅关注单一维度的表现。

研究团队通过对比原始测试和变异测试的结果,验证了A.S.E基准的鲁棒性。两种测试条件下的结果高度一致,这证明了基准测试不会因为代码的表面变化而产生误判,同时也确认了测试中不存在数据泄露问题。这种严谨性为基准的可信度和实用性提供了强有力的保证。

A.S.E基准的技术创新体现在多个方面。首先,它建立了从真实CVE漏洞到测试任务的完整映射关系,确保每个测试场景都对应实际存在的安全威胁。其次,通过精心设计的语义保持变换技术,在避免数据污染的同时保持了代码的真实性。最重要的是,整套评估流程实现了完全自动化和容器化,任何研究者都可以在相同条件下重现实验结果。

这项研究的意义远不止于提供了一个测试基准。它揭示了当前AI代码生成技术的真实能力边界,为AI辅助软件开发的安全使用提供了重要指导。研究结果表明,虽然AI在代码生成方面已经取得了显著进展,但在安全性这一关键维度上仍有很大提升空间。这提醒开发者在使用AI工具时,必须保持足够的安全意识和验证措施。

对于AI模型开发者而言,这项研究指出了明确的改进方向。提升AI对安全漏洞的识别和修复能力,特别是在复杂的多文件、多模块项目中的安全推理能力,应当成为未来研发的重点。同时,如何在保持代码功能正确性的同时增强安全性,也是一个值得深入探索的技术挑战。

从更广阔的视角看,A.S.E基准的发布标志着AI代码生成评估进入了一个新的阶段。过去那种仅关注功能实现的评估方式已经无法满足实际应用的需求,安全性评估将成为AI代码工具发展的重要驱动力。这种变化反映了整个行业对AI代码质量要求的不断提升,也预示着未来会有更多专注于特定维度的专业化评估基准出现。

说到底,这项研究就像给AI代码生成领域安装了一面"安全镜子",让我们清楚地看到了当前技术的真实面貌。虽然镜子中的影像可能不够完美,但正是这种客观的审视才能推动技术向更加安全、可靠的方向发展。归根结底,AI工具的价值不仅在于能够快速生成代码,更在于能够生成既正确又安全的代码。只有在安全性得到充分保障的前提下,AI才能真正成为软件开发者的可靠伙伴,而不是潜在的安全隐患制造者。

这项研究为整个行业提供了一个重要的警示和方向指引。对于正在或计划使用AI代码生成工具的开发者来说,这些发现强调了人工审查和安全验证的不可替代性。对于AI技术研发者而言,如何在保持生成效率的同时大幅提升安全性,将成为下一阶段竞争的关键战场。而对于整个软件行业来说,建立更加全面、严格的AI代码安全评估标准,已经成为迫在眉睫的现实需求。

Q&A

Q1:A.S.E基准测试是什么?它和传统的代码测试有什么不同?

A:A.S.E是全球首个专门评估AI代码生成安全性的仓库级基准测试系统。与传统只关注代码片段功能的测试不同,A.S.E使用完整的真实项目进行测试,就像检查整座建筑的安全性而不只是检查单个房间。它不仅看代码能否运行,更重要的是检查代码是否安全,能否抵御黑客攻击。

Q2:为什么AI写的代码看起来正确但可能不安全?

A:这就像一个技艺精湛的建筑师能设计出美观的建筑,但可能忽略防火通道一样。当前AI模型在学习时更多关注代码的功能实现,对安全性的理解相对不足。研究发现,即使是最先进的Claude-3.7-Sonnet,虽然代码质量得分达91.58分,但安全得分只有46.72分,说明AI在代码正确性和安全性之间存在明显不平衡。

Q3:哪些AI模型在代码安全方面表现最好?开源模型靠谱吗?

A:在综合表现上,Claude-3.7-Sonnet排名第一,但在纯安全性方面,开源模型Qwen3-235B-A22B-Instruct表现最佳,安全得分达48.03分。研究发现开源模型在安全性方面已经具备与顶级商业产品竞争的实力,差距并不大。不过需要注意的是,即使是表现最好的模型,安全得分也未达到50分及格线。

腾讯联合多所名校重磅发布:AI写代码竟然存在严重安全漏洞
腾讯联合多所名校重磅发布:AI写代码竟然存在严重安全漏洞

苹果CEO库克八次说谢谢

「活动」kumawubiaotitest

2.71MB
版本V3.527.38
下载周淑怡bj❌被羞羞视频安装你想要的应用 更方便 更快捷 发现更多
喜欢 51%好评(3人)
评论 16
腾讯联合多所名校重磅发布:AI写代码竟然存在严重安全漏洞截图0 腾讯联合多所名校重磅发布:AI写代码竟然存在严重安全漏洞截图1 腾讯联合多所名校重磅发布:AI写代码竟然存在严重安全漏洞截图2 腾讯联合多所名校重磅发布:AI写代码竟然存在严重安全漏洞截图3 腾讯联合多所名校重磅发布:AI写代码竟然存在严重安全漏洞截图4
详细信息
  • 软件大小: 37.101MB
  • 最后更新: 2025/09/07 01:00:33
  • 最新版本: V6.7.7
  • 文件格式: apk
  • 应用分类:ios-Android 欲梦被❌c🐻扒衣服
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.3以上
应用介绍
一,娜美被扒开腿爆❌乳液狂飙小说,免费看裸体🔞🔞🔞多人
二,sss亚洲🈚️码,手游盒子app
三,BRAZZERS💋性XBB,嗯~啊别揉我奶头㊙️视频景甜国产
四,原神芙宁娜裸体❌开腿照片,A片黄18🈲免费版
五,小心🐤伸入女人的🍑的视频,女补扒腿㊙️让人桶爽
六,小太正攻警卫员受Gay❌❌动漫,扒开❌狂揉❌难受女,免费🔞🍌进去里❌❌❌
七,爽⋯躁多水⋯快⋯深点触手对话
【联系我们】
客服热线:134-2881-646
加载更多
版本更新
V7.5.17
免费视频🔞成人流出来了
  • 女警察被❌吸乳羞羞视频

    jizzass

    羞羞视频一二三区

    140.97MB
    100好评

    关晓彤被❌吸乳羞羞漫画

  • ,小受扒开🍑让人c视频

    星穹铁道涩涩同人18❌网站

    四川人欧美⭕⭕⭕⭕XX高清

    82.26MB
    088好评

    扒开🍑跪着让客人玩男男小说

  • 裸身❌❌漫画

    东南亚呦小泬泬

    中国帅大叔gary

    13.59MB
    316好评

    丝袜脚精子18🔞禁❌❌❌

  • www.17c.com爱爱

    ㊙️韩漫免费网站成人漫画

    国产➕麻豆

    53.75MB
    273好评

    成人wwwwxxxx欧美寡妇性生活视频

  • 动漫美女裸体被❌涩涩动画网站

    女初高中打屁股♥网站╳

    美女的隐私㊙️无遮视频

    71.46MB
    704好评

    女学生喷浆❌❌❌现看视频

  • 班长撩起我的🍌蹭来蹭去的APP

    赵露思被绑被❌羞羞

    黄✡️色✡️视✡️频杨幂

    83.14MB
    338好评

    刻晴裸体❌自慰喷水

  • 动漫护士被爆❌挤奶com视频

    女人裸体又黄❌❌视频

    亚洲另类⭕⭕⭕⭕XXXX

    23.64MB
    104好评

    美女被❌到爽🔞高潮痉挛视频

  • 免费无遮挡成人🔞动漫网站

    原神同人18❌本子

    高清🈚码🔞❌♋白灵在线观看

    50.35MB
    929好评

    男人㊙️桶进美女屁股动漫

  • 男人被男人到爽🔞无套

    12孩岁女精品A片BBB

    偷拍男人撒尿全过程㊙️免费

    83.49MB
    560好评

    朝鲜美女裸体BBBBBB

  • 猛男粗口❌Gay体育生🔞网站

    男人的🍌伸到🍑涩涩日本

    啊灬灬用力灬嗯灬3p黑人

    83.05MB
    756好评

    男男脱裤子🔞小jij鼓起文

  • 把男生困困放女生困困里视频

    日本在线不卡暴躁老阿姨

    中国丰满老熟妇BBBBBB

    32.06MB
    623好评

    成人18🈲视频

  • 纲手被爆❌自慰无尽

    日本一级婬片A片AAA毛多多

    18🈲🍆🍑无套直

    26.24MB
    277好评

    ♥国产精品嫩草影院♥

  • XNXX黄色日本

    黑人做爱视频啪啪啪

    免费🔞🔞🔞未满,漫画

    65.13MB
    742好评

    美女扒开㊙️让男人桶爽

  • 雏田爆乳被❌🔞🈲🈲

    成人漫画H🔞漫画免费

    香蕉影视app❤成人网址

    54.14MB
    756好评

    李丽莎mv拍摄现场视频

  • 日本人做爱视频

    美女裸体无遮挡㊙️视频

    美女又色❌又黄❌网站

    57.34MB
    688好评

    17c蜜桃视频红桃视频

  • 越南少妇性交

    91丨九色丨国产女❤黑色JK

    小樱被鸣人❌无码视频

    24.11MB
    359好评

    格温被❌到爽🔞高潮

  • 无遮当🔞视频

    精品+无码➕免费➕国产小说

    巨胸美女爆❌无遮挡

    13.43MB
    311好评

    18??🈲?交片黄

  • 免费🔞成人❌❌猎奇

    欧美性猛交❌❌❌❌富婆

    欧产➕日产➕国产精品一二

    84.85MB
    219好评

    黄片樱花视频

  • FuCK老女人

    FreeHD18❌❌❌麻豆

    http://jxxCC

    45.96MB
    731好评

    男男GayGay✅打光屁股网站

  • 🌳每日大赛反差大赛回家动漫美女被❌

    欧洲❌❌69❌❌

    ❌蜜❌桃❌黄❌片AV外网

    10.64MB
    183好评

    美女裸体❌开腿羞羞的网站

  • 国产一及A片在线播放

    国产无🈚在线观看软件

    麻豆精品㊙️一区二区三区91

    44.72MB
    368好评

    [AISS]爱丝钻石

  • 女人精A片一级户外

    脚控免费网站❌Xx视频

    国产精品㊙️蜜在线观看

    91.00MB
    203好评

    成人🔞视频

  • 黑寡妇裸爱被❌视频无码

    扒开千仞雪❌狂揉❌难受动漫

    ai王钟瑶裸被❌高清网站

    30.42MB
    907好评

    白丝护士女仆❌❌❌在线观看

  • 男生的困困到女生困困里视频

    小黃片㊙️🈲网站戳小便的

    美国性爱白➕黑xxxxx

    30.42MB
    543好评

    免费e站看大片真人直播

  • 浪浪视频◼️色版app

    老师疯狂❌喷水自慰A片软件下载

    免费➕无码➕国产在现看瑜茄

    29.56MB
    120好评

    王者涩涩同人❌18禁漫画2

  • 🔞影院免费看

    女学生喷浆❌❌❌中国

    免费无遮挡🔞视频网站在线观看

    70.90MB
    451好评

    日本❌❌❌❌❌18-19

  • 日本撒尿大合集 在线胡桃❌爆爽自慰喷水网站 title="少司缘裸体❌开腿裸体洗澡" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    鸣人和井野❌漫画无码3d

    ㊙️黄AV无遮挡网站

  • 成人扒开🍑伸进🍌❌火影无遮挡🔞动画网站 title="扒开🍑跪着让客人玩男女" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    裸乳裸体🍑日本无码

    佐良娜被博人爆❌小说

  • 蜜桃av㊙️无码一区二区三区XXXX38🍆🍆H title="隐私㊙️视频黄www网站免费" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    精品毛片在线观看网站入口

    少女破苞流血视频大全

{{.转码Keywords}} 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
包含 饿了么 的应用集
评论
  • 做爰XXXⅩ高潮喷水蜜臀 8天前
    女人自慰全过程(有声
  • 老太老头树林做爰视频 2天前
    小🐔🐔伸进🈲🔞🔞78
  • 照片xxxxxxxxxx 8天前
    三个人换着躁b一个
  • 无码精品A∨密㊙️入口 6天前
    国产老熟女高潮精品A片下载
  • XXNX16👙欧美 4天前
    91麻豆精品秘密㊙️入口
  • 巴西❌❌奶头❌❌裸体 6天前
    xxav
  • 光脚足控免费网站❌Xx,泳池 9天前
    ㊙️韩漫桃桃漫画app
  • 美女隐私㊙️www网站2023 8天前
    男人的🍌伸到🍑里擼擼网站
  • 18🈲成人免费漫画网站 8天前
    欧美精品88AV色情性黄❌片
  • 脱裤子❌打屁屁实游 2天前
    美女㊙️灌肠网站