全球首个AI代理沙盒：新加坡与谷歌联合探索自主系统的治理与机遇

扫描分享

本文共字，预计阅读时间。

人工智能正进入下一发展阶段。日益具备自主性的代理系统打开了新的可能性，在提升生产力、改善服务交付、构建更高效且以市民为中心的公共服务方面潜力巨大。与此同时，代理系统更高的自主性也可能带来新的不确定性，因此必须理解AI代理在实际中的行为方式、可能出现的风险与意外后果，以及现有治理框架需要如何演进以支持其应用。

在此背景下，谷歌与新加坡政府（具体包括新加坡网络安全局、新加坡政府科技局和新加坡资讯通信媒体发展局）于2025年8月联合推出了全球首个“AI代理沙盒”。该沙盒旨在更深入地了解代理（尤其是本次关注的计算机操作代理）在真实环境中的运行方式，并利用所得见解指导其开发、部署与治理。沙盒运行约四个月，各方保持密切协作。

三大用例：覆盖不同风险等级

为确保获得有意义且全面的洞察，参与者优先选择了三个风险暴露程度不同的用例。

自动化质量保证：探索AI代理如何支持并自动化政府数字服务的质量保证测试，从而提高可靠性、释放工程资源。结果显示，代理成功评估了政府网站，测试了响应时间、搜索功能和页面完整性。利用自然语言理解，它准确识别了预设的非活跃页面、占位文本和预发布环境网址不匹配等问题。这表明代理式AI在软件质量保证方面具有更广泛潜力——与传统脚本化测试工具不同，AI代理能够对动态界面进行解读和判断。

AI安全测试：自动化测试聊天机器人等AI软件的安全性，确保其在部署前满足政府要求。结果显示，AI代理能够可靠地在多种语言和格式下执行大规模安全测试，显著减少聊天机器人评估所需的人工投入。尽管实现过程并非完全无错，但随着技术演进，该方法为强化AI保障提供了一种更具可扩展性和一致性的途径。

社会救助申请：帮助公民了解并申请社会救助项目，简化复杂流程。结果显示，代理能够引导申请人或社工完成复杂的社会救助申请流程，可能减少在面对面协助、服务热线以及人工跟进（处理错误、遗漏和不完整提交）方面的大量资源投入。

主要风险主题

沙盒同时揭示了若干共性的风险与挑战：

人类监督：确保充分的控制与问责，尤其是当决策对个人产生现实影响时。
定制化与控制：在灵活性与安全防护之间取得平衡，尤其是在测试或评估环境中。
网络安全：最突出的是间接提示注入攻击——代理可能被欺骗执行非预期操作，包括远程代码执行。
数据保护与隐私：代理直接处理个人数据时可能引发隐私泄露或数据外泄等风险。

面向未来的考量

结合上述机遇与挑战，沙盒提出了两类广泛考量：一是近期组织可考虑的具体措施、控制项与设计选择；二是随代理技术演进需要更深入研究的长期问题。

1.近期：增强当下AI代理的信任与韧性

选择起点：通过受控测试和渐进式真实部署，逐步建立对AI代理的信心与信任。
校准人类监督程度：监督应基于风险，平衡控制与自主性，防护措施应分布在系统、组织和用户层面。高风险操作可能需要预先批准，低风险操作可在结果可逆且存在补救机制的前提下进行事后审查。
保持AI代理安全：安全开发与部署是共同责任。防护应分布在平台/模型、系统/组织、终端用户等多个层面，由最适合预判和管理相应风险的角色承担。
平衡灵活性与控制：系统默认应安全可靠，同时允许在适当范围内进行有约束的灵活性与定制化。这种灵活性需有边界，避免实验无意引入新风险。

2.长期：探索代理式未来的前沿方向

技术局限性：沙盒既展示了代理系统的潜力，也揭示了需进一步探索的领域——例如，在需要更高精度的场景（尤其是处理信息密集内容时），如何利用替代技术来补充基于截图的感知方式。
多代理方法：多个代理协作进行审查、批评和优化输出的潜力仍处于探索阶段，可能解锁新能力，同时也使互操作性和治理挑战更加凸显。若不同组织或平台开发的代理需要交互，联盟主导的开放标准与通用基础（如谷歌的Agent2Agent协议）将变得日益重要。
数字基础设施建设：当前数字环境主要围绕人类用户设计，与支持大规模代理式交互的需求存在错位。从身份与认证框架到权限与访问控制，底层生态系统的多项要素可能需要演进，以适应更自主的代理驱动型交互。
平衡隐私与个性化：随着AI代理自主性增强并获得更多用户个人上下文，个性化收益与隐私保护之间的张力更加突出。挑战在于确保代理能继续利用数据创造价值，同时维护有意义的用户控制、最小化不必要的数据使用，并探索超越效用与保护之间零和博弈的隐私增强方法。

该AI代理沙盒标志着向构建敏捷、创新友好的治理方式迈出了重要一步。通过业界、政府及更广泛生态的持续承诺、对话与协作，新加坡乃至全球社区有望共同塑造一个AI代理部署安全、可信且产生切实影响的未来。

[Source]

本文系未央网专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文为作者授权未央网发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文版权归原作者所有，如有侵权，请联系删除。