理解网络安全边界
这些 safeguards 包括训练模型拒绝明显 malicious requests,例如窃取 credentials。
GPT-5.3-Codex 是 OpenAI 按 Preparedness Framework 作为 High cybersecurity capability 对待的第一个模型,因此需要额外 safeguards。
这些 safeguards 包括训练模型拒绝明显 malicious requests,例如窃取 credentials。
除了 safety training,OpenAI 还使用 automated classifier-based monitors 检测 suspicious cyber activity signals,并把 high-risk traffic 路由到 cyber capability 较低的模型,也就是 GPT-5.2。
OpenAI 预期只有很小一部分 traffic 会受到这些 mitigations 影响,并且正在持续完善 policies、classifiers 和 in-product notifications。
Why we’re doing this
过去几个月,模型在 cybersecurity tasks 上的能力有明显提升,这对 developers 和 security professionals 都有价值。
随着模型越来越擅长 vulnerability discovery 这类 cybersecurity-related tasks,OpenAI 采取 precautionary approach:扩大 protections 和 enforcement,在支持 legitimate research 的同时减缓 misuse。
Cyber capabilities 天然是 dual-use。支撑重要 defensive work 的同一套知识和技术,例如 penetration testing、vulnerability research、high-scale scanning、malware analysis、threat intelligence,也可能造成真实世界伤害。
这些 capabilities 和 techniques 应该在能改善安全的场景中可用,并且更容易使用。OpenAI 的 Trusted Access for Cyber pilot 允许 individuals 和 organizations 在不中断的情况下,继续把 models 用于 potentially high-risk cybersecurity activity。
How it works
从事 cybersecurity-related work,或从事可能被 automated detection systems mistaken 的类似活动的 developers 和 security professionals,requests 可能会 fallback reroute 到 GPT-5.2。
OpenAI 预计只有很小一部分 traffic 会受到 mitigations 影响,并正在校准 policies 和 classifiers。
最新 alpha 版本的 Codex CLI 已经包含 request 被 reroute 时的 in-product messaging。未来几天内,所有 clients 都会支持这类 messaging。
受到 mitigations 影响的 accounts,可以通过加入下面的 Trusted Access program,恢复 GPT-5.3-Codex access。
OpenAI 也承认,加入 Trusted Access 不一定适合所有人。因此随着 mitigations 扩大和 strengthen cyber resilience,OpenAI 计划在多数情况下从 account-level safety checks 转向 request-level checks。
Trusted Access for Cyber
OpenAI 正在试点 "trusted access",让 developers 在 OpenAI 继续校准 policies 和 classifiers、准备 general availability 的同时,保留 advanced capabilities。
目标是让需要加入 Trusted Access for Cyber 的 users 非常少。
要把 models 用于 potentially high-risk cybersecurity work:
- Users 可以在 chatgpt.com/cyber 验证 identity。
- Enterprises 可以通过 OpenAI representative,为整个团队默认申请 trusted access。
可能需要更 cyber-capable 或更 permissive models 来加速 legitimate defensive work 的 security researchers 和 teams,可以表达加入 invite-only program 的兴趣。
拥有 trusted access 的 users 仍必须遵守 Usage Policies 和 Terms of Use。
False positives
Legitimate 或 non-cybersecurity activity 偶尔也可能被 flagged。
发生 rerouting 时,responding model 会在 API request logs 中可见,并在 CLI 中显示 in-product notice;很快所有 surfaces 都会支持。
如果你认为遇到的 rerouting 是错误的,请通过 /feedback 报告 false positives。