理解网络安全边界

这些 safeguards 包括训练模型拒绝明显 malicious requests，例如窃取 credentials。

GPT-5.3-Codex 是 OpenAI 按 Preparedness Framework 作为 High cybersecurity capability 对待的第一个模型，因此需要额外 safeguards。

这些 safeguards 包括训练模型拒绝明显 malicious requests，例如窃取 credentials。

除了 safety training，OpenAI 还使用 automated classifier-based monitors 检测 suspicious cyber activity signals，并把 high-risk traffic 路由到 cyber capability 较低的模型，也就是 GPT-5.2。

OpenAI 预期只有很小一部分 traffic 会受到这些 mitigations 影响，并且正在持续完善 policies、classifiers 和 in-product notifications。

Why we’re doing this

过去几个月，模型在 cybersecurity tasks 上的能力有明显提升，这对 developers 和 security professionals 都有价值。

随着模型越来越擅长 vulnerability discovery 这类 cybersecurity-related tasks，OpenAI 采取 precautionary approach：扩大 protections 和 enforcement，在支持 legitimate research 的同时减缓 misuse。

Cyber capabilities 天然是 dual-use。支撑重要 defensive work 的同一套知识和技术，例如 penetration testing、vulnerability research、high-scale scanning、malware analysis、threat intelligence，也可能造成真实世界伤害。

这些 capabilities 和 techniques 应该在能改善安全的场景中可用，并且更容易使用。OpenAI 的 Trusted Access for Cyber pilot 允许 individuals 和 organizations 在不中断的情况下，继续把 models 用于 potentially high-risk cybersecurity activity。

How it works

从事 cybersecurity-related work，或从事可能被 automated detection systems mistaken 的类似活动的 developers 和 security professionals，requests 可能会 fallback reroute 到 GPT-5.2。

OpenAI 预计只有很小一部分 traffic 会受到 mitigations 影响，并正在校准 policies 和 classifiers。

最新 alpha 版本的 Codex CLI 已经包含 request 被 reroute 时的 in-product messaging。未来几天内，所有 clients 都会支持这类 messaging。

受到 mitigations 影响的 accounts，可以通过加入下面的 Trusted Access program，恢复 GPT-5.3-Codex access。

OpenAI 也承认，加入 Trusted Access 不一定适合所有人。因此随着 mitigations 扩大和 strengthen cyber resilience，OpenAI 计划在多数情况下从 account-level safety checks 转向 request-level checks。

Trusted Access for Cyber

OpenAI 正在试点 "trusted access"，让 developers 在 OpenAI 继续校准 policies 和 classifiers、准备 general availability 的同时，保留 advanced capabilities。

目标是让需要加入 Trusted Access for Cyber 的 users 非常少。

要把 models 用于 potentially high-risk cybersecurity work：

Users 可以在 chatgpt.com/cyber 验证 identity。
Enterprises 可以通过 OpenAI representative，为整个团队默认申请 trusted access。

可能需要更 cyber-capable 或更 permissive models 来加速 legitimate defensive work 的 security researchers 和 teams，可以表达加入 invite-only program 的兴趣。

拥有 trusted access 的 users 仍必须遵守 Usage Policies 和 Terms of Use。

False positives

Legitimate 或 non-cybersecurity activity 偶尔也可能被 flagged。

发生 rerouting 时，responding model 会在 API request logs 中可见，并在 CLI 中显示 in-product notice；很快所有 surfaces 都会支持。

如果你认为遇到的 rerouting 是错误的，请通过 /feedback 报告 false positives。

Why we’re doing this

How it works

Trusted Access for Cyber

False positives

On this page