📚AI 编程官方教程中文版
官方教程中文版实战场景

整理脏数据并生成可用数据集

当 CSV 或 spreadsheet 里混着不同日期格式、货币字符串、重复行、空值、别名和复制进去的汇总行时,不要直接覆盖原文件。把文件拖进 Codex,描述

当 CSV 或 spreadsheet 里混着不同日期格式、货币字符串、重复行、空值、别名和复制进去的汇总行时,不要直接覆盖原文件。把文件拖进 Codex,描述你已经看到的问题,让它写一个清洗后的副本,并附一份 data-quality note。

官方页面:https://developers.openai.com/codex/use-cases/clean-messy-data

适合什么任务

场景Codex 应该做什么
CSV 或 spreadsheet export 里日期格式混乱统一日期格式,保留不能确定的行说明
currency values 里有 $、逗号和空白 cell清理数字格式,但保持 blank currency cells 为空
多次导出造成 duplicate customer rows去重,并尽量保留 source row IDs
region、category 使用多个 aliases归一化别名,记录改动规则
表里混入 pasted summary rows移除汇总行,并在质量说明中列出

使用的能力

能力用法链接
$spreadsheet检查 tabular files、清洗 columns、产出可 review 的文件和说明https://developers.openai.com/codex/skills

相关官方说明:

起始提示词

请清洗 @marketplace-risk-rollout-export.csv。

已知问题:
- 日期混用了 MM/DD/YYYY 和 YYYY-MM-DD
- currency values 里包含 $、逗号和空白 cells
- 重复导出导致少量 duplicate customer rows
- region 和 category names 使用了多种 aliases
- 数据里混入了 pasted summary rows

我需要:
- 输出一份 cleaned CSV
- 保持原始文件不变
- 统一使用一种日期格式
- blank currency cells 继续保持空白
- 尽可能保留 source row IDs
- 添加一份简短 data-quality note,列出被修改、移除,或无法有把握清洗的 rows

这个 prompt 的关键是先写明“哪里脏”,再写明“要什么结果”。不要只说“清洗一下这个表”。

操作步骤

  1. 把文件拖进 Codex,或在 prompt 里用 @customer-export.csv mention 文件。
  2. 写出你已经观察到的问题,例如 mixed dates、duplicates、aliases、summary rows。
  3. 说明需要的输出形式:cleaned CSV、clean spreadsheet tab,或 upload-ready file。
  4. 明确要求保留 original file unchanged。
  5. 要求 Codex 输出 data-quality note,列出 changed、removed、uncertain rows。
  6. 打开 cleaned copy 和 data-quality note,人工 review 后再用于下游流程。

验收重点

清洗任务的好坏不只看文件能否打开,还要看这些边界:

  • 原始文件没有被覆盖。
  • 清洗后的文件字段数和行数变化有解释。
  • 日期、货币、类别等规则一致。
  • 空值没有被随意填成 0 或未知字符串。
  • 无法 confident clean 的行被标出来。
  • 去重逻辑能追溯 source row IDs。

如果清洗结果要进入 CRM、财务、投放后台或数据仓库,先抽样核对几行,再上传。

On this page