第9课

图片 + JSON:做一个分类助手

把图片观察结果整理成固定 JSON,方便程序继续处理。

本课项目:AI垃圾分类助手

学习重点:图像识别、结构化输出、人工确认。工具重点:Image Input + Structured Outputs。

OpenAI AI编程第9课封面
AI 工具地图

OpenAI 项目工具栈

页面里加入 OpenAI、Node.js、Python 和 JSON 图标,帮助学生把 AI 能力、后端调用、脚本实验和结构化输出放在同一条学习路线里理解。

学习路线

阶段入口与周课入口

先用阶段卡片看清大方向,再用周课卡片进入具体项目。每节课都保留理论、例子、Node.js、Python、练习和自测,学生可以直接按卡片推进。

OpenAI 项目地图

阶段入口

第01阶段:AI应用基础与 OpenAI 入门

先看懂 AI 应用的工作流程,再完成第一次 API 调用,最后学会写清楚提示词。

进入学习

第02阶段:让 AI 输出程序能读懂的结果

AI 不只要会说话,还要按固定格式交答案,这样程序才能稳定处理。

进入学习

第03阶段:Function Calling:让 AI 调用函数

AI 负责理解语言,函数负责精确计算;两者配合,结果更可靠。

进入学习

第04阶段:多模态应用:文字 + 图片

把图片也交给 AI 看,再让它用清楚的文字或 JSON 结果回答。

进入学习

第05阶段:内置工具:Web Search 与 File Search

需要最新消息时查网页;需要班级资料时查文件。先找资料,再回答。

进入学习

第06阶段:前后端 AI 应用开发

把 AI 能力做成网页:前端收集输入,后端保护密钥,页面展示结果。

进入学习

第07阶段:AI Agent、安全与成本

Agent 会按步骤完成任务,但你要给它工具、边界、检查规则和预算意识。

进入学习

第08阶段:毕业项目发布会

把前面学过的提示词、JSON、函数、检索、网页和安全设计合在一个作品里。

进入学习

周课入口

第8课:图片理解:让 AI 看图并说明

把图片和问题一起交给模型,让它观察、描述、提取重点。

进入学习

第9课:图片 + JSON:做一个分类助手

把图片观察结果整理成固定 JSON,方便程序继续处理。

进入学习

9.1 今天你要完成什么

图片答案也可以变成 JSON。这样页面可以根据 category 显示不同颜色、按钮或提示。

本课闯关:完成“AI垃圾分类助手”,并用 3 组输入测试它。

9.2 核心理论

理论不是背概念,而是帮你判断项目为什么这样设计。下面这些规则会在代码里反复出现。

9.3 课堂讲解

这一课的项目是“AI垃圾分类助手”,重点是“图像识别、结构化输出、人工确认”。你可以把它当成一个小实验:先给它一个清楚输入,再观察代码里哪些地方用到了 Image Input + Structured Outputs。课堂里我们不会一上来就追求复杂功能,而是先把最小版本做出来。最小版本跑通以后,你再改输入、改提示词、改输出格式,变化就会看得很清楚。

这几课把图片也放进输入里。看图很有趣,但也更容易出现“看起来像”的判断,所以事实和推测要分开。

本课有一条很实用的学习线索:先问“用户到底给了什么”,再问“程序希望拿到什么”。比如你可以试这些输入:图片中是一只纸杯;图片中是一节旧电池;图片中是果皮。这些输入故意有简单的,也有容易出问题的。正常输入能帮你确认功能;短输入、空输入、奇怪输入能帮你发现系统边界。

写代码时建议你分三轮。第一轮只跑通官方调用,不加自己的想法;第二轮把输入换成自己的例子,看看结果是否还合理;第三轮才开始改结构,比如增加字段、加错误提示、做网页交互。这个顺序有点慢,但很稳。真正浪费时间的不是慢,而是一下子改太多,最后不知道错在哪里。

图片模糊时不要硬说确定。一个靠谱的助手会说“我不确定”,并提醒用户人工确认。

理论部分要和代码一起看。比如“输入契约”不是一个漂亮词,它在代码里就是长度检查、必填字段、表单校验;“输出契约”也不是空话,它在代码里就是 JSON Schema、固定字段或页面渲染规则。你每写一行检查代码,都是在告诉系统:什么结果可以接受,什么结果需要退回去重新处理。

课堂里可以把同桌当成第一个用户。你把项目跑给同桌看,让对方换一个输入,观察系统会不会乱。很多问题都是别人随手一试才出现的,比如输入太短、问题太模糊、连续点击按钮、图片看不清。能处理这些小麻烦,作品就会从“我电脑上能跑”变成“别人也能用”。

最后做复盘时,不要只写“我学会了调用 API”。可以写得更具体:我学会了怎样限制输入,怎样让输出固定,怎样判断结果不可靠,怎样把报错变成用户看得懂的提示。这样的复盘有用,因为下一课你真的会再次用到它。

课堂讨论题

9.4 先看例子

先把例子看懂,再动手写代码。你不需要一次记住所有概念,先能说清楚“输入是什么、输出是什么、程序要检查什么”。

输入例子

一张纸杯图片。问题:请判断垃圾分类类别。

JSON 输出例子

{
  "item": "纸杯",
  "category": "其他垃圾",
  "reason": "纸杯通常有涂层,不能直接按普通纸张回收。",
  "confidence": 0.72,
  "need_human_check": true
}

页面例子

如果 need_human_check 为 true,页面显示黄色提示:结果不确定,请查看当地分类规则。

你可以替换成这些输入

9.5 完整代码实现

下面同时给出 Node.js 和 Python 两套完整最小实现。先任选一种原样跑通,再改输入、改提示词、改输出格式。

Node.js 运行方式

  1. 新建文件 lesson-09.mjs,把下面完整代码放进去。
  2. 在终端运行:npm init -y
  3. 安装依赖:npm install openai
  4. 设置环境变量 OPENAI_API_KEY。Windows PowerShell 示例:$env:OPENAI_API_KEY="你的密钥"
  5. 运行:node lesson-09.mjs
  6. 把最后一行的示例输入换成你自己的测试内容。

Node.js 完整代码

import OpenAI from "openai";

const client = new OpenAI();
const MODEL = process.env.OPENAI_MODEL || "gpt-5.5";

const imageUrl =
  "https://upload.wikimedia.org/wikipedia/commons/thumb/8/89/Tomato_je.jpg/640px-Tomato_je.jpg";

const imageClassSchema = {
  type: "object",
  properties: {
    item: { type: "string" },
    category: {
      type: "string",
      enum: ["可回收物", "厨余垃圾", "有害垃圾", "其他垃圾", "不确定"],
    },
    reason: { type: "string" },
    confidence: { type: "number", minimum: 0, maximum: 1 },
    need_human_check: { type: "boolean" },
  },
  required: ["item", "category", "reason", "confidence", "need_human_check"],
  additionalProperties: false,
};

const response = await client.responses.create({
  model: MODEL,
  input: [
    {
      role: "user",
      content: [
        { type: "input_text", text: "请识别图片中的物品,并按垃圾分类输出 JSON。" },
        { type: "input_image", image_url: imageUrl },
      ],
    },
  ],
  text: {
    format: {
      type: "json_schema",
      name: "trash_classification",
      strict: true,
      schema: imageClassSchema,
    },
  },
});

const result = JSON.parse(response.output_text);
console.log(JSON.stringify(result, null, 2));

Python 运行方式

  1. 新建文件 lesson-09.py,把下面完整代码放进去。
  2. 建议新建虚拟环境后再安装依赖。
  3. 安装依赖:pip install openai
  4. 设置环境变量 OPENAI_API_KEY。Windows PowerShell 示例:$env:OPENAI_API_KEY="你的密钥"
  5. 运行:python lesson-09.py
  6. 把 main 里的示例输入换成你自己的测试内容。

Python 完整代码

from openai import OpenAI
import json
import os

client = OpenAI()
MODEL = os.getenv("OPENAI_MODEL", "gpt-5.5")

image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/8/89/Tomato_je.jpg/640px-Tomato_je.jpg"

image_class_schema = {
    "type": "object",
    "properties": {
        "item": {"type": "string"},
        "category": {
            "type": "string",
            "enum": ["可回收物", "厨余垃圾", "有害垃圾", "其他垃圾", "不确定"],
        },
        "reason": {"type": "string"},
        "confidence": {"type": "number", "minimum": 0, "maximum": 1},
        "need_human_check": {"type": "boolean"},
    },
    "required": ["item", "category", "reason", "confidence", "need_human_check"],
    "additionalProperties": False,
}

response = client.responses.create(
    model=MODEL,
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "请识别图片中的物品,并按垃圾分类输出 JSON。"},
                {"type": "input_image", "image_url": image_url},
            ],
        }
    ],
    text={
        "format": {
            "type": "json_schema",
            "name": "trash_classification",
            "strict": True,
            "schema": image_class_schema,
        }
    },
)

result = json.loads(response.output_text)
print(json.dumps(result, ensure_ascii=False, indent=2))

9.6 跟着做

  1. 先定义允许的分类类别。
  2. 设计固定 JSON 字段。
  3. 要求 AI 说明判断理由。
  4. 加入 confidence 和 need_human_check。
  5. 用清楚图片和模糊图片分别测试。

9.7 常见错误

排查顺序:先看输入,再看提示词,再看输出格式,最后看程序逻辑。

9.8 课后练习

  1. 把垃圾分类助手改成“食物营养识别提示器”。
  2. 输出 item、possible_nutrients、not_sure、next_question。
  3. 所有健康相关结果都要提醒人工核查。

9.9 自测清单