第01阶段:AI应用基础与 OpenAI 入门
先看懂 AI 应用的工作流程,再完成第一次 API 调用,最后学会写清楚提示词。
进入学习把图片和问题一起交给模型,让它观察、描述、提取重点。
本课项目:AI图片讲解员
学习重点:图片输入、观察点、解释质量。工具重点:Multimodal Responses。
页面里加入 OpenAI、Node.js、Python 和 JSON 图标,帮助学生把 AI 能力、后端调用、脚本实验和结构化输出放在同一条学习路线里理解。
先用阶段卡片看清大方向,再用周课卡片进入具体项目。每节课都保留理论、例子、Node.js、Python、练习和自测,学生可以直接按卡片推进。
先看懂 AI 应用的工作流程,再完成第一次 API 调用,最后学会写清楚提示词。
进入学习AI 不只要会说话,还要按固定格式交答案,这样程序才能稳定处理。
进入学习AI 负责理解语言,函数负责精确计算;两者配合,结果更可靠。
进入学习把图片也交给 AI 看,再让它用清楚的文字或 JSON 结果回答。
进入学习需要最新消息时查网页;需要班级资料时查文件。先找资料,再回答。
进入学习把 AI 能力做成网页:前端收集输入,后端保护密钥,页面展示结果。
进入学习Agent 会按步骤完成任务,但你要给它工具、边界、检查规则和预算意识。
进入学习把前面学过的提示词、JSON、函数、检索、网页和安全设计合在一个作品里。
进入学习图片理解不是让 AI 随便编故事,而是先观察可见内容,再给出有根据的说明。
理论不是背概念,而是帮你判断项目为什么这样设计。下面这些规则会在代码里反复出现。
这一课的项目是“AI图片讲解员”,重点是“图片输入、观察点、解释质量”。你可以把它当成一个小实验:先给它一个清楚输入,再观察代码里哪些地方用到了 Multimodal Responses。课堂里我们不会一上来就追求复杂功能,而是先把最小版本做出来。最小版本跑通以后,你再改输入、改提示词、改输出格式,变化就会看得很清楚。
这几课把图片也放进输入里。看图很有趣,但也更容易出现“看起来像”的判断,所以事实和推测要分开。
本课有一条很实用的学习线索:先问“用户到底给了什么”,再问“程序希望拿到什么”。比如你可以试这些输入:一张教室图片,请列观察点;一张科学实验图片,请提出学习问题;一张风景图,请写故事开头。这些输入故意有简单的,也有容易出问题的。正常输入能帮你确认功能;短输入、空输入、奇怪输入能帮你发现系统边界。
写代码时建议你分三轮。第一轮只跑通官方调用,不加自己的想法;第二轮把输入换成自己的例子,看看结果是否还合理;第三轮才开始改结构,比如增加字段、加错误提示、做网页交互。这个顺序有点慢,但很稳。真正浪费时间的不是慢,而是一下子改太多,最后不知道错在哪里。
图片模糊时不要硬说确定。一个靠谱的助手会说“我不确定”,并提醒用户人工确认。
理论部分要和代码一起看。比如“输入契约”不是一个漂亮词,它在代码里就是长度检查、必填字段、表单校验;“输出契约”也不是空话,它在代码里就是 JSON Schema、固定字段或页面渲染规则。你每写一行检查代码,都是在告诉系统:什么结果可以接受,什么结果需要退回去重新处理。
课堂里可以把同桌当成第一个用户。你把项目跑给同桌看,让对方换一个输入,观察系统会不会乱。很多问题都是别人随手一试才出现的,比如输入太短、问题太模糊、连续点击按钮、图片看不清。能处理这些小麻烦,作品就会从“我电脑上能跑”变成“别人也能用”。
最后做复盘时,不要只写“我学会了调用 API”。可以写得更具体:我学会了怎样限制输入,怎样让输出固定,怎样判断结果不可靠,怎样把报错变成用户看得懂的提示。这样的复盘有用,因为下一课你真的会再次用到它。
先把例子看懂,再动手写代码。你不需要一次记住所有概念,先能说清楚“输入是什么、输出是什么、程序要检查什么”。
请先列出图片中你确定看见的 3 个内容,再写 1 个可能的故事,但要说明哪些是推测。
确定看见:1. 桌上有一本书。2. 旁边有铅笔。3. 背景是教室。
可能推测:这是学习场景,但需要更多信息确认。
科学图:先找物体、方向、颜色、数量,再解释它们可能表示什么。
下面同时给出 Node.js 和 Python 两套完整最小实现。先任选一种原样跑通,再改输入、改提示词、改输出格式。
import OpenAI from "openai";
const client = new OpenAI();
const MODEL = process.env.OPENAI_MODEL || "gpt-5.5";
const imageUrl =
"https://upload.wikimedia.org/wikipedia/commons/thumb/3/3f/Fronalpstock_big.jpg/640px-Fronalpstock_big.jpg";
const response = await client.responses.create({
model: MODEL,
input: [
{
role: "user",
content: [
{
type: "input_text",
text: `
请观察图片,给学生做讲解。
输出:
1. 我确定看见的 3 个内容
2. 我只能推测的 2 个内容
3. 一个适合课堂讨论的问题
注意:事实和推测必须分开。
`,
},
{
type: "input_image",
image_url: imageUrl,
},
],
},
],
});
console.log(response.output_text);
from openai import OpenAI
import os
client = OpenAI()
MODEL = os.getenv("OPENAI_MODEL", "gpt-5.5")
image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/3/3f/Fronalpstock_big.jpg/640px-Fronalpstock_big.jpg"
response = client.responses.create(
model=MODEL,
input=[
{
"role": "user",
"content": [
{
"type": "input_text",
"text": (
"请观察图片,给学生做讲解。\n"
"输出:\n"
"1. 我确定看见的 3 个内容\n"
"2. 我只能推测的 2 个内容\n"
"3. 一个适合课堂讨论的问题\n"
"注意:事实和推测必须分开。"
),
},
{
"type": "input_image",
"image_url": image_url,
},
],
}
],
)
print(response.output_text)