从 CNN 到 VLM:让 AI 同时读懂文字、图像、视频
第十一课
郑思尧
上海交通大学 国际与公共事务学院
第九课我们把 LLM 当成"会续写文字的概率机器"。期中汇报里,多个同学问到同一类问题——只看文字不够:
今天给一个统一答案:多模态模型——把图像、视频、音频接进 AI。
大纲标题是"多模态模型"。所以先讲什么是模态、为什么要联合; 传统的 CNN/ViT 视觉线快速过; 重点放在今天的多模态大模型(VLM)——它的架构、能力、主流型号。 最后落到社科应用、可信度验证和伦理边界。
过去十年 AI 每个模态各练各的(NLP / CV / ASR)。 多模态模型 = 让一个模型同时读懂多种通道。
后面所有技术(CNN、ViT、CLIP、VLM)都是对这两个问题的不同回答。
模型看到:一个 H × W × 3 的数字矩阵。
每个像素一个 0–255 的 RGB 三元组。
↑ 8×8 的迷你像素阵列。视觉模型干的事—— 把这堆数字压成一个有语义的向量。
文本:word → token → embedding
图像:pixel → patch → embedding
统一后,两类输入都能塞进同一个 Transformer。
cat / dog / ...
© Wikimedia · CC BY-SA
对社科的意义:CNN 第一次让"用图像做测量"成为可行手段。 Naik 2014 用 CNN 给 1.6 万张街景打安全感分数;Gebru 2017 用 CNN 在 5000 万张街景里识别车型,反推社区收入与投票倾向。
局限:每个任务要单独标数据、单独训模型;不会"说话",只输出标签。
今天几乎所有多模态大模型都用 ViT 当视觉编码器。
训练完,一句话就能当分类标签——零样本图像分类、检索、过滤、聚类全都解锁。 这是后来 Stable Diffusion、DALL·E、所有 VLM 的技术地基。
一张照片 + 一段 prompt → 一份结构化数据。这是社科研究真正受益的地方。
| 模型 | 厂商 | 视觉 | 视频 | 音频 | 典型场景 |
|---|---|---|---|---|---|
| GPT-4o / GPT-5 | OpenAI | 原生 | 帧 | 原生 | 通用最强,海报/截图/截屏分析 |
| Claude 4.x / Opus 4.7 | Anthropic | 原生 | 帧 | — | 长文档 + 图表,社科最稳的选择 |
| Gemini 2.5 | 原生 | 原生 | 原生 | 长视频理解、Google Workspace 集成 | |
| Qwen3-VL | 阿里 | 原生 | 帧 | 另一系列 | 中文 OCR、政策文件、本地化 |
| DeepSeek-VL2 | DeepSeek | 原生 | — | — | 开源、可自部署、便宜 |
| InternVL / MiniCPM-V | 书生 / 面壁 | 开源 | 部分 | — | 本地/边缘部署、做实验 |
选型原则:中文场景 → Qwen3-VL / DeepSeek-VL; 需要稳定推理 → Claude; 长视频 → Gemini; 预算紧 → 开源自托管。
所以第九课讲的所有东西都还有效:上下文窗口、幻觉、Skill、Prompt 工程。 VLM 只是多了一个"视觉 token 入口"。今天你不需要重新学一种 AI, 你只需要学会怎么把图片喂给它。
研究者守则:用 VLM 标注 → 必须随机抽样 → 人工核验 → 报告错误率。 和第九课讲 Agent 时的规矩一样。
Jean et al. 2016 (Science):白天图 + 夜光 → CNN transfer learning → 预测非洲五国村级消费/资产水平,R² 达 0.55–0.75。 在调查数据稀缺的地区首次给出大尺度高分辨率社会经济测量。
关键发现:城市里 sedan 比 pickup 多 → 88% 概率投民主党;反之 82% 概率投共和党。 用视觉中间变量桥接"图像 → 社会属性",是社科最值得借鉴的设计思路。
2017 → 2026:从训练多任务 CNN, 变成写一段 prompt 让 VLM 直接输出 JSON。 门槛被推平了——本科生也能做到。
典型用例:B 站 / 抖音政治评论视频研究、上访视频、庭审录像、纪录片。 关键 trick:让 VLM逐帧/逐镜头给出客观描述,再让 LLM 把这些描述合成"事件序列"—— 这比"一次性把整段视频塞给 VLM"更可控、更可审计。
| 论文 | 视觉数据 | 有趣的问题 | 设计巧思 |
|---|---|---|---|
| Jean et al. 2016 | 卫星图 | 没有调查数据的地方,贫困怎么测? | 先学夜间灯光,再迁移到白天图像 |
| Gebru et al. 2017 | 街景车 | 街上开什么车,能看出社区政治吗? | 把车变成社会经济中间变量 |
| Won et al. 2017 | 抗议照片 | 抗议现场的暴力感怎么大规模测? | 人类先做成对比较,再训练模型 |
| Joo & Steinert-Threlkeld 2022 | 政治图片 | 政治行动者如何被视觉呈现? | 把"图像作为数据"系统化 |
这些论文共同点:它们不是直接问"图片说明了什么",而是先把图片变成可验证的测量对象。
这篇最值得学的不是"车能预测投票",而是中间变量设计: 图像本身不能解释政治,但"车辆类型"连接了消费能力、生活方式、城乡结构和政治偏好。
Joo et al. 2018 的启发:视觉偏见经常不是显性的立场表达,而是同一事件中反复选择哪种表情、角度和距离。 这类问题,用纯文本很难抓住。
聪明点:主观概念先交给人做相对判断,再用模型放大,而不是让模型直接定义"暴力"。
Jeon et al. 2026 "From Faces to Politics" 提醒我们:VLM 不只是帮研究者编码偏见, 它自己也可能把视觉人口特征带进政治判断。
讲课时可以问学生:一张抗议图里,什么会触发行动? 人数、愤怒、恐惧、共同身份、警察在场,还是"我也应该去"的可想象性?
| 可编码线索 | 可能连接的理论概念 |
|---|---|
| 人物姿势、视线方向 | 权威、亲近感、动员姿态 |
| 颜色、旗帜、符号 | 国家身份、敌我边界 |
| 口号与字体 | 情绪框架、责任归因 |
| 性别/职业形象 | 公民角色与社会秩序想象 |
这里最适合课堂讨论:VLM 可以先做"低层描述",真正的政治解释仍然要靠理论。
如果模型总把某类街区判断为"危险",它是在看治安,还是在复制阶层/种族/城市景观偏见?
如果模型总把某类候选人判断为"激进",它是在读文本,还是在从脸和身份线索做政治联想?
所以多模态研究有两条路:
用模型测量社会,以及
用社会科学审计模型。
第二条路很适合期末项目:拿一组图片,系统比较模型在不同群体、场景、语言提示下的误差。
一篇好的多模态论文,通常不是"我用了一个更强模型",而是我把一个原来无法规模化测量的社会概念,设计成了可审计的视觉测量。
研究者真正要做的,不是让模型"理解社会",而是把理论概念拆成可以从图像里观察到的线索, 再把这些线索变成可检验的变量。
| 糟糕问法 | 更好的测量设计 | 为什么 |
|---|---|---|
| 这场抗议激进吗? | 是否有警察、冲突、破坏、火焰、武器 | 把价值判断拆成可见证据 |
| 这个社区富裕吗? | 车辆类型、道路质量、绿化、楼体维护 | 让模型编码中间变量 |
| 这张海报宣传什么意识形态? | 人物、口号、符号、颜色、敌我对象 | 先描述,再解释 |
| 视频里谁对谁错? | 逐镜头记录行动者、动作、时间顺序 | 避免模型编造因果叙事 |
经验法则:VLM 最适合做观察记录员,不适合直接当理论解释者。
| 字段 | 取值 | 人工核验点 |
|---|---|---|
| crowd_size_bucket | 小 / 中 / 大 | 阈值是否一致 |
| police_visible | true / false | 制服、车辆、盾牌 |
| sign_text | 原文摘录 | OCR 是否误读 |
| violence_visible | true / false | 只看画面证据 |
| uncertainty | low / mid / high | 让模型暴露不确定 |
最危险的不是模型不会看,而是它把模糊处说得很确定。 所以编码本里一定要给 unknown / uncertain 留位置。
论文里真正有说服力的是:哪些字段可靠、哪些字段不可靠、误差朝哪个方向偏。 这比一句"我们使用先进 VLM"重要得多。
| 低风险 | 中风险 | 高风险 | |
|---|---|---|---|
| 可见事实 | 物体、场景、OCR | 人数区间、动作类别 | 身份、动机、政治立场 |
| 研究用途 | 探索、筛选、辅助检索 | 描述统计、低 stakes 测量 | 因果识别、个体判断、敏感标签 |
| 验证要求 | 少量 spot check | 抽样人工复核 | 双人编码 + 稳健性 + IRB |
| 课堂建议 | 可以放心试 | 可以用,但要报告误差 | 先不要自动化 |
写法目标:让读者能判断这个变量是不是可信,而不是只知道你用了哪个模型。
下课前只交一页纸:变量表 + 核验方案。真正跑模型可以留到课后。
报告时三件事必写:① 抽样规模 ② 相关系数 r ③ 偏差方向(VLM 是否系统性高估或低估)。
研究者的责任:把 VLM 当成高速但偶尔糊涂的研究助理。 可以让它处理 10 万张图;但你必须设计一套抽样核验机制,再写进论文方法论里。
带着你自己的研究问题:
1. 你的研究数据里有多少模态被你忽略了?为什么?
2. 如果用 VLM 给图像编码,哪个变量你最不放心?怎么验证?
3. 多模态把测量变便宜了——这会改变你的研究问题选择吗?
4. 不开电脑也能先做:为一张研究图片写出变量、JSON schema 和抽样核验方案
多模态不是新 AI
是同一个 LLM
多了一双眼睛
第九课 LLM 的全部规则都还在:上下文、幻觉、Skill、Prompt。
多模态只是让你的原始数据第一次能被算法直接读懂。
过去靠人工编码图像与视频的研究,现在可以放大百倍——前提是你为它设计验证机制。
Seeing is still believing — but verify the model is seeing. 郑思尧 2026