机器学习与社会计算范式革新

AI + 计算社会科学微专业

第三课
郑思尧
上海交通大学国际与公共事务学院

Part 1计算社会科学的兴起

传统社科研究的标准流程

这个流程运转了一百年，效果很好

理论
提出框架

假说
可检验命题

数据采集
问卷 / 访谈

统计检验
回归 / t 检验

结论
支持 / 拒绝

    理论驱动、假说检验、小样本推断——

    但它有天花板。

三个天花板

规模

一个研究助理一年能编码多少文本？几百篇就是极限。
你有 10 万条微博，传统方法看不完。

速度

从数据采集到结果发布，通常以年计。
热点话题结束了，论文还在审稿。

一致性

人类编码者之间的不一致性，随规模扩大而恶化。
10 个人标注同一条微博，可能给出 5 种判断。

打破天花板：计算社会科学

Computational Social Science

利用数字痕迹（社交媒体、通话记录、政府文件、搜索记录……）
和计算方法（机器学习、NLP、网络分析……）
研究以前无法研究的社会现象。

2009 年，David Lazer 等 15 位学者在 Science 发表宣言：
“a computational social science is emerging”
Lazer et al., “Computational Social Science,” Science 323, 2009

“Text as Data” — 文本变成数据

Grimmer & Stewart (2013) 提出了一个影响深远的主张：

以前

文本 = 需要人来“读”的东西
质性材料，不能直接做统计
规模上限：几十篇 / 几百篇

→

现在

文本 = 数据的一种
可以量化、分类、建模
规模上限：几百万篇

      核心洞见：自动化 ≠ 客观化。所有文本分析都需要研究者的判断。

      Grimmer & Stewart, “Text as Data,” Political Analysis 21, 2013

如果你今天要处理 10 万条文本

先不要想论文，先想一个很多单位已经会遇到的真实任务

政务热线 / 客服工单

每天新增几千条留言、投诉和问题反馈。
哪些最紧急？哪些值得优先处理？

社交媒体 / 舆情评论

几万条帖子、评论和转发不断累积。
情绪在变吗？风险在哪里？

开放问卷 / 访谈整理

大家写了很多主观意见，但没人有时间逐条看完。
能不能先自动归类、摘要、提炼重点？

企业报告 / 知识库材料

文档很多、更新很快、信息分散。
怎么让系统先帮你读、找主题、找异常？

    真正的新变化：你已经可以让 LLM / agent 先做第一轮读取、分类、摘要和异常筛查。
  

什么是“范式革新”

不只是

用新工具做旧事
更快地分析数据
自动化重复劳动

而是

范式革新

能问以前问不了的问题
能看到以前看不到的模式
能构建以前无法测量的变量

Thomas Kuhn：范式转移不是改进，是换一种方式看世界。

今天的三个核心问题

从小样本到全样本 — 规模革命

当你能分析所有数据，而不只是抽样，研究逻辑会怎么变？

从解释到预测 — 预测思维

社科一直追求“为什么”，但有时候“是什么”和“会怎样”更重要。

测量不存在的变量 — 测量革新

ML 让我们能构建以前根本无法量化的概念：意识形态、文化含义、情感倾向。

Part 2从小样本到全样本

传统研究：抽样推断

总体
你想了解的对象

随机抽样
N = 500–3,000

统计推断
从样本推总体

这个逻辑完全合理——如果你没办法看完所有数据。
但它有代价：

抽样误差

小样本难以捕捉
少数群体和极端值

代表性假设

你的样本真的
代表总体吗？

信息损失

你只看了 0.01%
其余 99.99% 丢弃了

当你能分析所有数据

传统抽样

N = 1,000
依赖代表性假设
看不到长尾和极端值
——————
问题受限于数据规模

→

全量分析

N = 11,000,000
无需抽样假设
发现长尾、异常值、微小群体
——————
问题不再受数据限制

关键不只是“更多”——是从切片变成全景。

Case: 7,200 万人的友谊网络预测阶层流动

做了什么：分析 7,200 万 Facebook 用户的 210 亿条友谊关系，构建全美每个社区的“经济连接度”指标（低收入者有多少高收入朋友）。
发现：经济连接度是预测向上流动最强的单一变量（相关度高达 0.65）——比学校支出、种族构成、不平等程度都强。没有全量社交网络数据，这个变量根本不存在。

全美各县的经济连接度分布

经济连接度 vs 向上流动率（200 大县）

Chetty, Jackson, Kuchler, Stroebel et al. · Nature 608, 2022

想一想：如果你能拿到中国的类似全量数据，你会研究什么社会现象？

Case: 手机通话记录预测贫困

Blumenstock, Cadamuro & On (2015) 用卢旺达 150 万手机用户的通话记录，训练模型预测每个人的财富水平。

150 万

手机用户

~10 天

就能生成贫困地图

vs 1 年

传统入户调查耗时

启示：传统调查只能覆盖几千户，这里覆盖了全国。不是更快做同一件事——是能做到以前做不到的全覆盖。

Blumenstock, Cadamuro & On, Science 350, 2015

手机通话数据预测的卢旺达财富分布

规模带来的质变

从“更多数据”到“不同的研究逻辑”

发现长尾

极端值和稀有事件浮出水面。1% 的用户传播了 80% 的假新闻——抽样 1,000 人几乎不可能发现这个模式。

全景视角

从切片到全貌。不是“这 500 个人怎么想”，而是“一个国家 70 年的政治修辞怎么变”。

实时追踪

从快照到连续监测。不用等 3 年做一次调查，而是每天、每小时追踪公共舆论。

当你能分析所有数据，
瓶颈不再是“能采集多少”，
而是“能问什么问题”。

规模革命不是让旧研究跑得更快，
而是让全新的研究问题成为可能。

接下来 → 第二个范式转变

Part 3从解释到预测

社科的默认范式：因果解释

社会科学的核心追求：X 为什么导致 Y？

政治学

民主为什么促进经济增长？

社会学

教育为什么影响收入不平等？

公共管理

绩效考核为什么影响公务员行为？

这很重要。但——这是唯一重要的事吗？

预测有什么用？

有些政策问题的核心不是“为什么”，而是“谁”和“什么时候”

医疗

哪些病人出院后 30 天内会再入院？ → 提前干预

教育

哪些学生有辍学风险？ → 针对性辅导

司法

哪些嫌疑人保释后不会逃跑？ → 减少不必要的羁押

公共卫生

哪个社区下周会爆发疫情？ → 提前部署资源

    Kleinberg et al. (2015)：这类问题可以叫“预测型政策问题”——
政策的关键是先准确判断资源给谁，而不一定先解释全部因果机制。
  

Case: 算法揭示法官的系统性偏差

Kleinberg, Lakkaraju, Leskovec, Ludwig & Mullainathan (2018)
用 ML 预测纽约市 75 万名被告的逃跑/再犯风险。

算法预测：如果按算法建议释放低风险被告 → 犯罪率不变，但关押人数减少 25%

揭示偏差：法官对少数族裔系统性地设定过高保释金——算法比人类更一致、更公平

启示：这里预测本身就是发现。不需要知道“为什么”法官有偏差，只要预测足够准确，就能用对比揭示问题。

Kleinberg et al., “Human Decisions and Machine Predictions,” QJE 133(1), 2018

左：法官释放率 vs 预测风险右：实际犯罪率 vs 预测风险

Case: 160 个团队预测人生结局——结果令人意外

Salganik et al. (2020) 发起 Fragile Families Challenge：给 160 个研究团队同一份丰富的面板数据（4,242 个家庭、12,942 个变量、15 年追踪），预测 6 个人生结局：GPA、是否留级、物质困难、被驱逐、失业、是否受训练。

预测能做到的

像 GPA 这样的结果
最多能解释约 20% 的差异

预测做不到的

像“是否被驱逐”这样的结果
最多也只能解释约 5% 的差异

真正的启示

160 个团队的最优模型
彼此差异极小 → 瓶颈不在算法，在数据

      对社科的意义：预测有用，但不是万能。复杂的社会结果有不可约简的不确定性——这本身就是一个重要的科学发现。

      Salganik et al., “Measuring the predictability of life outcomes,” PNAS 117(15), 2020

预测 vs 解释：不是对立

解释（Explanation）

回答 WHY
目标：理论建构
优先：无偏估计
“教育为什么影响收入”

预测（Prediction）

回答 WHAT / WHO
目标：准确判断
优先：泛化能力
“谁最可能辍学”

    两者不是竞争关系。好的研究设计经常两者兼用——

    先用预测模型定位问题，再用因果推断解释问题。

想一想你关注的一个政策领域——瓶颈是预测（“对谁做”）还是解释（“为什么做”）？

什么时候值得用 ML / agent 做预测？

先问一句：你面对的是不是“先处理谁、先看哪里、先把什么变成标签”的问题？

优先级排序

资源有限，先处理谁？

不是所有人都能先服务、先跟进、先干预。
模型先帮你排优先级。

例：哪些工单、病人、学生最需要优先关注

自动打标签

先把材料变成分数或标签

文本、图像或记录先被转成
情绪、满意度、风险级别等变量。

例：把评论变成“正面 / 中性 / 负面”或“高风险 / 低风险”

先筛查再深究

先找到重点，再解释原因

先用模型快速筛出重点人群、文本或地区，
再让专家进一步判断。

例：先找高风险案例，再做人工研判或正式评估

学术上这类用途可对应政策定向、变量构建和研究辅助。
对今天这批学习者，更重要的是先记住：模型常常先帮你“筛”，人再决定怎么“用”。

预测不是社科的敌人。

当政策问题的核心是“对谁做”而不是“为什么做”时，
准确预测就是最有价值的答案。
解释和预测是互补的，不是对立的。

接下来 → 第三个范式转变

Part 4测量不存在的变量

先看一个今天就能上手的 LLM / agent 流程

把“看不完的材料”先变成“可处理的标签”

原始材料
工单、评论、报告、访谈

LLM / agent 初读
摘要、分类、找异常

结构化输出
主题、情绪、风险分数

人工复核 + 动作
谁先处理、哪里追问、何时升级

    这就是“测量革新”最直观的样子：先把模糊、零散、看不完的信息，变成可比较、可筛查、可追踪的变量。
  

接下来再看：这种能力在学术上为什么重要，它和传统测量有什么本质差别。

传统测量的困境

社科研究中最重要的概念，往往最难测量

意识形态

传统方法：投票记录打分或问卷自报。受限于有公开投票记录或愿意回答问卷的人。

情感倾向

传统方法：人工编码。成本高、速度慢、编码者之间不一致。

文化含义

传统方法：深度访谈或民族志。几乎无法大规模量化或跨时间比较。

政策框架

传统方法：内容分析手册。定义因人而异，跨国不可比。

共同问题：概念重要，但测量手段受限。

把模糊概念变成可用标签的三条路

先教机器

先给几十或几百条示例，
告诉系统“什么算正面、什么算风险、什么算投诉”。
然后把同样标准扩展到更大数据。

学术上常叫：有监督分类

先让数据分组

你暂时不规定标签，
让系统先找“哪些内容彼此更像”。
它适合用来发现你原本没想到的结构。

学术上常叫：无监督发现

先问大模型 / 让 agent 执行

你不先准备训练集，
直接用自然语言描述任务，让 LLM 或 agent 先判断。
速度快，但更依赖提示设计和人工复核。

常见形式：LLM / agent 零样本判断

更依赖人工示例

更依赖提示设计与复核

真实工作里，这三种方法往往不是三选一，而是串起来用。

Case: 你关注谁，暴露了你的立场

Barberá (2015) 提出：Twitter 用户的关注列表就是一种“投票行为”——关注了谁，等价于一次意识形态投射。

用户 A 关注了
FOX、Trump、NRA

根据关注对象
推断立场坐标

保守派 (+1.2)
与投票记录高度吻合

350 万+

普通用户获得了意识形态得分

r = 0.94

和议员既有立场指标高度一致

      测量革新：传统方法只能给国会议员打分（因为只有他们有可用的投票记录）。
这个方法可以给任何 Twitter 用户打分——数百万普通公民第一次有了意识形态坐标。

      Barberá, “Birds of the Same Feather Tweet Together,” Political Analysis 23(1), 2015
    

Case: 国会的语言正在分裂

Gentzkow, Shapiro & Taddy (2019) 用 ML 分析 1873–2016 年美国国会所有发言记录，训练模型仅凭一段话的用词就判断说话者的党派。

1873 年

两党用词几乎无法区分。
模型准确率接近随机猜测（~55%）。
语言上，两党是“一家人”。

→

2016 年

模型准确率飙升至 ~83%。
一段话就能判断是共和党还是民主党。
语言本身变成了党派标签。

      测量革新：ML 把“党派极化”从一个模糊的叙事变成了一条可量化的 140 年趋势线。
不需要问卷、不需要投票数据——语言本身就是证据。

      Gentzkow, Shapiro & Taddy, “Measuring Group Differences in High-Dimensional Choices,” Econometrica 87(4), 2019
    

Case: 打破回音室反而加剧了极化

Bail et al. (2018) 在 Twitter 上做了一个田野实验：让民主党和共和党用户关注一个发布对立观点的机器人账号，持续一个月。

共和党用户
关注自由派机器人

一个月后

更保守了
态度没有趋中

ML 的角色

自动化机器人 + NLP 测量态度变化 + 自动抓取关注网络

测量创新

用 Barberá (2015) 方法将用户意识形态量化，追踪实验前后的变化

      范式意义：ML 不只是“测量”——它让大规模社交实验成为可能。
没有自动化机器人和 NLP 态度测量，这个实验根本无法执行。

      Bail et al., “Exposure to opposing views on social media can increase political polarization,” Science 361, 2018
    

测量革新的共同模式

三个案例，同一个逻辑：把“行为痕迹”变成“测量变量”

Barberá (2015)：关注列表 → 意识形态

行为痕迹：你关注了谁。产出变量：350 万普通用户的意识形态得分。

Gentzkow et al. (2019)：国会用词 → 党派极化

行为痕迹：议员怎么说话。产出变量：140 年连续的极化指数。

Bail et al. (2018)：社交互动 → 态度变化

行为痕迹：关注/互动模式。产出变量：实验前后的意识形态位移。

    共同逻辑：人们无意中留下的数字痕迹（关注、发言、点击），
被 ML 转化为以前不存在的测量变量。
  

你的研究领域里，有哪些“行为痕迹”可以被转化为测量变量？

从发现到确认：无监督学习的角色

有时候你不知道数据里有什么——这也是一种测量

1. 无监督发现
把 10 万条文本扔进主题模型 → 发现 20 个主题

2. 研究者审查
哪些主题有理论意义？哪些只是噪音？

3. 大样本验证
用有监督方法在更大数据集上确认发现

      Molina & Garip (2019)：ML 可以用于归纳性发现——先让数据说话，再用理论解释。

      Molina & Garip, “Machine Learning for Sociology,” Annual Review of Sociology 45, 2019

Case: ML 发现社会流动的“隐藏类型”

Molina & Garip (2019) 使用聚类算法分析墨西哥-美国移民数据，发现传统理论框架遗漏的群体特征。

传统回归分析

看单一变量的平均效应
“教育↑ → 移民概率↓”
平均效应掩盖了群体异质性

→

ML 聚类分析

发现 4 种移民“型态”
每种是多个变量的组合
传统方法看不到的子群体

例子 A

高教育 + 城市 + 正规渠道
→ 合法移民

例子 B

低教育 + 农村 + 亲属网络
→ 非正式迁移路径

研究里还发现了其他类型。真正要记住的不是“总共有几类”，
而是平均效应背后，可能藏着多条不同的组合路径。

      核心启示：ML 能发现理论没预料到的组合模式，但这类发现必须标注为探索性，不能直接当作确认性结论。
    

ML 让我们能构建
以前根本无法量化的概念。

意识形态、文化含义、情感倾向——
这些不再是“只能定性讨论”的模糊概念，
而是可以大规模、跨时间、跨国比较的变量。

接下来 → 方法论反思

Part 5方法论反思

ML 在研究中的三种角色

先别急着记术语，先分清你现在把 ML 当成什么工具。

1. 测量工具

把原本模糊、难量化的东西变成分数或标签。

例：情感分析、意识形态打分、文化含义追踪。

先问：你测到的真的是你想测的吗？

2. 发现工具

先从数据里找出你原本没预设到的结构或异常。

例：主题模型、聚类、异常检测。

先问：这是真实模式，还是数据噪声？

3. 预测工具

提前判断谁更值得关注、哪里更可能出问题。

例：政策定向、风险评估、变量构建。

先问：换个场景、时间或部门还准不准？

    认清角色后，验证重点也会变：测量看效度，发现看模式真假，预测看跨场景稳定性。
  

把 LLM / ML 用进工作前，先问这四个问题

一：结果靠谱吗？

1. 你测到的是你真正想测的东西吗？
对应：效度。高准确率不等于高效度，模型可能学到的是捷径。

2. 换个时间、部门或城市还准吗？
对应：泛化与可复现性。一次跑通，不代表处处都成立。

二：使用方式稳妥吗？

3. 你能向别人解释它为什么这么判吗？
对应：可解释性。尤其在政策或管理场景里，黑箱往往不够。

4. 它会不会放大偏见、伤到某些人？
对应：伦理与偏见。数据代表谁、不代表谁，决定了结果会偏向谁。

好用的工具，不等于可以不经复核地直接使用。
对这批学习者来说，最重要的不是先学会“最复杂的模型”，而是先学会“怎样安全地用它”。

讨论

想一想你自己的研究问题——
ML 能帮到你吗？

问题 1：你的研究中，ML 最可能扮演什么角色——测量工具、发现工具、还是预测工具？

问题 2：如果你能分析全量数据而不只是抽样，你的研究问题会怎么变？

问题 3：你最担心的风险是什么——效度、可解释性、还是伦理？

今日要点

ML 不只是加速旧研究——它改变了能问什么问题

从“用新工具做旧事”到“能问以前问不了的问题”。这是范式革新，不是效率提升。

规模革命让你从抽样到普查，看见长尾和全貌

7,200 万人的友谊网络、70 年演讲、150 万通话记录——全量分析揭示了抽样无法发现的模式。

预测思维在政策问题中有独立价值

解释和预测是互补的。当问题的核心是“对谁做”而不是“为什么做”，预测就是答案。

LLM / agent 让这些能力开始日常可用，但复核仍是关键

今天很多单位已经能用大模型做初筛、分类、摘要和风险提示。但“能自动做”不等于“可以直接信”。

下节课预告

第四课有监督机器学习技术

今天讨论了 ML 改变了什么，
下节课回到技术层面——
具体怎么做分类和标注，以及怎样把大模型当作标注助手。

课前思考：你自己的研究问题里，有哪些概念需要被“测量”？
带着这个问题来上课