Tongji AI4SS · 30 minutes

AI Agents 作为
社会科学研究基础设施

从 agent loop 出发，讲清楚为什么 2026 年的关键问题不是“AI 会不会写论文”，而是研究流程怎样变得可执行、可交接、可审计。

郑思尧 · 2026-05

Claude Code documentation screenshot — Claude Codeagent enters a project workspace

Replication Package Guide screenshot — Replication Package Guidesocial science standard

Auto Research original workflow preview — Auto Researchexperiment loop

autonomy spectrum

从 ChatGPT 到 AGI：AI 能力也有“自动驾驶分级”

这页的重点是例子：从大家熟悉的聊天机器人，到能用工具、能进 workspace 的 agent，再到仍属目标的 AGI，差别在于系统能承担多少连续行动。

越往上，越要问：谁监控、谁接管、谁负责？

自动驾驶例子

共同的自治层级

AI / LLM 例子

无人：仍是目标状态

全条件、全道路由系统驾驶。

L5 targetdriverless

AGI / 完全 AI 智能体

高度自治、跨多数经济任务；不是当前产品。

AGI概念终点

脱脑：限定区域兜底

Robotaxi 在服务区内接近“乘客模式”。

萝卜快跑Waymo小马智行

消费级 Agent

能替用户查资料、浏览网页、执行多步任务。

ChatGPT agentDeep ResearchManusOperator

脱眼：条件自动化

系统驾驶，但边界外要求人准备接管。

奔驰 Drive Pilot宝马 L3

工具型 AI 应用

模型接入搜索、图像生成、文档库和数据分析。

MidjourneyNotebookLMPerplexityChatGPT 搜索

脱手：驾驶辅助

系统控制方向和速度，人仍然看路并负责。

Tesla Autopilot小鹏 XNGP华为 ADS理想 NOA

多模态 / 办公副驾

能读图、读文件、听说对话，但人持续判断。

GPT-4oCopilot豆包Gemini

脱脚：局部辅助

定速、跟车或车道保持；人完成驾驶任务。

ACC车道保持自适应巡航

聊天机器人

回答、改写、摘要；任务状态仍停在人手里。

ChatGPT豆包Kimi文心一言

例子只是定位，不等于官方等级；Tesla/小鹏/华为等量产智驾通常仍需驾驶员监督，L5/AGI 仍是目标概念。

agent loop

什么是 Agent Loop：ReAct

传统 LLM 调用

LLM 作为一次生成器：输入一次，输出一次。

Input / Prompt

用户给出一个问题、任务或文本。

LLM

single forward pass

Output / Answer

模型生成一次回答，任务状态通常停在对话里。

ReAct Agent Loop

Agent 也有输入和输出；变化在于中间多了一个带 LLM 的行动循环。

Input / Goal

用户给出目标、约束和上下文。

↓

LLM inside ReAct loop
Reason + Act

Thought / Reason

LLM 形成计划，解释当前证据和下一步。

Action / Tool

搜索、运行命令、读文件、调用 API。

Environment

网页、日志、脚本结果、文件变化进入下一轮推理。

State update

保留进度、错误、约束和未决问题。

↓

Output / Artifact

交付回答、文件修改、分析结果或下一步计划。

rules and memory

真正的入口：把规则写成 agent-readable Markdown

AGENTS.mdCLAUDE.md同一种入口

不管叫 Agent markdown 还是 Claude markdown，本质都是给 agent 的项目合同。

Rules项目边界

研究完整性优先；用 python3；先验证路径和依赖；不要越过明确范围。

Memory跨轮上下文

记住本轮决定：AI 例子要消费级；logo 不能被截断；每次改版都看 16:9 预览。

Agent 不是只靠 prompt 工作；它需要一个项目内的入口文件。

名字不同AGENTS.md、CLAUDE.md、Agent.markdown 都是在做同一件事。

规则外置不要把纪律埋在聊天里，而是写进项目入口文件。

错误可审计如果它违背规则，我们能指出它违背了哪条项目合同。

翻译成研究语言：把“作者才知道的习惯”写成 agent-readable project contract。

local example

例子：我们自己的 AGENTS.md 就是项目合同

AGENTS.md excerpt for this workspace

# AGENTS.md

## Priorities
- Optimize for research integrity, reproducibility,
  traceability, and write-ready outputs.
- Keep assumptions explicit.

## Hard Rules
- When Adrian asks to show or spot-check,
  include visible content or command output.
- Never change display or monitor settings.

## Working Style
- Stay within the explicit scope of the request.
- Answer computable questions by inspecting files.
- Verify names, paths, distributions, and encodings.

## Environment
- Use python3, not python.
- Quote paths with spaces.
- Never run heavy jobs directly on HPC login nodes.

优先级

先保护研究完整性、可复现性和可交付性，而不是先追求快。

硬边界

哪些事绝对不能做，哪些输出必须给可见证据。

工作方式

先看文件和数据，再回答；不要靠印象猜路径和内容。

运行环境

把 python3、空格路径、HPC 登录节点这些坑提前写死。

研究翻译

这不是工程配置，而是把“作者才知道的项目纪律”外置给 agent。

practical entry

今天就能做：让 agent 读一个研究文件夹

Pedro Sant'Anna Claude Code workflow guide screenshot — Pedro H. C. Sant'Anna: Claude Code academic workflowpapers, slides, and analysis workflow

最实用的第一步不是让 agent 写论文，而是让它先做只读体检。

输入一个真实论文项目文件夹：数据、代码、草稿、图表、日志。

限制第一轮明确 read-only，不让它修改文件。

输出让它理解项目结构、生成路径、风险和下一步。

这不是文件整理技巧，而是把“只有作者懂的项目”转成 agent 可以读懂的研究对象。

first prompt

一个可以直接复制的只读体检 prompt

First prompt 的目标不是直接产出结论，而是产出项目地图和风险清单。

可复制 first promptread-only

Read this research project as a read-only research assistant.
Do not modify files.

Return:
1. project map
2. data-code-output crosswalk
3. commands to regenerate key outputs
4. uncertainty / risk list
5. top 3 next actions

这里的产物不是论文段落，而是项目理解：入口、依赖、证据链和风险。

rules / workflow / skills

规则、工作流、技能：让 agent 先别乱来

社科 agent 的第一步不是更自由，而是更有约束。

规则层样本定义、变量命名、禁止操作、合作者约定。

工作流层文献、数据、模型、图表、写作之间如何交接。

技能层DID、survey、text analysis、IRT 等方法不只是 prompt，而是可复用流程。

约束不是限制能力，而是让能力可迁移、可复核、可交接。

Academic Research Skills screenshot — Academic Research Skillsskills layer

Awesome Econ AI Stuff screenshot — discipline resources

tools / knowledge / experiment / audit

工具、知识、实验、审计：能做事，也能被追责

Agent 的行动能力和可信度必须一起设计。

工具层让 agent 能读材料、跑代码、查数据库。

知识层让概念、理论、机制、变量有可维护结构。

实验层让探索、稳健性、替代规格留下轨迹。

审计层让 claim、代码、数据、输出能被复核。

AI4SS translation

AI4SS 的前沿：研究流程本身被基础设施化

StatsClaw

把统计软件从“跑结果”推进到 validation-aware workflow：模型、诊断、错误和报告需要一起被检查。

statistical softwarevalidation

Academic Research Skills

把研究流程拆成可复用技能：读文献、写作、审稿、修改，不再只是一次性 prompt。

skillsworkflowreview

Awesome Econ AI Stuff

学科资源开始围绕任务组织：工具、案例、技能、工作流，构成 agent 可读的入口。

discipline resourceseconomics

AI4SS 的资产，不是某个模型，而是能被 agent 读懂的研究制度。

方法变成技能DID、survey、text analysis、IRT 不再只是 prompt。

软件变成协作制度生成和验证分离，测试、文档、审计一起进入流程。

规范变成检查表replication package、claim status、figure/table crosswalk 可被 agent 检查。

翻译成社会科学语言：把隐性的研究流程写成 agent-readable artifacts。

knowledge layer

LLM Wiki：把杂乱语料整理成可维护 wiki

PDF papers

论文、报告、replication package，格式不一。

Web articles

网页剪藏、博客、新闻、项目 README。

Book chapters

章节笔记、人物、主题、情节线。

Meetings / Slack

会议记录、聊天线程、客户访谈。

Loose notes

临时想法、问题清单、待验证判断。

→

Entity pages

人物、组织、项目、数据集，各自有页面。

Concept pages

概念定义、边界、相近术语、争议。

Topic synthesis

把多个来源综合成一个持续更新的解释。

index.md

目录、摘要、链接，让 agent 先导航再阅读。

log.md

记录 ingest、query、lint，保留知识库演化时间线。

LLM Wiki ingest

新语料怎么被吸收：更新多处页面，而不是丢进索引

New source

一篇新论文 / 一个访谈 / 一段会议记录进入 raw/。

Claims

有哪些新判断？支持、反驳、还是补充？

Entities

涉及哪些人物、组织、案例、数据集？

Concepts

改变了哪些定义、分类或机制链条？

Conflicts

有没有和旧页面矛盾、过时或需要标注不确定？

1. read source

先读原文，保留来源路径和引用锚点。

2. write source page

生成摘要、关键证据、限制和可追问问题。

3. update linked pages

同步 entity、concept、topic synthesis。

4. flag contradictions

标出新旧说法冲突、过时判断和待复核 claim。

5. append log

在 log.md 记录这次 ingest 触碰了哪些页面。

What changes in the wiki

+ raw/paper-2026.md
 sources/paper-2026-summary.md

 entities/NotebookLM.md
 concepts/RAG.md
 concepts/knowledge-compilation.md
 topics/personal-knowledge-base.md

 index.md
 log.md

 FLAG: new source challenges old claim
 FLAG: add follow-up question

original examples

LLM Wiki 原作者例子：同一套机制可以跨场景

Personal / deep dives

目标、健康、心理、自我改进；竞争分析、尽调、旅行规划、课程笔记。

Research topic

围绕一个主题读几周或几个月，逐步形成综合 wiki 和 evolving thesis。

Reading a book

逐章沉淀人物、主题、情节线和关系，像个人版 Tolkien Gateway。

Business / team

Slack、会议记录、项目文档、客户访谈进入内部 wiki，由 LLM 维护更新。

这些例子共同说明：LLM Wiki 的对象不是“文档集合”，而是一个会持续变好的知识系统。

Human选择来源、提出问题、判断意义。

LLM维护链接、摘要、索引、日志和一致性。

Wiki让每次探索变成可回看的页面，而不是消失在聊天里。

你讲这一页时不用解释技术细节，只要问：什么东西值得长期积累？答案就是 wiki 的边界。

experiment layer

Auto Research：先看原始优化图

这张图才是 Auto Research 的入口：灰点是被丢弃的尝试，绿点是被保留的改进，绿线是 running best。

experiments夜里自动跑一串尝试，而不是一次 prompt。

kept improvements只有确实改进验证指标的 patch 被留下。

↓

validation BPB纵轴越低越好，目标函数非常明确。

思想方式：不是让 agent 写一篇论文，而是让 agent 在一个受约束的搜索空间里做 hill-climbing，并留下每一步证据。

Karpathy Auto Research progress plot — Original progress plot from karpathy/autoresearch: discarded trials, kept improvements, and running best.

Auto Research loop

Auto Research：伪代码和循环比概念更清楚

Overnight experiment loop

best = baseline(train.py)
for experiment in overnight:
    patch = agent.propose(program.md, logs)
    result = train(patch, budget="5 min")
    score = evaluate(result, metric="val_bpb")

    if score < best.score:
        keep(patch)
        best = (patch, score)
    else:
        discard(patch)

    log(experiment, patch, score, decision)

running best日志保存每次尝试；只有指标改善才进入当前最好版本

1program.md

人写研究组织规则

2propose patch

agent 选择一次改动

3edit train.py

只改核心训练文件

4train 5 min

固定预算跑实验

5eval val_bpb

指标更低才算进步

6keep / discard

更新 best 和日志，回到下一轮

关键不在“自动”，而在把搜索空间、预算、指标和日志设计成一个可复核的研究制度。

repo anatomy

Auto Research 的 repo 结构：把自由度关进盒子

Repo as a research system

prepare.py
  fixed constants, data prep, tokenizer

train.py
  agent edits model / optimizer / loop

program.md
  human-written research org code

metric
  val_bpb: lower is better

progress.png
  audit trail of discarded / kept trials

Fixed substrate

数据准备和评估工具固定，否则每次实验不可比。

Editable core

只开放 train.py，让 agent 有自由度，但 diff 仍可审查。

Research org code

program.md 不是提示词，而是人类迭代的组织规则。

Comparable metric

val_bpb 把“好一点”落成可比较的目标函数。

Visible audit trail

progress 图让失败、保留和 running best 一眼可见。

closing lift

社会科学不是 AI 自动化的对象，而是 agent system 的设计语言

Agent systems 里会有异质行动者、网络依赖、策略互动、制度约束、分布不稳定。这些正是社会科学长期研究的问题。

研究流程要可执行让项目从“只有作者懂”变成 agent 可以读。

研究证据要可审计claim、代码、数据、图表之间必须能对上。

研究理论要进入系统设计社会科学可以为 agent systems 提供制度语言。

社会科学研究者不是 AI 革命的旁观者；我们有机会把自己的理论和方法，写进下一代 agent systems 的制度设计里。

contact

谢谢

更多资料和示例会持续更新，欢迎关注：

github.com/SiyaoZheng

siyaozheng.github.io