Tongji AI4SS · 30 minutes
从 agent loop 出发,讲清楚为什么 2026 年的关键问题不是“AI 会不会写论文”,而是研究流程怎样变得可执行、可交接、可审计。
郑思尧 · 2026-05
autonomy spectrum
这页的重点是例子:从大家熟悉的聊天机器人,到能用工具、能进 workspace 的 agent,再到仍属目标的 AGI,差别在于系统能承担多少连续行动。
越往上,越要问:谁监控、谁接管、谁负责?全条件、全道路由系统驾驶。
高度自治、跨多数经济任务;不是当前产品。
Robotaxi 在服务区内接近“乘客模式”。
能替用户查资料、浏览网页、执行多步任务。
系统驾驶,但边界外要求人准备接管。
模型接入搜索、图像生成、文档库和数据分析。
系统控制方向和速度,人仍然看路并负责。
能读图、读文件、听说对话,但人持续判断。
定速、跟车或车道保持;人完成驾驶任务。
回答、改写、摘要;任务状态仍停在人手里。
agent loop
LLM 作为一次生成器:输入一次,输出一次。
用户给出一个问题、任务或文本。
single forward pass
模型生成一次回答,任务状态通常停在对话里。
Agent 也有输入和输出;变化在于中间多了一个带 LLM 的行动循环。
用户给出目标、约束和上下文。
LLM 形成计划,解释当前证据和下一步。
搜索、运行命令、读文件、调用 API。
网页、日志、脚本结果、文件变化进入下一轮推理。
保留进度、错误、约束和未决问题。
交付回答、文件修改、分析结果或下一步计划。
rules and memory
不管叫 Agent markdown 还是 Claude markdown,本质都是给 agent 的项目合同。
研究完整性优先;用 python3;先验证路径和依赖;不要越过明确范围。
记住本轮决定:AI 例子要消费级;logo 不能被截断;每次改版都看 16:9 预览。
Agent 不是只靠 prompt 工作;它需要一个项目内的入口文件。
local example
# AGENTS.md ## Priorities - Optimize for research integrity, reproducibility, traceability, and write-ready outputs. - Keep assumptions explicit. ## Hard Rules - When Adrian asks to show or spot-check, include visible content or command output. - Never change display or monitor settings. ## Working Style - Stay within the explicit scope of the request. - Answer computable questions by inspecting files. - Verify names, paths, distributions, and encodings. ## Environment - Use python3, not python. - Quote paths with spaces. - Never run heavy jobs directly on HPC login nodes.
先保护研究完整性、可复现性和可交付性,而不是先追求快。
哪些事绝对不能做,哪些输出必须给可见证据。
先看文件和数据,再回答;不要靠印象猜路径和内容。
把 python3、空格路径、HPC 登录节点这些坑提前写死。
这不是工程配置,而是把“作者才知道的项目纪律”外置给 agent。
practical entry
最实用的第一步不是让 agent 写论文,而是让它先做只读体检。
first prompt
First prompt 的目标不是直接产出结论,而是产出项目地图和风险清单。
Read this research project as a read-only research assistant. Do not modify files. Return: 1. project map 2. data-code-output crosswalk 3. commands to regenerate key outputs 4. uncertainty / risk list 5. top 3 next actions
rules / workflow / skills
社科 agent 的第一步不是更自由,而是更有约束。
tools / knowledge / experiment / audit
files, terminal, browser, data
compiled knowledge layer
search with logs
validation-aware workflow
Agent 的行动能力和可信度必须一起设计。
AI4SS translation
把统计软件从“跑结果”推进到 validation-aware workflow:模型、诊断、错误和报告需要一起被检查。
把研究流程拆成可复用技能:读文献、写作、审稿、修改,不再只是一次性 prompt。
学科资源开始围绕任务组织:工具、案例、技能、工作流,构成 agent 可读的入口。
AI4SS 的资产,不是某个模型,而是能被 agent 读懂的研究制度。
knowledge layer
论文、报告、replication package,格式不一。
网页剪藏、博客、新闻、项目 README。
章节笔记、人物、主题、情节线。
会议记录、聊天线程、客户访谈。
临时想法、问题清单、待验证判断。
人物、组织、项目、数据集,各自有页面。
概念定义、边界、相近术语、争议。
把多个来源综合成一个持续更新的解释。
目录、摘要、链接,让 agent 先导航再阅读。
记录 ingest、query、lint,保留知识库演化时间线。
LLM Wiki ingest
一篇新论文 / 一个访谈 / 一段会议记录进入 raw/。
有哪些新判断?支持、反驳、还是补充?
涉及哪些人物、组织、案例、数据集?
改变了哪些定义、分类或机制链条?
有没有和旧页面矛盾、过时或需要标注不确定?
先读原文,保留来源路径和引用锚点。
生成摘要、关键证据、限制和可追问问题。
同步 entity、concept、topic synthesis。
标出新旧说法冲突、过时判断和待复核 claim。
在 log.md 记录这次 ingest 触碰了哪些页面。
+ raw/paper-2026.md sources/paper-2026-summary.md entities/NotebookLM.md concepts/RAG.md concepts/knowledge-compilation.md topics/personal-knowledge-base.md index.md log.md FLAG: new source challenges old claim FLAG: add follow-up question
original examples
目标、健康、心理、自我改进;竞争分析、尽调、旅行规划、课程笔记。
围绕一个主题读几周或几个月,逐步形成综合 wiki 和 evolving thesis。
逐章沉淀人物、主题、情节线和关系,像个人版 Tolkien Gateway。
Slack、会议记录、项目文档、客户访谈进入内部 wiki,由 LLM 维护更新。
这些例子共同说明:LLM Wiki 的对象不是“文档集合”,而是一个会持续变好的知识系统。
experiment layer
这张图才是 Auto Research 的入口:灰点是被丢弃的尝试,绿点是被保留的改进,绿线是 running best。
Auto Research loop
best = baseline(train.py)
for experiment in overnight:
patch = agent.propose(program.md, logs)
result = train(patch, budget="5 min")
score = evaluate(result, metric="val_bpb")
if score < best.score:
keep(patch)
best = (patch, score)
else:
discard(patch)
log(experiment, patch, score, decision)
人写研究组织规则
agent 选择一次改动
只改核心训练文件
固定预算跑实验
指标更低才算进步
更新 best 和日志,回到下一轮
repo anatomy
prepare.py fixed constants, data prep, tokenizer train.py agent edits model / optimizer / loop program.md human-written research org code metric val_bpb: lower is better progress.png audit trail of discarded / kept trials
数据准备和评估工具固定,否则每次实验不可比。
只开放 train.py,让 agent 有自由度,但 diff 仍可审查。
program.md 不是提示词,而是人类迭代的组织规则。
val_bpb 把“好一点”落成可比较的目标函数。
progress 图让失败、保留和 running best 一眼可见。
closing lift
Agent systems 里会有异质行动者、网络依赖、策略互动、制度约束、分布不稳定。这些正是社会科学长期研究的问题。
contact
更多资料和示例会持续更新,欢迎关注: