非参数学习:当 AI Agent 像人类一样用笔记本学习
起点:一个体育交易系统的设计选择
我们在搭建一个 Polymarket 体育交易 Agent。第一个设计决策就是:Agent 怎么变聪明?
传统量化交易的做法很直接——收集十万场历史比赛数据,训练一个 XGBoost 或神经网络,让模型输出"阿森纳赢的概率是 72%",然后和赔率对比下注。
但这条路有几个根本性的问题:
- 数据需求巨大 — 小样本容易过拟合
- 黑箱决策 — 模型说 72%,你不知道为什么
- 无法利用定性信息 — "Arteta 说周日德比更重要,今晚可能轮换"怎么编码成特征?
- 难以快速适应 — 球队换帅了,模型需要重新训练
- 人类无法参与 — 你的球迷直觉(可能比模型准)没有入口
我们选了另一条路。
两种学习范式
机器学习领域有两种根本不同的学习方式:
参数学习(Parametric Learning)
知识编码在模型权重里——数十亿个浮点数。学习等于调整参数。GPT、BERT、所有神经网络都是这种。
训练数据 → 梯度下降 → 更新权重 → 知识固化在参数里
非参数学习(Non-parametric Learning)
知识存储在外部系统中——文件、数据库、记忆。学习等于积累经验、更新记录。KNN、RAG、以及我们这个系统都属于此类。
新经验 → 写入文件 → 下次决策时读取 → 知识存在文件系统里
人类的学习方式
其实人类两种都用:
| 参数学习 | 非参数学习 | |
|---|---|---|
| 人类 | 突触连接(直觉、肌肉记忆) | 笔记本、书签、日记、SOP |
| AI | 模型权重 | 记忆文件、技能文件 |
| 修改 | 重新训练(昂贵) | 编辑文件(即时) |
| 可解释 | 黑箱 | 完全透明 |
| 迁移 | 需要蒸馏/微调 | 复制文件即可 |
一个优秀的交易员,他的能力不全在脑子里。他有交易日志、复盘笔记、策略手册、检查清单。这些"外部记忆"是他能力的重要组成部分。
我们做的事情,就是把人类交易员的学习方式,系统化地搬到 AI Agent 上。
学习循环
系统的核心是一个持续的学习循环:
信息输入(赔率、伤病、新闻)
↓
短期记忆(每场比赛的分析笔记)
↓
实践验证(模拟交易,记录预测+理由+置信度)
↓
比赛结束 → 复盘归因(为什么对/错?哪个假设出了问题?)
↓
长期记忆(策略文件更新、校准曲线修正)
↓
下一次决策时应用
关键在于每一步都是可读的文本文件:
- 短期记忆:
memory/nba/lakers-vs-nuggets-2026-03-05.md - 交易记录:
trades/open/和trades/settled/ - 复盘报告:
memory/settlements/wolves-arsenal-2026-02-18.md - 长期策略:
SYSTEM.md里的规则和 checklist
非参数学习 vs 传统量化的实际差异
场景:阿森纳客场对狼队
传统量化模型会说:
阿森纳胜率 76.5%(基于 Elo + 历史数据)
非参数 Agent会说:
基线模型给 65.9%,但有几个因素模型捕捉不到: - Odegaard 和 Havertz 缺阵(创造力下降 8%) - 周日有德比,Arteta 可能轮换 - 阿森纳近5个客场只赢了2场 - 让分盘 -1.5 不合理,买 NO @ 47.5%
置信度 6/10,仓位 $100
结果:阿森纳 2-2 狼队(平局),NO 赢了,盈利 $110.53 (+23.5%)。
复盘差异
传统模型复盘:模型预测 76.5%,实际没赢。调整 Elo 参数。(无法解释"为什么")
非参数复盘:
✅ 正确判断:伤病影响、轮换风险、客场困难 ❌ 错误判断:无 📝 新规则:阿森纳有大赛(德比/欧冠)在即时,前一场客场让分盘系统性偏高 → 写入 SYSTEM.md 策略文件
这条新规则,下次类似情况时 Agent 会自动读取并应用。一次复盘 = 永久学习。
为什么这对 AI Agent 特别有意义
LLM Agent 天然适合非参数学习,因为:
-
LLM 本身就是一个强大的推理引擎 — 它不需要"训练"才能理解"球队换帅后需要磨合期"这种知识。给它看策略文件,它立刻能用。
-
文件系统是天然的知识库 —
.md文件比模型权重更容易增删改查。 -
人机协作无障碍 — 人类可以直接编辑策略文件。Jay 作为阿森纳球迷,可以写"阿森纳这赛季第四节执行力提升了"——在传统 ML 里这种知识无法输入。
-
知识可迁移 — 换一个 Agent(从 Claude 换到 GPT),把文件复制过去就行。知识不依附于特定模型。
-
可审计 — 每个决策的依据都是明文的。出了问题,一分钟内就能定位到哪条策略导致了错误。
更广泛的应用:不只是交易
非参数学习的思路可以推广到任何需要 Agent 持续进步的场景:
投资决策
market-research/
├── memory/ # 每次研究的笔记
├── decisions/ # 决策记录(理由+结果)
├── lessons/ # 复盘教训
└── STRATEGY.md # 投资策略(持续更新)
人生决策
我们甚至设计了一个"人生决策系统",用同样的非参数思路:
- 决策前:写下选项、理由、预期结果、置信度
- 决策后:复盘实际结果 vs 预期
- 长期:沉淀决策规则("我在情绪激动时做的决策成功率低于 30%")
本质上就是把"经验"从大脑里(不可靠、会遗忘、会美化)搬到文件系统里(持久、精确、可搜索)。
基线模型:刹车,不是方向盘
非参数学习不意味着完全不要数学模型。我们的系统里有一个轻量级基线模型:
def predict(home_elo, away_elo, home_advantage, injuries, fatigue):
base = elo_win_probability(home_elo, away_elo)
adjusted = base * home_advantage * injuries * fatigue
return adjusted
但它的角色是刹车,不是方向盘:
- 方向盘 = 定性分析(伤病、轮换、赛程、教练言论)
- 刹车 = 基线模型(你说阿森纳 90%?模型说 65%,可能你太乐观了)
它阻止你做情绪化决策,但不替你做决策。
结语
传统 ML:数据 → 训练 → 模型(黑箱)→ 预测 非参数学习:经验 → 文件 → Agent 读取 → 推理 → 决策 → 复盘 → 更新文件
知识不在神经网络里,在文件系统里。学习不靠梯度下降,靠复盘和记录。
这不是什么新概念——人类几千年来就是这样学习的。我们只是把它给了 AI Agent。
本文基于我们搭建 Polymarket 体育交易 Agent 的实践整理。系统文档见 SYSTEM.md。