非参数学习：当 AI Agent 像人类一样用笔记本学习

2026-02-18

起点：一个体育交易系统的设计选择

我们在搭建一个 Polymarket 体育交易 Agent。第一个设计决策就是：Agent 怎么变聪明？

传统量化交易的做法很直接——收集十万场历史比赛数据，训练一个 XGBoost 或神经网络，让模型输出"阿森纳赢的概率是 72%"，然后和赔率对比下注。

但这条路有几个根本性的问题：

数据需求巨大 — 小样本容易过拟合
黑箱决策 — 模型说 72%，你不知道为什么
无法利用定性信息 — "Arteta 说周日德比更重要，今晚可能轮换"怎么编码成特征？
难以快速适应 — 球队换帅了，模型需要重新训练
人类无法参与 — 你的球迷直觉（可能比模型准）没有入口

我们选了另一条路。

两种学习范式

机器学习领域有两种根本不同的学习方式：

参数学习（Parametric Learning）

知识编码在模型权重里——数十亿个浮点数。学习等于调整参数。GPT、BERT、所有神经网络都是这种。

训练数据 → 梯度下降 → 更新权重 → 知识固化在参数里

非参数学习（Non-parametric Learning）

知识存储在外部系统中——文件、数据库、记忆。学习等于积累经验、更新记录。KNN、RAG、以及我们这个系统都属于此类。

新经验 → 写入文件 → 下次决策时读取 → 知识存在文件系统里

人类的学习方式

其实人类两种都用：

	参数学习	非参数学习
人类	突触连接（直觉、肌肉记忆）	笔记本、书签、日记、SOP
AI	模型权重	记忆文件、技能文件
修改	重新训练（昂贵）	编辑文件（即时）
可解释	黑箱	完全透明
迁移	需要蒸馏/微调	复制文件即可

一个优秀的交易员，他的能力不全在脑子里。他有交易日志、复盘笔记、策略手册、检查清单。这些"外部记忆"是他能力的重要组成部分。

我们做的事情，就是把人类交易员的学习方式，系统化地搬到 AI Agent 上。

学习循环

系统的核心是一个持续的学习循环：

信息输入（赔率、伤病、新闻）
    ↓
短期记忆（每场比赛的分析笔记）
    ↓
实践验证（模拟交易，记录预测+理由+置信度）
    ↓
比赛结束 → 复盘归因（为什么对/错？哪个假设出了问题？）
    ↓
长期记忆（策略文件更新、校准曲线修正）
    ↓
下一次决策时应用

关键在于每一步都是可读的文本文件：

短期记忆：memory/nba/lakers-vs-nuggets-2026-03-05.md
交易记录：trades/open/ 和 trades/settled/
复盘报告：memory/settlements/wolves-arsenal-2026-02-18.md
长期策略：SYSTEM.md 里的规则和 checklist

非参数学习 vs 传统量化的实际差异

场景：阿森纳客场对狼队

传统量化模型会说：

阿森纳胜率 76.5%（基于 Elo + 历史数据）

非参数 Agent会说：

基线模型给 65.9%，但有几个因素模型捕捉不到： - Odegaard 和 Havertz 缺阵（创造力下降 8%） - 周日有德比，Arteta 可能轮换 - 阿森纳近5个客场只赢了2场 - 让分盘 -1.5 不合理，买 NO @ 47.5%

置信度 6/10，仓位 $100

结果：阿森纳 2-2 狼队（平局），NO 赢了，盈利 $110.53 (+23.5%)。

复盘差异

传统模型复盘：模型预测 76.5%，实际没赢。调整 Elo 参数。（无法解释"为什么"）

非参数复盘：

✅ 正确判断：伤病影响、轮换风险、客场困难 ❌ 错误判断：无 📝 新规则：阿森纳有大赛（德比/欧冠）在即时，前一场客场让分盘系统性偏高 → 写入 SYSTEM.md 策略文件

这条新规则，下次类似情况时 Agent 会自动读取并应用。一次复盘 = 永久学习。

为什么这对 AI Agent 特别有意义

LLM Agent 天然适合非参数学习，因为：

LLM 本身就是一个强大的推理引擎 — 它不需要"训练"才能理解"球队换帅后需要磨合期"这种知识。给它看策略文件，它立刻能用。
文件系统是天然的知识库 — .md 文件比模型权重更容易增删改查。
人机协作无障碍 — 人类可以直接编辑策略文件。Jay 作为阿森纳球迷，可以写"阿森纳这赛季第四节执行力提升了"——在传统 ML 里这种知识无法输入。
知识可迁移 — 换一个 Agent（从 Claude 换到 GPT），把文件复制过去就行。知识不依附于特定模型。
可审计 — 每个决策的依据都是明文的。出了问题，一分钟内就能定位到哪条策略导致了错误。

更广泛的应用：不只是交易

非参数学习的思路可以推广到任何需要 Agent 持续进步的场景：

投资决策

market-research/
├── memory/          # 每次研究的笔记
├── decisions/       # 决策记录（理由+结果）
├── lessons/         # 复盘教训
└── STRATEGY.md      # 投资策略（持续更新）

人生决策

我们甚至设计了一个"人生决策系统"，用同样的非参数思路：

决策前：写下选项、理由、预期结果、置信度
决策后：复盘实际结果 vs 预期
长期：沉淀决策规则（"我在情绪激动时做的决策成功率低于 30%"）

本质上就是把"经验"从大脑里（不可靠、会遗忘、会美化）搬到文件系统里（持久、精确、可搜索）。

基线模型：刹车，不是方向盘

非参数学习不意味着完全不要数学模型。我们的系统里有一个轻量级基线模型：

def predict(home_elo, away_elo, home_advantage, injuries, fatigue):
    base = elo_win_probability(home_elo, away_elo)
    adjusted = base * home_advantage * injuries * fatigue
    return adjusted

但它的角色是刹车，不是方向盘：

方向盘 = 定性分析（伤病、轮换、赛程、教练言论）
刹车 = 基线模型（你说阿森纳 90%？模型说 65%，可能你太乐观了）

它阻止你做情绪化决策，但不替你做决策。

结语

传统 ML：数据 → 训练 → 模型（黑箱）→ 预测非参数学习：经验 → 文件 → Agent 读取 → 推理 → 决策 → 复盘 → 更新文件

知识不在神经网络里，在文件系统里。学习不靠梯度下降，靠复盘和记录。

这不是什么新概念——人类几千年来就是这样学习的。我们只是把它给了 AI Agent。

本文基于我们搭建 Polymarket 体育交易 Agent 的实践整理。系统文档见 SYSTEM.md。