非参数学习:当 AI Agent 像人类一样用笔记本学习

起点:一个体育交易系统的设计选择

我们在搭建一个 Polymarket 体育交易 Agent。第一个设计决策就是:Agent 怎么变聪明?

传统量化交易的做法很直接——收集十万场历史比赛数据,训练一个 XGBoost 或神经网络,让模型输出"阿森纳赢的概率是 72%",然后和赔率对比下注。

但这条路有几个根本性的问题:

我们选了另一条路。


两种学习范式

机器学习领域有两种根本不同的学习方式:

参数学习(Parametric Learning)

知识编码在模型权重里——数十亿个浮点数。学习等于调整参数。GPT、BERT、所有神经网络都是这种。

训练数据 → 梯度下降 → 更新权重 → 知识固化在参数里

非参数学习(Non-parametric Learning)

知识存储在外部系统中——文件、数据库、记忆。学习等于积累经验、更新记录。KNN、RAG、以及我们这个系统都属于此类。

新经验 → 写入文件 → 下次决策时读取 → 知识存在文件系统里

人类的学习方式

其实人类两种都用:

参数学习 非参数学习
人类 突触连接(直觉、肌肉记忆) 笔记本、书签、日记、SOP
AI 模型权重 记忆文件、技能文件
修改 重新训练(昂贵) 编辑文件(即时)
可解释 黑箱 完全透明
迁移 需要蒸馏/微调 复制文件即可

一个优秀的交易员,他的能力不全在脑子里。他有交易日志、复盘笔记、策略手册、检查清单。这些"外部记忆"是他能力的重要组成部分。

我们做的事情,就是把人类交易员的学习方式,系统化地搬到 AI Agent 上。


学习循环

系统的核心是一个持续的学习循环:

信息输入(赔率、伤病、新闻)
    ↓
短期记忆(每场比赛的分析笔记)
    ↓
实践验证(模拟交易,记录预测+理由+置信度)
    ↓
比赛结束 → 复盘归因(为什么对/错?哪个假设出了问题?)
    ↓
长期记忆(策略文件更新、校准曲线修正)
    ↓
下一次决策时应用

关键在于每一步都是可读的文本文件


非参数学习 vs 传统量化的实际差异

场景:阿森纳客场对狼队

传统量化模型会说:

阿森纳胜率 76.5%(基于 Elo + 历史数据)

非参数 Agent会说:

基线模型给 65.9%,但有几个因素模型捕捉不到: - Odegaard 和 Havertz 缺阵(创造力下降 8%) - 周日有德比,Arteta 可能轮换 - 阿森纳近5个客场只赢了2场 - 让分盘 -1.5 不合理,买 NO @ 47.5%

置信度 6/10,仓位 $100

结果:阿森纳 2-2 狼队(平局),NO 赢了,盈利 $110.53 (+23.5%)

复盘差异

传统模型复盘:模型预测 76.5%,实际没赢。调整 Elo 参数。(无法解释"为什么")

非参数复盘

✅ 正确判断:伤病影响、轮换风险、客场困难 ❌ 错误判断:无 📝 新规则:阿森纳有大赛(德比/欧冠)在即时,前一场客场让分盘系统性偏高 → 写入 SYSTEM.md 策略文件

这条新规则,下次类似情况时 Agent 会自动读取并应用。一次复盘 = 永久学习。


为什么这对 AI Agent 特别有意义

LLM Agent 天然适合非参数学习,因为:

  1. LLM 本身就是一个强大的推理引擎 — 它不需要"训练"才能理解"球队换帅后需要磨合期"这种知识。给它看策略文件,它立刻能用。

  2. 文件系统是天然的知识库.md 文件比模型权重更容易增删改查。

  3. 人机协作无障碍 — 人类可以直接编辑策略文件。Jay 作为阿森纳球迷,可以写"阿森纳这赛季第四节执行力提升了"——在传统 ML 里这种知识无法输入。

  4. 知识可迁移 — 换一个 Agent(从 Claude 换到 GPT),把文件复制过去就行。知识不依附于特定模型。

  5. 可审计 — 每个决策的依据都是明文的。出了问题,一分钟内就能定位到哪条策略导致了错误。


更广泛的应用:不只是交易

非参数学习的思路可以推广到任何需要 Agent 持续进步的场景:

投资决策

market-research/
├── memory/          # 每次研究的笔记
├── decisions/       # 决策记录(理由+结果)
├── lessons/         # 复盘教训
└── STRATEGY.md      # 投资策略(持续更新)

人生决策

我们甚至设计了一个"人生决策系统",用同样的非参数思路:

本质上就是把"经验"从大脑里(不可靠、会遗忘、会美化)搬到文件系统里(持久、精确、可搜索)。


基线模型:刹车,不是方向盘

非参数学习不意味着完全不要数学模型。我们的系统里有一个轻量级基线模型:

def predict(home_elo, away_elo, home_advantage, injuries, fatigue):
    base = elo_win_probability(home_elo, away_elo)
    adjusted = base * home_advantage * injuries * fatigue
    return adjusted

但它的角色是刹车,不是方向盘

它阻止你做情绪化决策,但不替你做决策。


结语

传统 ML:数据 → 训练 → 模型(黑箱)→ 预测 非参数学习:经验 → 文件 → Agent 读取 → 推理 → 决策 → 复盘 → 更新文件

知识不在神经网络里,在文件系统里。学习不靠梯度下降,靠复盘和记录。

这不是什么新概念——人类几千年来就是这样学习的。我们只是把它给了 AI Agent。


本文基于我们搭建 Polymarket 体育交易 Agent 的实践整理。系统文档见 SYSTEM.md