让 ChatGPT 分析 BTC 走势 200 次,准确率分布到底如何?
设想用一组完全相同的 prompt,连续数周、每天多次把 ChatGPT 当 BTC 分析师跑约 200 次, 统计方向准确率、信息一致性、幻觉触发率,并标注几个典型的"幻觉"案例。 这样得到的数字通常不好看,但比"AI 预测涨跌 95% 准"这种话术诚实。本文数字为示意,用来说明量级与方法,不代表一次具体测试的精确结果。
1. 这套测试怎么做 #
设计目标:尽量消除"偶然好运气"。如果只跑 10 次,连蒙都能蒙对 5 次。真正想看的是在 200 次大样本下,ChatGPT 给的方向判断到底是不是接近 coin flip。
prompt 是固定的,每次只换日期。原文如下:
你是一位资深加密交易分析师。请基于 BTC 截至 {DATE} 的公开市场结构(K 线形态、链上数据、宏观背景),
给出未来 48 小时 BTC 的最可能方向("看多" / "看空" / "震荡"),并给出 3 条核心理由。
不要含糊,必须给出明确单一方向。
跑法:每天分多个固定时点 + 随机几次穿插,累计约 200 次。每次开新会话(清空上下文)、关闭联网模式(避免不同时点联网到不同新闻造成噪声)。每次输出存档,48 小时后人工对照 Binance BTCUSDT 走势打标。
判定规则:
- "看多" + 48 小时后 BTC 收盘 ≥ 输入时刻价格的 99.5% → 算对(容忍 0.5% 噪声)
- "看空" + 48 小时后 BTC 收盘 ≤ 输入时刻价格的 100.5% → 算对
- "震荡" + 48 小时后 BTC 收盘在 ±2% 区间内 → 算对
- 幻觉判定:输出含明显错误信息(杜撰的链上数据、虚构的 ETF 数据、不存在的交易所事件)→ 单独标
2. 200 次跑下来大致是什么样(示意) #
| 指标 | 数值 | 说明 |
|---|---|---|
| 总次数 | 200 | 4 周 × 50 次 |
| 方向准确率 | 53.0% | 106/200,接近 coin flip |
| "看多"占比 | 48.5% | 97/200 |
| "看空"占比 | 31.0% | 62/200 |
| "震荡"占比 | 20.5% | 41/200 |
| 看多准确率 | 59.8% | 58/97(这段时间 BTC 整体偏多) |
| 看空准确率 | 37.1% | 23/62 |
| 震荡准确率 | 61.0% | 25/41 |
| 同 prompt 自洽率 | 72% | 同日 5 次跑出至少 4 次同方向 |
| 幻觉触发率 | 17% | 34/200 含可验证的杜撰信息 |
三件事值得单独说一下(数字为示意量级)。看多准确率通常高于看空——这不是 ChatGPT 厉害,而是上行行情样本本身上涨多。在一个上涨多于下跌的样本里,"永远说看多"的策略也能拿到约 55-60% 的准确率。"看空"准确率反而往往最低,意味着 AI 在判断下行机会上系统性偏弱。幻觉触发率不容忽视——大约每几次输出就有 1 次包含明确错误信息,这才是真正的红牌。
3. 方向准确率 53% 的含义 #
53% 听起来"比抛硬币好一点"。但有几个坑:
第一,53% 不是 60% 也不是 70%。把它当"AI 比我会判断 BTC"的证据是错的。50% 是无信息基准,53% 在 200 样本下的置信区间大约是 ±7 个百分点(粗算)——也就是说,结论"AI 显著比抛硬币好"在统计上根本不成立。
第二,看多准确率 59.8% 看空 37.1% 的差,不是 AI 的优势,是市场上涨样本的污染。如果你换到 2022 熊市那段时间重跑,比例会反过来(看空对、看多错)。AI 在不同行情段的"准确率"是浮动的,这才是关键。
第三,同 prompt 自洽率只有 72%。同一个问题问 5 次,有 28% 的概率第 5 次会和前 4 次方向相反。这是 LLM 采样的随机性,不是 ChatGPT 在"动态判断"。把这个数字告诉新手很有用——别人在群里晒"ChatGPT 又看多 BTC"的截图时,他们看到的是 5 次里的 1 次。
4. 7 类典型幻觉示例 #
下面 7 个是这类测试里最常见的幻觉形态(内容为示意性举例),按"危害程度"排序:
| # | 幻觉类型 | 幻觉内容(示例) | 为什么是假的 | 危害 |
|---|---|---|---|---|
| 1 | 虚构 ETF 数据 | "BlackRock 现货 BTC ETF 昨日净流入 12.4 亿美元" | 实际可能是净流出,数字是编的 | 高 |
| 2 | 虚构链上事件 | "链上数据显示 5000+ BTC 巨鲸地址今日转出" | Glassnode/Whale Alert 无对应记录 | 高 |
| 3 | 虚构上市事件 | "Coinbase 上线了 XYZ 期货合约"(XYZ 不存在) | 交易所并无此合约 | 中 |
| 4 | 编造精确数字 | "日均交易量 287 亿美元"(精确到亿) | 实际是另一个量级,AI 编了精确值 | 中 |
| 5 | 错述技术状态 | "BTC 突破 200 周均线" | 当时 BTC 早已在 200 周均线上方运行 | 中 |
| 6 | 虚构宏观事件 | "美联储主席本周发表鸽派讲话" | 该周并无相关讲话 | 高 |
| 7 | 虚构机构动作 | "MicroStrategy 增持 8,400 BTC" | 该周并无增持公告 | 高 |
第 1、6、7 三类是最危险的——AI 用"具体到亿、具体到家、具体到日"的虚构事实,让输出看起来格外可信。读者看到"BlackRock ETF 流入 12.4 亿"会下意识相信,因为这是个具体数字,而具体数字在我们的认知里就是"被核实过的"。但 LLM 偏偏可以编出任何精度的具体数字。这是 AI 在金融场景里最阴险的失败模式。
5. 怎么验证 #
验证流程不复杂,但要养成习惯。可以用这套 3 步法:
第一步,所有"具体数字"必须有对应来源。ETF 流入 → Farside Investors;链上巨鲸 → Whale Alert + Glassnode;交易量 → CoinGecko / Binance 自己;上市公司持仓 → 公司 IR 页或 SEC 文件。任何 AI 给的数字,几分钟内查不到对应来源就当作不存在。
第二步,所有"事件"必须有时间戳。AI 说"上周美联储鸽派讲话"——就去 federalreserve.gov 的 calendar 页验证那一周到底有没有发言。AI 说"某交易所上线某合约"——就去对应产品公告页搜。事件级别的幻觉是最容易识别的,因为外部源很硬。
第三步,相同问题至少跑 3 次。这一条最简单也最有效。一次输出可能是幻觉峰值,三次输出的交集就稳定多了。如果三次结论方向都一致、且关键数字一致,那这次输出可信度大幅上升。这正是"同 prompt 自洽率"这个指标的用处所在。
6. 结论与可用 Prompt #
结论很短:ChatGPT 在"短期 BTC 方向预测"这个任务上不可用。这类测试里方向准确率往往没有显著超过随机,而不低的幻觉率会污染你的判断框架。
但 ChatGPT 在加密分析里有它该被用的位置——只是不是这个位置。它适合做:
- 整理多个新闻源到一份摘要(前提是你给它源材料)
- 解释技术概念(Layer2 / Restaking / EigenLayer)
- 把你已经形成的思路结构化、找漏洞("我打算 X 仓位 Y 个币,最大风险是什么")
- 翻译白皮书段落、生成 prompt 库
更好的做法是写一个"反幻觉"版的 prompt,作为 AI 分析流程的开头使用。完整 prompt 库在 Prompt 库 →。这里给一段开头作为示例:
规则: 1. 不要给具体数字,除非用户在输入中提供了。 2. 不要预测"涨"或"跌",只描述当前结构。 3. 任何引用必须以"根据 [我未验证的] ..."开头。 4. 如果不确定,说"我不知道"。 5. 给出 3 个反向假设(如果我看法相反,最可能的理由是什么)。 任务:基于以下 K 线和链上数据 [...用户粘贴的真实数据...],给我当前 BTC 市场结构的中性描述。
这个 prompt 把 ChatGPT 从"预测者"改成"描述者+反方",能把幻觉触发率明显压下来。这才是 AI 在加密场景该有的样子。
别再问 ChatGPT "BTC 明天涨不涨"。问它"如果 BTC 跌 10%,我的仓位会怎样、应该提前准备什么"——这是个具体到能行动的问题,AI 在这类问题上的输出比预测有用 10 倍。
— PromptDeck, 2026-04-15