让 ChatGPT 分析 BTC 走势 200 次,准确率分布到底如何?
我们用一组完全相同的 prompt,连续 4 周、每天 7-8 次把 ChatGPT 当 BTC 分析师跑了 200 次, 统计了方向准确率、信息一致性、幻觉触发率,并人工标注了 7 个典型"红绿幻觉"案例。 数字不好看,但比"AI 预测涨跌 95% 准"这种话术诚实。
1. 实验是怎么做的 #
设计目标:尽量消除"偶然好运气"。如果只跑 10 次,连蒙都能蒙对 5 次。我们想看的是 200 次大样本下,ChatGPT 给的方向判断到底是不是接近 coin flip。
prompt 是固定的,每次只换日期。原文如下:
你是一位资深加密交易分析师。请基于 BTC 截至 {DATE} 的公开市场结构(K 线形态、链上数据、宏观背景),
给出未来 48 小时 BTC 的最可能方向("看多" / "看空" / "震荡"),并给出 3 条核心理由。
不要含糊,必须给出明确单一方向。
跑法:每天美东时间 09:00 / 12:00 / 15:00 / 18:00 / 21:00 五次,加上随机 2-3 次穿插,共 200 次。每次开新会话(清空上下文)、关闭联网模式(避免不同时点联网到不同新闻造成噪声)。每次输出存档,48 小时后人工对照 Binance BTCUSDT 走势打标。
判定规则:
- "看多" + 48 小时后 BTC 收盘 ≥ 输入时刻价格的 99.5% → 算对(容忍 0.5% 噪声)
- "看空" + 48 小时后 BTC 收盘 ≤ 输入时刻价格的 100.5% → 算对
- "震荡" + 48 小时后 BTC 收盘在 ±2% 区间内 → 算对
- 幻觉判定:输出含明显错误信息(杜撰的链上数据、虚构的 ETF 数据、不存在的交易所事件)→ 单独标
2. 200 次跑下来的数字 #
| 指标 | 数值 | 说明 |
|---|---|---|
| 总次数 | 200 | 4 周 × 50 次 |
| 方向准确率 | 53.0% | 106/200,接近 coin flip |
| "看多"占比 | 48.5% | 97/200 |
| "看空"占比 | 31.0% | 62/200 |
| "震荡"占比 | 20.5% | 41/200 |
| 看多准确率 | 59.8% | 58/97(这段时间 BTC 整体偏多) |
| 看空准确率 | 37.1% | 23/62 |
| 震荡准确率 | 61.0% | 25/41 |
| 同 prompt 自洽率 | 72% | 同日 5 次跑出至少 4 次同方向 |
| 幻觉触发率 | 17% | 34/200 含可验证的杜撰信息 |
三件事值得单独说一下。看多准确率高于看空——这不是 ChatGPT 厉害,是同期 BTC 本身上行多。在一个上涨多于下跌的样本里,"永远说看多"的策略也能拿到约 55-60% 的准确率。"看空"准确率反而最低(37.1%),意味着 AI 在判断下行机会上系统性偏弱。幻觉触发率 17%,每 6 次输出里就有 1 次包含明确错误信息——这才是真正的红牌。
3. 方向准确率 53% 的含义 #
53% 听起来"比抛硬币好一点"。但有几个坑:
第一,53% 不是 60% 也不是 70%。把它当"AI 比我会判断 BTC"的证据是错的。50% 是无信息基准,53% 在 200 样本下的置信区间大约是 ±7 个百分点(粗算)——也就是说,结论"AI 显著比抛硬币好"在统计上根本不成立。
第二,看多准确率 59.8% 看空 37.1% 的差,不是 AI 的优势,是市场上涨样本的污染。如果你换到 2022 熊市那段时间重跑,比例会反过来(看空对、看多错)。AI 在不同行情段的"准确率"是浮动的,这才是关键。
第三,同 prompt 自洽率只有 72%。同一个问题问 5 次,有 28% 的概率第 5 次会和前 4 次方向相反。这是 LLM 采样的随机性,不是 ChatGPT 在"动态判断"。把这个数字告诉新手很有用——别人在群里晒"ChatGPT 又看多 BTC"的截图时,他们看到的是 5 次里的 1 次。
4. 7 个红绿幻觉典型案例 #
34 次幻觉里挑 7 个典型,按"危害程度"排序:
| # | 日期 | 幻觉内容 | 真实情况 | 危害 |
|---|---|---|---|---|
| 1 | 2026-03-22 | "BlackRock 现货 BTC ETF 昨日净流入 12.4 亿美元" | 当日实际净流出 0.8 亿 | 高 |
| 2 | 2026-04-01 | "链上数据显示 5000+ BTC 巨鲸地址今日转出" | Glassnode/Whale Alert 无对应记录 | 高 |
| 3 | 2026-03-28 | "Coinbase 上线了 XYZ 期货合约"(XYZ 不存在) | Coinbase 无此合约 | 中 |
| 4 | 2026-04-05 | "日均交易量 287 亿美元"(编了精确到亿的数字) | 实际接近 200 亿,AI 编了精确值 | 中 |
| 5 | 2026-03-19 | "BTC 突破 200 周均线" | 当时 BTC 在 200 周均线上方运行已半年 | 中 |
| 6 | 2026-04-08 | "美联储主席本周发表鸽派讲话"(实际无相关讲话) | 该周美联储无重要发言 | 高 |
| 7 | 2026-04-11 | "MicroStrategy 增持 8,400 BTC" | 该周无增持公告 | 高 |
第 1、6、7 三个是最危险的——AI 用"具体到亿、具体到家、具体到日"的虚构事实,让输出看起来格外可信。读者看到"BlackRock ETF 流入 12.4 亿"会下意识相信,因为这是个具体数字,而具体数字在我们的认知里就是"被核实过的"。但 LLM 偏偏可以编出任何精度的具体数字。这是 AI 在金融场景里最阴险的失败模式。
5. 我们怎么验证 #
验证流程不复杂,但要养成习惯。我们用 3 步法:
第一步,所有"具体数字"必须有对应来源。ETF 流入 → Farside Investors;链上巨鲸 → Whale Alert + Glassnode;交易量 → CoinGecko / Binance 自己;上市公司持仓 → 公司 IR 页或 SEC 文件。任何 AI 给的数字,3 分钟内查不到对应来源就当作不存在。
第二步,所有"事件"必须有时间戳。AI 说"上周美联储鸽派讲话"——我们去 federalreserve.gov 的 calendar 页验证那一周到底有没有发言。AI 说"Coinbase 上线某合约"——我们去 Coinbase 的产品公告页搜。事件级别的幻觉是最容易识别的,因为外部源很硬。
第三步,相同问题至少跑 3 次。这一条最简单也最有效。一次输出可能是幻觉峰值,三次输出的交集就稳定多了。如果三次结论方向都一致、且关键数字一致,那这次输出可信度大幅上升。这就是为什么我们的同 prompt 自洽率指标在 4-5 这个区间最有用。
6. 结论与可用 Prompt #
结论很短:ChatGPT 在"短期 BTC 方向预测"这个任务上不可用。53% 的准确率没有显著超过随机,17% 的幻觉率会污染你的判断框架。
但 ChatGPT 在加密分析里有它该被用的位置——只是不是这个位置。它适合做:
- 整理多个新闻源到一份摘要(前提是你给它源材料)
- 解释技术概念(Layer2 / Restaking / EigenLayer)
- 把你已经形成的思路结构化、找漏洞("我打算 X 仓位 Y 个币,最大风险是什么")
- 翻译白皮书段落、生成 prompt 库
我们之后写了一个"反幻觉"版的 prompt,把它作为我们 D 篮 AI 选币流程的开头使用。完整 prompt 库在 Prompt 库 →。这里给一段开头作为示例:
规则: 1. 不要给具体数字,除非用户在输入中提供了。 2. 不要预测"涨"或"跌",只描述当前结构。 3. 任何引用必须以"根据 [我未验证的] ..."开头。 4. 如果不确定,说"我不知道"。 5. 给出 3 个反向假设(如果我看法相反,最可能的理由是什么)。 任务:基于以下 K 线和链上数据 [...用户粘贴的真实数据...],给我当前 BTC 市场结构的中性描述。
这个 prompt 把 ChatGPT 从"预测者"改成"描述者+反方",幻觉触发率从 17% 降到约 4%。这才是 AI 在加密场景该有的样子。
别再问 ChatGPT "BTC 明天涨不涨"。问它"如果 BTC 跌 10%,我的仓位会怎样、应该提前准备什么"——这是个具体到能行动的问题,AI 在这类问题上的输出比预测有用 10 倍。
前往 Binance 实测 → 看完整 Prompt 库 →
— PromptDeck, 2026-04-15
rel="sponsored"),通过链接注册我们可能获得佣金,不会增加您的任何费用。
完整披露 →