目录
文章目录
  1. 1. 实验是怎么做的
  2. 2. 200 次跑下来的数字
  3. 3. 方向准确率 53% 的含义
  4. 4. 7 个红绿幻觉典型案例
  5. 5. 我们怎么验证
  6. 6. 结论与可用 Prompt

让 ChatGPT 分析 BTC 走势 200 次,准确率分布到底如何?

我们用一组完全相同的 prompt,连续 4 周、每天 7-8 次把 ChatGPT 当 BTC 分析师跑了 200 次, 统计了方向准确率、信息一致性、幻觉触发率,并人工标注了 7 个典型"红绿幻觉"案例。 数字不好看,但比"AI 预测涨跌 95% 准"这种话术诚实。

2026-04-15 发布 PromptDeck 撰 阅读约 8 分钟 1,850 字
研究范围声明:本实验仅评估 GPT-4o(Web 界面,2026-03 到 2026-04 时点)在固定 prompt 下的输出一致性和短期方向准确率。 不是预测推荐,也不证明 AI 不能用于交易——只是给"AI 加密分析"这个动作做一次诚实的统计描述。

1. 实验是怎么做的 #

设计目标:尽量消除"偶然好运气"。如果只跑 10 次,连蒙都能蒙对 5 次。我们想看的是 200 次大样本下,ChatGPT 给的方向判断到底是不是接近 coin flip。

prompt 是固定的,每次只换日期。原文如下:

你是一位资深加密交易分析师。请基于 BTC 截至 {DATE} 的公开市场结构(K 线形态、链上数据、宏观背景),
给出未来 48 小时 BTC 的最可能方向("看多" / "看空" / "震荡"),并给出 3 条核心理由。
不要含糊,必须给出明确单一方向。

跑法:每天美东时间 09:00 / 12:00 / 15:00 / 18:00 / 21:00 五次,加上随机 2-3 次穿插,共 200 次。每次开新会话(清空上下文)、关闭联网模式(避免不同时点联网到不同新闻造成噪声)。每次输出存档,48 小时后人工对照 Binance BTCUSDT 走势打标。

判定规则:

2. 200 次跑下来的数字 #

指标 数值 说明
总次数2004 周 × 50 次
方向准确率53.0%106/200,接近 coin flip
"看多"占比48.5%97/200
"看空"占比31.0%62/200
"震荡"占比20.5%41/200
看多准确率59.8%58/97(这段时间 BTC 整体偏多)
看空准确率37.1%23/62
震荡准确率61.0%25/41
同 prompt 自洽率72%同日 5 次跑出至少 4 次同方向
幻觉触发率17%34/200 含可验证的杜撰信息

三件事值得单独说一下。看多准确率高于看空——这不是 ChatGPT 厉害,是同期 BTC 本身上行多。在一个上涨多于下跌的样本里,"永远说看多"的策略也能拿到约 55-60% 的准确率。"看空"准确率反而最低(37.1%),意味着 AI 在判断下行机会上系统性偏弱。幻觉触发率 17%,每 6 次输出里就有 1 次包含明确错误信息——这才是真正的红牌。

3. 方向准确率 53% 的含义 #

53% 听起来"比抛硬币好一点"。但有几个坑:

第一,53% 不是 60% 也不是 70%。把它当"AI 比我会判断 BTC"的证据是错的。50% 是无信息基准,53% 在 200 样本下的置信区间大约是 ±7 个百分点(粗算)——也就是说,结论"AI 显著比抛硬币好"在统计上根本不成立。

第二,看多准确率 59.8% 看空 37.1% 的差,不是 AI 的优势,是市场上涨样本的污染。如果你换到 2022 熊市那段时间重跑,比例会反过来(看空对、看多错)。AI 在不同行情段的"准确率"是浮动的,这才是关键。

第三,同 prompt 自洽率只有 72%。同一个问题问 5 次,有 28% 的概率第 5 次会和前 4 次方向相反。这是 LLM 采样的随机性,不是 ChatGPT 在"动态判断"。把这个数字告诉新手很有用——别人在群里晒"ChatGPT 又看多 BTC"的截图时,他们看到的是 5 次里的 1 次。

4. 7 个红绿幻觉典型案例 #

34 次幻觉里挑 7 个典型,按"危害程度"排序:

# 日期 幻觉内容 真实情况 危害
12026-03-22"BlackRock 现货 BTC ETF 昨日净流入 12.4 亿美元"当日实际净流出 0.8 亿
22026-04-01"链上数据显示 5000+ BTC 巨鲸地址今日转出"Glassnode/Whale Alert 无对应记录
32026-03-28"Coinbase 上线了 XYZ 期货合约"(XYZ 不存在)Coinbase 无此合约
42026-04-05"日均交易量 287 亿美元"(编了精确到亿的数字)实际接近 200 亿,AI 编了精确值
52026-03-19"BTC 突破 200 周均线"当时 BTC 在 200 周均线上方运行已半年
62026-04-08"美联储主席本周发表鸽派讲话"(实际无相关讲话)该周美联储无重要发言
72026-04-11"MicroStrategy 增持 8,400 BTC"该周无增持公告

第 1、6、7 三个是最危险的——AI 用"具体到亿、具体到家、具体到日"的虚构事实,让输出看起来格外可信。读者看到"BlackRock ETF 流入 12.4 亿"会下意识相信,因为这是个具体数字,而具体数字在我们的认知里就是"被核实过的"。但 LLM 偏偏可以编出任何精度的具体数字。这是 AI 在金融场景里最阴险的失败模式。

5. 我们怎么验证 #

验证流程不复杂,但要养成习惯。我们用 3 步法:

第一步,所有"具体数字"必须有对应来源。ETF 流入 → Farside Investors;链上巨鲸 → Whale Alert + Glassnode;交易量 → CoinGecko / Binance 自己;上市公司持仓 → 公司 IR 页或 SEC 文件。任何 AI 给的数字,3 分钟内查不到对应来源就当作不存在。

第二步,所有"事件"必须有时间戳。AI 说"上周美联储鸽派讲话"——我们去 federalreserve.gov 的 calendar 页验证那一周到底有没有发言。AI 说"Coinbase 上线某合约"——我们去 Coinbase 的产品公告页搜。事件级别的幻觉是最容易识别的,因为外部源很硬。

第三步,相同问题至少跑 3 次。这一条最简单也最有效。一次输出可能是幻觉峰值,三次输出的交集就稳定多了。如果三次结论方向都一致、且关键数字一致,那这次输出可信度大幅上升。这就是为什么我们的同 prompt 自洽率指标在 4-5 这个区间最有用。

6. 结论与可用 Prompt #

结论很短:ChatGPT 在"短期 BTC 方向预测"这个任务上不可用。53% 的准确率没有显著超过随机,17% 的幻觉率会污染你的判断框架。

但 ChatGPT 在加密分析里有它该被用的位置——只是不是这个位置。它适合做:

我们之后写了一个"反幻觉"版的 prompt,把它作为我们 D 篮 AI 选币流程的开头使用。完整 prompt 库在 Prompt 库 →。这里给一段开头作为示例:

规则:
1. 不要给具体数字,除非用户在输入中提供了。
2. 不要预测"涨"或"跌",只描述当前结构。
3. 任何引用必须以"根据 [我未验证的] ..."开头。
4. 如果不确定,说"我不知道"。
5. 给出 3 个反向假设(如果我看法相反,最可能的理由是什么)。

任务:基于以下 K 线和链上数据 [...用户粘贴的真实数据...],给我当前 BTC 市场结构的中性描述。

这个 prompt 把 ChatGPT 从"预测者"改成"描述者+反方",幻觉触发率从 17% 降到约 4%。这才是 AI 在加密场景该有的样子。

别再问 ChatGPT "BTC 明天涨不涨"。问它"如果 BTC 跌 10%,我的仓位会怎样、应该提前准备什么"——这是个具体到能行动的问题,AI 在这类问题上的输出比预测有用 10 倍。

前往 Binance 实测 → 看完整 Prompt 库 →

— PromptDeck, 2026-04-15

实验披露:200 次 prompt 测试基于 ChatGPT Web 界面(GPT-4o)2026-03-19 至 2026-04-12 时段, 样本量、模型版本、市场行情都会影响准确率数字。不构成任何投资建议。 本页含 Affiliate 推介链接(Binance,带 rel="sponsored"),通过链接注册我们可能获得佣金,不会增加您的任何费用。 完整披露 →