研究方法学 · 60 天 / 200+ 任务 是怎么来的
首页 hero 上写着「7 款 AI 工具」「30+ Prompt 模板」「60d 实测时长」「200+ 测试任务次数」。这页告诉你每个数字怎么来。能复核的我们都给出方式。
为什么写这页 #
看到 affiliate 站打出「实测 N 天」「N+ 次」这种数字,大部分时候是营销话术。我们也写过类似句子,但读者有权问:是怎么测的、谁测的、能不能查。
这页用来回答这个问题。如果你看完觉得我们方法学有漏洞,邮件告诉我们:privacy@bnhous.com,下一次复核会把你的反馈加进去。
「60 天实测时长」是怎么算的 #
测试窗口:2026-03-15 到 2026-05-14,共 61 天。我们对外说 60d 是因为其中有 1 天因 API 端配额问题没有产生有效任务(2026-04-22)。
- 每天 06:00–22:00(UTC+8)我们跑 2–4 个固定 prompt 任务,覆盖 BTC / ETH / SOL / 一只小币种;
- 每周日额外跑 1 次「跨工具一致性」任务,让 7 款 AI 回答同一问题;
- 数据存在内部 sqlite 表(task_id / model / prompt_id / response / scored_by / score_rubric / ts_utc8),不公开原表是因为部分截图含交易所账户 ID。脱敏后的样本表会按读者邮件请求逐项发送。
「200+ 任务次数」清单结构 #
截至 2026-05-14 共记录 237 条有效任务。按类型拆:
| 任务类型 | 次数 | 用于 |
|---|---|---|
| BTC/ETH 走势分析 | 87 | 《ChatGPT 分析 BTC 200 次》 |
| Rug Pull 提前识别 | 42 | 《AI 识别 3 个 Rug Pull》 |
| AI 跟单 vs 人工跟单 | 28 | 《30 天 Binance 回测》 |
| Auto-Invest 数据追踪 | 31 | 《跟踪 100 笔 Auto-Invest》 |
| Grok 舆情指标测试 | 22 | 《Grok 舆情交易亏 12%》 |
| 跨工具一致性测试 | 9 | 跨文章共用 |
| 其他探索性任务 | 18 | 未对外发表 |
| 合计 | 237 | — |
「200+」是保守说法,实际是 237。我们不写 237 是因为有 18 条探索性任务没对外发表,读者无法核对。
「7 款主流 AI 工具」清单 #
- ChatGPT(GPT-4o / GPT-4-turbo / o1-mini 三档分开计)
- Claude(Sonnet 4.x / Opus 4.x)
- Gemini(2.x Pro)
- Perplexity(Sonar Large)
- Grok(grok-3,主要测 X 舆情)
- DeepSeek(V3 / R1)
- Kimi(k2 长上下文)
不包含交易所原生 AI(Binance AI Insights / Bybit Copilot 等)和小众包装站,那些单独写成文章。
评分表怎么打的 #
每条任务由 1 名编辑打分 + 1 名编辑复核。维度(每项 1–5 分):
- 事实正确性——价格 / 链上数据 / 时间是否准确(必须可链到 CoinGecko / DefiLlama / Etherscan);
- 幻觉率——是否编造不存在的项目、API、合约地址;
- 逻辑完整——推理是否前后一致;
- 可操作性——给到具体的下一步还是空话;
- 风险提示——是否主动提风险(这项 AI 给越高不代表越好,但用来评估"是否专业向")。
评分表原 csv 不公开(含编辑实名),脱敏 markdown 版可邮件索取。
引用源等级 #
- 一级:交易所官方文档、官方 API 响应、SEC / 监管文件、链上原始交易(Etherscan / Tronscan / Solscan)
- 二级:CoinGecko、DefiLlama、Glassnode、Dune Analytics、CryptoCompare
- 三级:编辑自己跑出来的数据(必须在文章中明确标注「编辑实测」)
正文里出现的所有具体数字(费率、TVL、价格、API limit)都必须能 link 到一级或二级。三级数据只能用在「本站实测」类目里,且必须给出方法。
我们承认做不到的事 #
- 不能公开内部 sqlite 原表(含交易所账户截图、API key 哈希、编辑实名);
- 不能保证每条 AI 输出都能 100% 复现(GPT 等模型采样有随机性);
- 不能保证 60 天结论在未来 60 天仍然成立——市场会变,模型会更新;
- 「200+ 次」是截至 2026-05-14 的数字,不代表持续累积。下一次复核(2026-08 前后)我们会更新。
版本 #
最后更新:2026-05-18
下一次预计复核时间:2026-08。如果你看完想质疑或补充,邮件 privacy@bnhous.com,我们会把质疑记进版本日志。
— PromptDeck