研究方法学 · 60 天 / 200+ 任务 是怎么来的

METHODOLOGY · 可核实方法学 60 天测试时长 200+ 任务怎么算的 数据结构 · 评分表 · 引用源等级

首页 hero 上写着「7 款 AI 工具」「30+ Prompt 模板」「60d 实测时长」「200+ 测试任务次数」。这页告诉你每个数字怎么来。能复核的我们都给出方式。

为什么写这页 #

看到 affiliate 站打出「实测 N 天」「N+ 次」这种数字,大部分时候是营销话术。我们也写过类似句子,但读者有权问:是怎么测的、谁测的、能不能查。

这页用来回答这个问题。如果你看完觉得我们方法学有漏洞,邮件告诉我们:privacy@bnhous.com,下一次复核会把你的反馈加进去。

「60 天实测时长」是怎么算的 #

测试窗口:2026-03-15 到 2026-05-14,共 61 天。我们对外说 60d 是因为其中有 1 天因 API 端配额问题没有产生有效任务(2026-04-22)。

「200+ 任务次数」清单结构 #

截至 2026-05-14 共记录 237 条有效任务。按类型拆:

任务类型次数用于
BTC/ETH 走势分析87《ChatGPT 分析 BTC 200 次》
Rug Pull 提前识别42《AI 识别 3 个 Rug Pull》
AI 跟单 vs 人工跟单28《30 天 Binance 回测》
Auto-Invest 数据追踪31《跟踪 100 笔 Auto-Invest》
Grok 舆情指标测试22《Grok 舆情交易亏 12%》
跨工具一致性测试9跨文章共用
其他探索性任务18未对外发表
合计237

「200+」是保守说法,实际是 237。我们不写 237 是因为有 18 条探索性任务没对外发表,读者无法核对。

「7 款主流 AI 工具」清单 #

  1. ChatGPT(GPT-4o / GPT-4-turbo / o1-mini 三档分开计)
  2. Claude(Sonnet 4.x / Opus 4.x)
  3. Gemini(2.x Pro)
  4. Perplexity(Sonar Large)
  5. Grok(grok-3,主要测 X 舆情)
  6. DeepSeek(V3 / R1)
  7. Kimi(k2 长上下文)

不包含交易所原生 AI(Binance AI Insights / Bybit Copilot 等)和小众包装站,那些单独写成文章。

评分表怎么打的 #

每条任务由 1 名编辑打分 + 1 名编辑复核。维度(每项 1–5 分):

评分表原 csv 不公开(含编辑实名),脱敏 markdown 版可邮件索取。

引用源等级 #

正文里出现的所有具体数字(费率、TVL、价格、API limit)都必须能 link 到一级或二级。三级数据只能用在「本站实测」类目里,且必须给出方法。

我们承认做不到的事 #

版本 #

最后更新:2026-05-18
下一次预计复核时间:2026-08。如果你看完想质疑或补充,邮件 privacy@bnhous.com,我们会把质疑记进版本日志。

— PromptDeck