评测方法学 · 我们怎么评估 AI 工具、怎么标注数据
这页说明本站怎么评估 AI 工具、用哪些维度打分、引用源怎么分级,以及文章里的示意性数据是怎么标注的。能核实的我们都给出方式,能质疑的也欢迎质疑。
为什么写这页 #
很多 affiliate 站会打出「实测 N 天」「N+ 次」这种精确数字当卖点,但读者很难核对是怎么测的、谁测的、能不能查。我们选择不用这种伪精确话术。
本站文章里出现的回报率、准确率、滑点、次数等量化数字,除非明确注明来源,否则一律是"示意性举例"——用来说明方法、量级和判断逻辑,不代表某个真实账户的实际成绩。这页解释我们的评估框架和数据标注规则。如果你觉得有漏洞,邮件告诉我们:[email protected]。
文章里的数字是什么性质 #
本站很多文章(尤其是"实战日志"里的复盘、对照、跟踪类内容)会用具体数字来讲清一个方法或一种现象。这些数字的性质是:
- 示意性:用来表达量级和逻辑(比如"短期方向准确率接近抛硬币""慢速 rug 几乎检测不出"),而不是某次真实测试的精确记录;
- 有标注:这类内容会在正文或披露区写明"数字为示意、不代表真实账户";
- 不可被当作收益承诺:任何示意回报都不构成投资建议,也不预示你能复现。
反过来,正文里引用的客观事实型数字(费率、TVL、价格、API 限制、官方政策)必须能链接到下面的一级或二级来源,否则不写。
「7 款主流 AI 工具」清单 #
- ChatGPT(GPT-4o / GPT-4-turbo / o1-mini 三档分开计)
- Claude(Sonnet 4.x / Opus 4.x)
- Gemini(2.x Pro)
- Perplexity(Sonar Large)
- Grok(grok-3,主要测 X 舆情)
- DeepSeek(V3 / R1)
- Kimi(k2 长上下文)
不包含交易所原生 AI(Binance AI Insights / Bybit Copilot 等)和小众包装站,那些单独写成文章。
评分用哪些维度 #
评估一款 AI 工具时,我们沿用一套固定维度(每项 1–5 分),由编辑打分、另一名编辑复核:
- 事实正确性——价格 / 链上数据 / 时间是否准确(必须可链到 CoinGecko / DefiLlama / Etherscan);
- 幻觉率——是否编造不存在的项目、API、合约地址;
- 逻辑完整——推理是否前后一致;
- 可操作性——给到具体的下一步还是空话;
- 风险提示——是否主动提风险(这项 AI 给越高不代表越好,但用来评估"是否专业向")。
文章里给出的工具评分是按这套维度做出的相对判断,用来表达"谁更稳、谁更适合哪类任务",具体分值仅作示意。
引用源等级 #
- 一级:交易所官方文档、官方 API 响应、SEC / 监管文件、链上原始交易(Etherscan / Tronscan / Solscan)
- 二级:CoinGecko、DefiLlama、Glassnode、Dune Analytics、CryptoCompare
- 三级:编辑基于经验做出的判断或示意性举例(必须在文章中明确标注「编辑评估」或「示意」)
正文里出现的所有客观事实型数字(费率、TVL、价格、API limit)都必须能 link 到一级或二级。三级内容只能用在判断、方法说明或示意性举例里,且必须标注清楚。
我们承认做不到的事 #
- 不能保证每条 AI 输出都能 100% 复现(GPT 等模型采样有随机性);
- 不能保证现在对各模型的判断在未来仍然成立——市场会变,模型会更新;
- 不会把示意性数字包装成"真实账户战绩"——这类数字一律只用于说明方法和量级。
版本 #
最后更新:2026-05-18
下一次预计复核时间:2026-08。如果你看完想质疑或补充,邮件 [email protected],我们会把质疑记进版本日志。
— PromptDeck