评测方法学 · 我们怎么评估 AI 工具、怎么标注数据

METHODOLOGY · 评测方法学 我们怎么评估 AI 工具、怎么标注数据 评分维度 · 引用源等级 · 示意数据标注

这页说明本站怎么评估 AI 工具、用哪些维度打分、引用源怎么分级,以及文章里的示意性数据是怎么标注的。能核实的我们都给出方式,能质疑的也欢迎质疑。

为什么写这页 #

很多 affiliate 站会打出「实测 N 天」「N+ 次」这种精确数字当卖点,但读者很难核对是怎么测的、谁测的、能不能查。我们选择不用这种伪精确话术。

本站文章里出现的回报率、准确率、滑点、次数等量化数字,除非明确注明来源,否则一律是"示意性举例"——用来说明方法、量级和判断逻辑,不代表某个真实账户的实际成绩。这页解释我们的评估框架和数据标注规则。如果你觉得有漏洞,邮件告诉我们:[email protected]

文章里的数字是什么性质 #

本站很多文章(尤其是"实战日志"里的复盘、对照、跟踪类内容)会用具体数字来讲清一个方法或一种现象。这些数字的性质是:

反过来,正文里引用的客观事实型数字(费率、TVL、价格、API 限制、官方政策)必须能链接到下面的一级或二级来源,否则不写。

「7 款主流 AI 工具」清单 #

  1. ChatGPT(GPT-4o / GPT-4-turbo / o1-mini 三档分开计)
  2. Claude(Sonnet 4.x / Opus 4.x)
  3. Gemini(2.x Pro)
  4. Perplexity(Sonar Large)
  5. Grok(grok-3,主要测 X 舆情)
  6. DeepSeek(V3 / R1)
  7. Kimi(k2 长上下文)

不包含交易所原生 AI(Binance AI Insights / Bybit Copilot 等)和小众包装站,那些单独写成文章。

评分用哪些维度 #

评估一款 AI 工具时,我们沿用一套固定维度(每项 1–5 分),由编辑打分、另一名编辑复核:

文章里给出的工具评分是按这套维度做出的相对判断,用来表达"谁更稳、谁更适合哪类任务",具体分值仅作示意。

引用源等级 #

正文里出现的所有客观事实型数字(费率、TVL、价格、API limit)都必须能 link 到一级或二级。三级内容只能用在判断、方法说明或示意性举例里,且必须标注清楚。

我们承认做不到的事 #

版本 #

最后更新:2026-05-18
下一次预计复核时间:2026-08。如果你看完想质疑或补充,邮件 [email protected],我们会把质疑记进版本日志。

— PromptDeck