Kami Jalankan ChatGPT untuk Arah BTC 200 Kali — Distribusi Akurasi + 7 Kasus Halusinasi
Kami pakai satu set prompt yang persis sama, selama 4 minggu, 7-8 kali sehari — dan menjalankan ChatGPT sebagai analis BTC sebanyak 200 kali. Kami statistikkan akurasi arah, konsistensi informasi, tingkat halusinasi, dan menandai 7 kasus "halusinasi merah-hijau" secara manual. Angkanya tidak bagus, tapi lebih jujur daripada gimmick "AI prediksi naik-turun 95% akurat".
1. Bagaimana Eksperimen Dilakukan #
Tujuan desain: menghilangkan "keberuntungan kebetulan" semaksimal mungkin. Kalau hanya jalan 10 kali, tebak-tebakan murni saja bisa benar 5 kali. Yang ingin kami lihat adalah: di sampel besar 200 kali, apakah penilaian arah dari ChatGPT memang mendekati coin flip atau tidak.
Prompt-nya tetap, hanya tanggal yang berganti. Berikut teks aslinya:
Anda adalah analis trading kripto senior. Berdasarkan struktur pasar BTC yang tersedia publik per {DATE}
(pola candlestick, data on-chain, latar makro), berikan arah BTC yang paling mungkin untuk 48 jam ke depan
("bullish" / "bearish" / "sideways") dan tiga alasan utama.
Jangan ambigu, harus berikan satu arah yang jelas.
Cara menjalankan: setiap hari pukul 09:00 / 12:00 / 15:00 / 18:00 / 21:00 waktu New York lima kali, ditambah 2-3 kali acak — total 200 kali. Setiap kali sesi dibuka baru (konteks dikosongkan), mode browsing dimatikan (agar tidak terkontaminasi berita berbeda antar-waktu). Tiap output diarsipkan, lalu setelah 48 jam dibandingkan secara manual dengan grafik Binance BTCUSDT untuk diberi label.
Aturan penilaian:
- "Bullish" + harga close BTC 48 jam kemudian ≥ 99,5% harga saat input → dianggap benar (toleransi noise 0,5%)
- "Bearish" + harga close BTC 48 jam kemudian ≤ 100,5% harga saat input → dianggap benar
- "Sideways" + harga close BTC 48 jam kemudian dalam rentang ±2% → dianggap benar
- Penilaian halusinasi: output memuat informasi yang jelas salah (data on-chain rekaan, data ETF fiktif, peristiwa exchange yang tidak ada) → ditandai tersendiri
2. Angka dari 200 Kali Jalan #
| Indikator | Nilai | Keterangan |
|---|---|---|
| Total run | 200 | 4 minggu × 50 kali |
| Akurasi arah | 53,0% | 106/200, mendekati coin flip |
| Porsi "bullish" | 48,5% | 97/200 |
| Porsi "bearish" | 31,0% | 62/200 |
| Porsi "sideways" | 20,5% | 41/200 |
| Akurasi bullish | 59,8% | 58/97 (periode ini BTC cenderung naik) |
| Akurasi bearish | 37,1% | 23/62 |
| Akurasi sideways | 61,0% | 25/41 |
| Self-consistency prompt sama | 72% | 5 run sehari, minimal 4 hasil searah |
| Tingkat halusinasi | 17% | 34/200 mengandung informasi rekaan yang dapat diverifikasi |
Ada tiga hal yang patut dibahas terpisah. Akurasi bullish lebih tinggi dari bearish — itu bukan karena ChatGPT hebat, melainkan karena BTC dalam periode itu memang lebih banyak naik. Di sampel yang naiknya lebih banyak dari turunnya, strategi "selalu bilang bullish" pun bisa menang sekitar 55-60%. Akurasi "bearish" justru terendah (37,1%), artinya AI secara sistematis lebih lemah saat menilai peluang penurunan. Tingkat halusinasi 17% — artinya 1 dari 6 output mengandung informasi yang jelas salah. Inilah kartu merah yang sebenarnya.
3. Arti Akurasi Arah 53% #
Angka 53% terdengar "sedikit lebih baik dari lempar koin". Tapi ada beberapa jebakan:
Pertama, 53% bukan 60%, bukan juga 70%. Menganggap angka ini sebagai bukti "AI lebih mampu menilai BTC daripada saya" itu keliru. 50% adalah baseline nol-informasi; pada 200 sampel, interval kepercayaan untuk 53% kira-kira ±7 poin persentase (perkiraan kasar) — artinya, klaim "AI secara signifikan lebih baik daripada lempar koin" sebenarnya tidak terbukti secara statistik.
Kedua, selisih akurasi bullish 59,8% vs bearish 37,1% itu bukan keunggulan AI, tapi kontaminasi sampel pasar yang sedang naik. Kalau Anda mengulang eksperimen ini pada periode bear market 2022, rasionya akan terbalik (bearish benar, bullish salah). "Akurasi" AI berfluktuasi tergantung kondisi pasar — inilah inti masalahnya.
Ketiga, self-consistency dengan prompt yang sama hanya 72%. Pertanyaan yang sama, ditanya 5 kali, ada peluang 28% bahwa run ke-5 akan berlawanan arah dengan 4 run sebelumnya. Itu adalah keacakan sampling LLM, bukan ChatGPT "menilai secara dinamis". Memberitahu pemula angka ini sangat berguna — ketika orang lain memamerkan screenshot "ChatGPT lagi-lagi bullish BTC" di grup, yang mereka lihat sebenarnya hanya 1 dari 5 run.
4. 7 Kasus Halusinasi Khas #
Dari 34 kasus halusinasi, kami pilih 7 yang paling khas, diurutkan berdasarkan "tingkat bahaya":
| # | Tanggal | Isi halusinasi | Fakta sebenarnya | Bahaya |
|---|---|---|---|---|
| 1 | 2026-03-22 | "ETF BTC spot BlackRock kemarin net inflow USD 1,24 miliar" | Net outflow hari itu sebenarnya USD 80 juta | Tinggi |
| 2 | 2026-04-01 | "Data on-chain menunjukkan 5.000+ BTC dari alamat whale ditransfer hari ini" | Glassnode/Whale Alert tidak punya catatan terkait | Tinggi |
| 3 | 2026-03-28 | "Coinbase meluncurkan kontrak futures XYZ" (XYZ tidak ada) | Coinbase tidak punya kontrak tersebut | Sedang |
| 4 | 2026-04-05 | "Volume harian rata-rata USD 28,7 miliar" (angka presisi karangan) | Sebenarnya sekitar USD 20 miliar, AI mengarang angka presisi | Sedang |
| 5 | 2026-03-19 | "BTC menembus moving average 200 minggu" | Saat itu BTC sudah di atas MA 200 minggu selama setengah tahun | Sedang |
| 6 | 2026-04-08 | "Ketua The Fed berpidato dovish minggu ini" (sebenarnya tidak ada pidato terkait) | Tidak ada pernyataan penting The Fed di minggu tersebut | Tinggi |
| 7 | 2026-04-11 | "MicroStrategy menambah 8.400 BTC" | Tidak ada pengumuman pembelian di minggu itu | Tinggi |
Kasus 1, 6, dan 7 yang paling berbahaya — AI memakai fakta fiktif "presisi sampai miliaran, sampai nama perusahaan spesifik, sampai tanggal tertentu" sehingga output tampak luar biasa kredibel. Pembaca yang melihat "ETF BlackRock inflow USD 1,24 miliar" akan refleks percaya, karena itu angka spesifik, dan di dalam alam pikir kita angka spesifik = "sudah diverifikasi". Padahal LLM justru bisa mengarang angka spesifik di tingkat presisi apa pun. Inilah mode kegagalan AI yang paling licik di skenario keuangan.
5. Cara Kami Memverifikasi #
Alur verifikasi tidak rumit, tapi harus jadi kebiasaan. Kami pakai metode 3 langkah:
Langkah pertama, semua "angka spesifik" wajib punya sumber pendamping. ETF inflow → Farside Investors; whale on-chain → Whale Alert + Glassnode; volume perdagangan → CoinGecko / Binance sendiri; kepemilikan perusahaan publik → halaman IR perusahaan atau dokumen SEC. Angka apa pun yang diberikan AI, kalau dalam 3 menit Anda tidak menemukan sumbernya, anggap saja tidak ada.
Langkah kedua, semua "peristiwa" wajib punya timestamp. AI bilang "minggu lalu Ketua The Fed pidato dovish" — kami buka kalender di federalreserve.gov untuk cek minggu itu memang ada pidato atau tidak. AI bilang "Coinbase meluncurkan kontrak X" — kami cari di halaman pengumuman produk Coinbase. Halusinasi tingkat peristiwa paling mudah dikenali, karena sumber eksternalnya solid.
Langkah ketiga, pertanyaan yang sama jalankan minimal 3 kali. Aturan ini paling sederhana sekaligus paling efektif. Satu run mungkin saja merupakan puncak halusinasi, tapi irisan dari 3 run jauh lebih stabil. Kalau 3 run searah dan angka-angka kunci konsisten, kredibilitas output melonjak signifikan. Inilah alasan indikator self-consistency kami paling bermanfaat di kisaran 4-5 dari 5.
6. Kesimpulan & Prompt Siap Pakai #
Kesimpulannya singkat: ChatGPT tidak bisa dipakai untuk tugas "prediksi arah BTC jangka pendek". Akurasi 53% tidak signifikan melampaui acak, dan halusinasi 17% akan mencemari kerangka penilaian Anda.
Tapi ChatGPT punya tempatnya sendiri dalam analisis kripto — hanya saja bukan di tempat ini. Ia cocok untuk:
- Merangkum beberapa sumber berita ke dalam satu ringkasan (asalkan Anda memberikan bahan sumbernya)
- Menjelaskan konsep teknis (Layer2 / Restaking / EigenLayer)
- Menstrukturkan ide yang sudah Anda bentuk dan mencari celahnya ("saya akan ambil posisi X koin Y, apa risiko terbesarnya")
- Menerjemahkan paragraf whitepaper, membangun prompt library
Setelahnya kami menulis prompt versi "anti-halusinasi" untuk dipasang di awal alur seleksi koin AI kami (basket D). Prompt library lengkap ada di Prompt Library →. Berikut potongan pembukanya sebagai contoh:
Aturan: 1. Jangan berikan angka spesifik, kecuali pengguna sudah menyertakannya di input. 2. Jangan prediksi "naik" atau "turun", hanya deskripsikan struktur saat ini. 3. Setiap kutipan harus diawali dengan "menurut [yang belum saya verifikasi] ...". 4. Jika tidak yakin, katakan "saya tidak tahu". 5. Berikan 3 hipotesis berlawanan (jika pandangan saya keliru, apa alasan paling mungkin). Tugas: berdasarkan data candlestick dan on-chain berikut [...data riil yang ditempel pengguna...], berikan deskripsi netral tentang struktur pasar BTC saat ini.
Prompt ini mengubah ChatGPT dari "peramal" menjadi "deskriptor + lawan pendapat", dan menurunkan tingkat halusinasi dari 17% ke sekitar 4%. Inilah bentuk seharusnya AI dipakai di skenario kripto.
Berhenti tanya ChatGPT "BTC besok naik atau tidak". Tanyakan "kalau BTC turun 10%, apa yang terjadi pada posisi saya, apa yang harus saya siapkan sebelumnya" — ini pertanyaan spesifik yang bisa ditindaklanjuti. Output AI untuk pertanyaan jenis ini 10 kali lebih berguna daripada prediksi.
Coba di Binance → Lihat Prompt Library Lengkap →
— AI Trade Lab, 2026-04-15
rel="sponsored") — jika Anda mendaftar via tautan tersebut, kami mungkin menerima komisi, tanpa biaya tambahan apa pun untuk Anda.
Pengungkapan lengkap →