Przepuściliśmy ChatGPT przez kierunek BTC 200 razy — rozkład trafności + 7 przypadków halucynacji
Użyliśmy dokładnie tego samego promptu, przez 4 tygodnie, 7–8 razy dziennie — ChatGPT pełnił rolę analityka BTC w sumie 200 razy. Zmierzyliśmy trafność kierunku, spójność informacji oraz częstotliwość halucynacji, a do tego ręcznie oznaczyliśmy 7 charakterystycznych przypadków „czerwono-zielonych halucynacji”. Liczby nie wyglądają ładnie — ale są uczciwsze niż marketingowe hasła w stylu „AI trafia kierunek w 95%”.
1. Jak przebiegał eksperyment #
Cel projektu: maksymalnie wyeliminować „przypadkowy fart”. Przy 10 powtórzeniach nawet ślepe zgadywanie trafia 5 razy. Chcieliśmy zobaczyć, czy w próbie 200 powtórzeń ChatGPT realnie odbiega od coin flipa, czy nie.
Prompt był stały — zmienialiśmy tylko datę. Brzmi tak:
Jesteś doświadczonym analitykiem rynku kryptowalut. Na podstawie publicznej struktury rynku BTC na dzień {DATE} (formacje świecowe, dane on-chain, kontekst makro)
podaj najbardziej prawdopodobny kierunek BTC w najbliższych 48 godzinach („long” / „short” / „konsolidacja”) oraz 3 kluczowe powody.
Nie owijaj w bawełnę — wskaż jeden konkretny kierunek.
Procedura: codziennie pięć uruchomień o 09:00 / 12:00 / 15:00 / 18:00 / 21:00 czasu nowojorskiego, plus 2–3 losowe wstawki — łącznie 200 powtórzeń. Każde uruchomienie w nowej sesji (czysty kontekst), z wyłączonym trybem online (żeby różne newsy w różnych momentach nie zaszumiały próby). Każde wyjście archiwowane, a po 48 godzinach ręcznie porównywane z notowaniami Binance BTCUSDT.
Zasady oceny:
- „Long” + zamknięcie BTC po 48 h ≥ 99,5% ceny wejściowej → trafione (tolerancja szumu 0,5%)
- „Short” + zamknięcie BTC po 48 h ≤ 100,5% ceny wejściowej → trafione
- „Konsolidacja” + zamknięcie BTC po 48 h w przedziale ±2% → trafione
- Halucynacja: wyjście zawiera jawnie błędne informacje (zmyślone dane on-chain, fikcyjne dane ETF, nieistniejące zdarzenia giełdowe) → oznaczane osobno
2. Liczby po 200 uruchomieniach #
| Wskaźnik | Wartość | Komentarz |
|---|---|---|
| Liczba uruchomień | 200 | 4 tygodnie × 50 |
| Trafność kierunku | 53,0% | 106/200 — blisko coin flipa |
| Udział „long” | 48,5% | 97/200 |
| Udział „short” | 31,0% | 62/200 |
| Udział „konsolidacja” | 20,5% | 41/200 |
| Trafność „long” | 59,8% | 58/97 (w tym okresie BTC był ogólnie wzrostowy) |
| Trafność „short” | 37,1% | 23/62 |
| Trafność „konsolidacji” | 61,0% | 25/41 |
| Spójność tego samego promptu | 72% | z 5 uruchomień w tym samym dniu min. 4 dają ten sam kierunek |
| Częstotliwość halucynacji | 17% | 34/200 zawiera weryfikowalne zmyślenia |
Trzy rzeczy warte osobnego komentarza. Trafność „long” jest wyższa niż „short” — nie dlatego, że ChatGPT jest mądry, tylko dlatego, że w tym okresie BTC szedł generalnie do góry. W próbie z przewagą wzrostów strategia „zawsze long” sama z siebie wykręca 55–60% trafności. Trafność „short” jest paradoksalnie najniższa (37,1%) — co znaczy, że AI systematycznie kuleje przy wskazywaniu okazji spadkowych. 17% halucynacji oznacza, że co szóste wyjście zawiera jawnie błędne informacje — i to jest prawdziwa czerwona kartka.
3. Co naprawdę oznacza 53% trafności kierunku #
53% brzmi „odrobinę lepiej niż rzut monetą”. Ale jest tu kilka pułapek:
Po pierwsze — 53% to nie 60% ani 70%. Traktowanie tego jako dowodu, że „AI ocenia BTC lepiej niż ja”, jest błędem. 50% to bazowy poziom braku informacji, a przedział ufności dla 53% w próbie 200 wynosi grubo licząc ±7 punktów procentowych — więc teza „AI istotnie bije rzut monetą” statystycznie po prostu się nie broni.
Po drugie — różnica między trafnością „long” 59,8% a „short” 37,1% nie jest przewagą AI, tylko skażeniem próby wzrostowym rynkiem. Gdybyś powtórzył ten eksperyment w bessie 2022, proporcje by się odwróciły (short by trafiał, long nie). „Trafność” AI w różnych fazach rynku po prostu pływa — i to jest sedno.
Po trzecie — spójność tego samego promptu wynosi tylko 72%. Zadasz to samo pytanie 5 razy, a w 28% przypadków piąte uruchomienie wskaże kierunek odwrotny do czterech pierwszych. To losowość samplingu LLM, nie żadne „dynamiczne myślenie” ChatGPT. Warto pokazać tę liczbę nowicjuszom — kiedy ktoś wrzuca na grupę zrzut „ChatGPT znów long BTC”, oglądają jedno wyjście z pięciu.
4. 7 charakterystycznych przypadków halucynacji #
Z 34 halucynacji wybraliśmy 7 typowych, posortowanych według „skali szkód”:
| # | Data | Treść halucynacji | Stan faktyczny | Szkoda |
|---|---|---|---|---|
| 1 | 2026-03-22 | „Spot BTC ETF BlackRock — wczorajszy napływ netto 1,24 mld USD” | W rzeczywistości tego dnia odpływ netto 80 mln | wysoka |
| 2 | 2026-04-01 | „Dane on-chain pokazują transfer 5000+ BTC z adresów wielorybów dziś” | Brak odpowiednich zapisów w Glassnode / Whale Alert | wysoka |
| 3 | 2026-03-28 | „Coinbase wprowadził kontrakt futures XYZ” (XYZ nie istnieje) | Coinbase nie ma takiego kontraktu | średnia |
| 4 | 2026-04-05 | „Średni dzienny wolumen 28,7 mld USD” (precyzja do miliarda zmyślona) | Realnie ok. 20 mld — AI dorobiło precyzyjną liczbę | średnia |
| 5 | 2026-03-19 | „BTC przebił 200-tygodniową średnią kroczącą” | BTC funkcjonował powyżej 200WMA od pół roku | średnia |
| 6 | 2026-04-08 | „Przewodniczący Fed wygłosił w tym tygodniu gołębie przemówienie” (żadnego nie było) | W tym tygodniu brak istotnych wystąpień Fed | wysoka |
| 7 | 2026-04-11 | „MicroStrategy dokupiło 8 400 BTC” | W tym tygodniu brak komunikatu o zakupie | wysoka |
Najgroźniejsze są przypadki 1, 6 i 7 — AI używa „konkretnych wartości do miliarda, do firmy, do dnia”, przez co zmyślenia brzmią szczególnie wiarygodnie. Kiedy czytasz „napływ ETF BlackRock 1,24 mld USD”, mózg odruchowo to akceptuje, bo konkretne liczby są w naszej głowie zapisane jako „już zweryfikowane”. A LLM bez problemu wymyśli konkretną liczbę z dowolną precyzją. To najbardziej podstępny tryb porażki AI w kontekście finansowym.
5. Jak weryfikujemy #
Procedura nie jest skomplikowana, ale musi wejść w nawyk. Pracujemy w 3 krokach:
Krok pierwszy: każda „konkretna liczba” musi mieć źródło. Napływy ETF → Farside Investors; wieloryby on-chain → Whale Alert + Glassnode; wolumen → CoinGecko / sam Binance; pozycje spółek giełdowych → strony IR firmy lub dokumenty SEC. Każda liczba podana przez AI, której nie znajdziesz u źródła w 3 minuty, traktowana jest jako nieistniejąca.
Krok drugi: każde „zdarzenie” musi mieć znacznik czasu. AI mówi „w zeszłym tygodniu gołębie przemówienie Fed” — wchodzimy w kalendarz na federalreserve.gov i sprawdzamy, czy w tamtym tygodniu w ogóle coś było. AI mówi „Coinbase wprowadził kontrakt X” — szukamy w ogłoszeniach produktowych Coinbase. Halucynacje na poziomie zdarzeń wyłapuje się najłatwiej, bo źródła zewnętrzne są twarde.
Krok trzeci: to samo pytanie minimum 3 razy. Najprostsza i najskuteczniejsza zasada. Pojedyncze wyjście może być szczytem halucynacji, ale część wspólna trzech wyjść jest dużo stabilniejsza. Jeśli trzy uruchomienia wskazują ten sam kierunek i te same kluczowe liczby — wiarygodność mocno rośnie. Dlatego wskaźnik „spójność tego samego promptu” w zakresie 4–5 powtórzeń jest najbardziej użyteczny.
6. Wnioski i działający prompt #
Wniosek jest krótki: do zadania „krótkoterminowa prognoza kierunku BTC” ChatGPT się nie nadaje. Trafność 53% nie odbiega istotnie od losowości, a 17% halucynacji skazi twoje ramy decyzyjne.
ChatGPT ma jednak swoje miejsce w analizie krypto — tylko nie to. Sprawdza się przy:
- Zlepianiu wielu źródeł newsowych w jedno streszczenie (pod warunkiem, że to ty dostarczasz materiały)
- Wyjaśnianiu pojęć technicznych (Layer 2 / restaking / EigenLayer)
- Strukturyzacji twojego istniejącego pomysłu i szukaniu luk („zamierzam wziąć pozycję X na Y BTC — gdzie największe ryzyko?”)
- Tłumaczeniu fragmentów whitepaperów, budowaniu bibliotek promptów
Później napisaliśmy wersję promptu „anty-halucynacyjną” — używamy jej jako otwarcia w naszej procedurze AI selekcji koszyka D. Pełna biblioteka jest w Bibliotece promptów →. Tu krótki fragment otwarcia:
Zasady: 1. Nie podawaj konkretnych liczb — chyba że dostarczę je w inpucie. 2. Nie prognozuj „wzrostu” ani „spadku” — opisuj wyłącznie aktualną strukturę. 3. Każdy cytat zaczynaj od „według [niezweryfikowanego przeze mnie] …”. 4. Jeśli nie jesteś pewien — mów „nie wiem”. 5. Podaj 3 hipotezy odwrotne (jeśli moje założenie jest błędne — jakie są najbardziej prawdopodobne powody?). Zadanie: na podstawie poniższych danych świecowych i on-chain [… realne dane wklejone przez użytkownika …] daj neutralny opis aktualnej struktury rynku BTC.
Ten prompt zmienia ChatGPT z „prognosty” w „opisującego + adwokata diabła” — częstotliwość halucynacji spada z 17% do około 4%. I to jest forma, w której AI ma sens w krypto.
Przestań pytać ChatGPT „czy BTC pójdzie jutro w górę”. Pytaj „jeśli BTC spadnie 10%, co stanie się z moją pozycją i co powinienem przygotować zawczasu” — to konkretne pytanie, na które można działać, a wyjście AI jest tu 10× bardziej użyteczne niż prognoza.
Sprawdź na Binance → Cała biblioteka promptów →
— PromptDeck, 2026-04-15
rel="sponsored") — rejestrując się przez nasz link możemy otrzymać prowizję, co nie wpływa na twoje opłaty rejestracyjne ani prowizje transakcyjne.
Pełne ujawnienie →