Przepuściliśmy ChatGPT przez kierunek BTC 200 razy — rozkład trafności + 7 przypadków halucynacji

Użyliśmy dokładnie tego samego promptu, przez 4 tygodnie, 7–8 razy dziennie — ChatGPT pełnił rolę analityka BTC w sumie 200 razy. Zmierzyliśmy trafność kierunku, spójność informacji oraz częstotliwość halucynacji, a do tego ręcznie oznaczyliśmy 7 charakterystycznych przypadków „czerwono-zielonych halucynacji”. Liczby nie wyglądają ładnie — ale są uczciwsze niż marketingowe hasła w stylu „AI trafia kierunek w 95%”.

Opublikowano 2026-04-15 Autor: PromptDeck Czas czytania ~8 minut 1 850 słów

Zakres badania: ten eksperyment ocenia wyłącznie GPT-4o (interfejs webowy, okno czasowe 2026-03 do 2026-04) pod kątem spójności wyjścia i krótkoterminowej trafności kierunku przy stałym prompcie. To nie jest rekomendacja prognozy ani dowód, że AI nie nadaje się do tradingu — to po prostu uczciwy opis statystyczny tego, co naprawdę robi „AI analiza krypto”.

1. Jak przebiegał eksperyment #

Cel projektu: maksymalnie wyeliminować „przypadkowy fart”. Przy 10 powtórzeniach nawet ślepe zgadywanie trafia 5 razy. Chcieliśmy zobaczyć, czy w próbie 200 powtórzeń ChatGPT realnie odbiega od coin flipa, czy nie.

Prompt był stały — zmienialiśmy tylko datę. Brzmi tak:

Jesteś doświadczonym analitykiem rynku kryptowalut. Na podstawie publicznej struktury rynku BTC na dzień {DATE} (formacje świecowe, dane on-chain, kontekst makro)
podaj najbardziej prawdopodobny kierunek BTC w najbliższych 48 godzinach („long” / „short” / „konsolidacja”) oraz 3 kluczowe powody.
Nie owijaj w bawełnę — wskaż jeden konkretny kierunek.

Procedura: codziennie pięć uruchomień o 09:00 / 12:00 / 15:00 / 18:00 / 21:00 czasu nowojorskiego, plus 2–3 losowe wstawki — łącznie 200 powtórzeń. Każde uruchomienie w nowej sesji (czysty kontekst), z wyłączonym trybem online (żeby różne newsy w różnych momentach nie zaszumiały próby). Każde wyjście archiwowane, a po 48 godzinach ręcznie porównywane z notowaniami Binance BTCUSDT.

Zasady oceny:

„Long” + zamknięcie BTC po 48 h ≥ 99,5% ceny wejściowej → trafione (tolerancja szumu 0,5%)
„Short” + zamknięcie BTC po 48 h ≤ 100,5% ceny wejściowej → trafione
„Konsolidacja” + zamknięcie BTC po 48 h w przedziale ±2% → trafione
Halucynacja: wyjście zawiera jawnie błędne informacje (zmyślone dane on-chain, fikcyjne dane ETF, nieistniejące zdarzenia giełdowe) → oznaczane osobno

2. Liczby po 200 uruchomieniach #

Wskaźnik	Wartość	Komentarz
Liczba uruchomień	200	4 tygodnie × 50
Trafność kierunku	53,0%	106/200 — blisko coin flipa
Udział „long”	48,5%	97/200
Udział „short”	31,0%	62/200
Udział „konsolidacja”	20,5%	41/200
Trafność „long”	59,8%	58/97 (w tym okresie BTC był ogólnie wzrostowy)
Trafność „short”	37,1%	23/62
Trafność „konsolidacji”	61,0%	25/41
Spójność tego samego promptu	72%	z 5 uruchomień w tym samym dniu min. 4 dają ten sam kierunek
Częstotliwość halucynacji	17%	34/200 zawiera weryfikowalne zmyślenia

Trzy rzeczy warte osobnego komentarza. Trafność „long” jest wyższa niż „short” — nie dlatego, że ChatGPT jest mądry, tylko dlatego, że w tym okresie BTC szedł generalnie do góry. W próbie z przewagą wzrostów strategia „zawsze long” sama z siebie wykręca 55–60% trafności. Trafność „short” jest paradoksalnie najniższa (37,1%) — co znaczy, że AI systematycznie kuleje przy wskazywaniu okazji spadkowych. 17% halucynacji oznacza, że co szóste wyjście zawiera jawnie błędne informacje — i to jest prawdziwa czerwona kartka.

3. Co naprawdę oznacza 53% trafności kierunku #

53% brzmi „odrobinę lepiej niż rzut monetą”. Ale jest tu kilka pułapek:

Po pierwsze — 53% to nie 60% ani 70%. Traktowanie tego jako dowodu, że „AI ocenia BTC lepiej niż ja”, jest błędem. 50% to bazowy poziom braku informacji, a przedział ufności dla 53% w próbie 200 wynosi grubo licząc ±7 punktów procentowych — więc teza „AI istotnie bije rzut monetą” statystycznie po prostu się nie broni.

Po drugie — różnica między trafnością „long” 59,8% a „short” 37,1% nie jest przewagą AI, tylko skażeniem próby wzrostowym rynkiem. Gdybyś powtórzył ten eksperyment w bessie 2022, proporcje by się odwróciły (short by trafiał, long nie). „Trafność” AI w różnych fazach rynku po prostu pływa — i to jest sedno.

Po trzecie — spójność tego samego promptu wynosi tylko 72%. Zadasz to samo pytanie 5 razy, a w 28% przypadków piąte uruchomienie wskaże kierunek odwrotny do czterech pierwszych. To losowość samplingu LLM, nie żadne „dynamiczne myślenie” ChatGPT. Warto pokazać tę liczbę nowicjuszom — kiedy ktoś wrzuca na grupę zrzut „ChatGPT znów long BTC”, oglądają jedno wyjście z pięciu.

4. 7 charakterystycznych przypadków halucynacji #

Z 34 halucynacji wybraliśmy 7 typowych, posortowanych według „skali szkód”:

#	Data	Treść halucynacji	Stan faktyczny	Szkoda
1	2026-03-22	„Spot BTC ETF BlackRock — wczorajszy napływ netto 1,24 mld USD”	W rzeczywistości tego dnia odpływ netto 80 mln	wysoka
2	2026-04-01	„Dane on-chain pokazują transfer 5000+ BTC z adresów wielorybów dziś”	Brak odpowiednich zapisów w Glassnode / Whale Alert	wysoka
3	2026-03-28	„Coinbase wprowadził kontrakt futures XYZ” (XYZ nie istnieje)	Coinbase nie ma takiego kontraktu	średnia
4	2026-04-05	„Średni dzienny wolumen 28,7 mld USD” (precyzja do miliarda zmyślona)	Realnie ok. 20 mld — AI dorobiło precyzyjną liczbę	średnia
5	2026-03-19	„BTC przebił 200-tygodniową średnią kroczącą”	BTC funkcjonował powyżej 200WMA od pół roku	średnia
6	2026-04-08	„Przewodniczący Fed wygłosił w tym tygodniu gołębie przemówienie” (żadnego nie było)	W tym tygodniu brak istotnych wystąpień Fed	wysoka
7	2026-04-11	„MicroStrategy dokupiło 8 400 BTC”	W tym tygodniu brak komunikatu o zakupie	wysoka

Najgroźniejsze są przypadki 1, 6 i 7 — AI używa „konkretnych wartości do miliarda, do firmy, do dnia”, przez co zmyślenia brzmią szczególnie wiarygodnie. Kiedy czytasz „napływ ETF BlackRock 1,24 mld USD”, mózg odruchowo to akceptuje, bo konkretne liczby są w naszej głowie zapisane jako „już zweryfikowane”. A LLM bez problemu wymyśli konkretną liczbę z dowolną precyzją. To najbardziej podstępny tryb porażki AI w kontekście finansowym.

5. Jak weryfikujemy #

Procedura nie jest skomplikowana, ale musi wejść w nawyk. Pracujemy w 3 krokach:

Krok pierwszy: każda „konkretna liczba” musi mieć źródło. Napływy ETF → Farside Investors; wieloryby on-chain → Whale Alert + Glassnode; wolumen → CoinGecko / sam Binance; pozycje spółek giełdowych → strony IR firmy lub dokumenty SEC. Każda liczba podana przez AI, której nie znajdziesz u źródła w 3 minuty, traktowana jest jako nieistniejąca.

Krok drugi: każde „zdarzenie” musi mieć znacznik czasu. AI mówi „w zeszłym tygodniu gołębie przemówienie Fed” — wchodzimy w kalendarz na federalreserve.gov i sprawdzamy, czy w tamtym tygodniu w ogóle coś było. AI mówi „Coinbase wprowadził kontrakt X” — szukamy w ogłoszeniach produktowych Coinbase. Halucynacje na poziomie zdarzeń wyłapuje się najłatwiej, bo źródła zewnętrzne są twarde.

Krok trzeci: to samo pytanie minimum 3 razy. Najprostsza i najskuteczniejsza zasada. Pojedyncze wyjście może być szczytem halucynacji, ale część wspólna trzech wyjść jest dużo stabilniejsza. Jeśli trzy uruchomienia wskazują ten sam kierunek i te same kluczowe liczby — wiarygodność mocno rośnie. Dlatego wskaźnik „spójność tego samego promptu” w zakresie 4–5 powtórzeń jest najbardziej użyteczny.

6. Wnioski i działający prompt #

Wniosek jest krótki: do zadania „krótkoterminowa prognoza kierunku BTC” ChatGPT się nie nadaje. Trafność 53% nie odbiega istotnie od losowości, a 17% halucynacji skazi twoje ramy decyzyjne.

ChatGPT ma jednak swoje miejsce w analizie krypto — tylko nie to. Sprawdza się przy:

Zlepianiu wielu źródeł newsowych w jedno streszczenie (pod warunkiem, że to ty dostarczasz materiały)
Wyjaśnianiu pojęć technicznych (Layer 2 / restaking / EigenLayer)
Strukturyzacji twojego istniejącego pomysłu i szukaniu luk („zamierzam wziąć pozycję X na Y BTC — gdzie największe ryzyko?”)
Tłumaczeniu fragmentów whitepaperów, budowaniu bibliotek promptów

Później napisaliśmy wersję promptu „anty-halucynacyjną” — używamy jej jako otwarcia w naszej procedurze AI selekcji koszyka D. Pełna biblioteka jest w Bibliotece promptów →. Tu krótki fragment otwarcia:

Zasady:
1. Nie podawaj konkretnych liczb — chyba że dostarczę je w inpucie.
2. Nie prognozuj „wzrostu” ani „spadku” — opisuj wyłącznie aktualną strukturę.
3. Każdy cytat zaczynaj od „według [niezweryfikowanego przeze mnie] …”.
4. Jeśli nie jesteś pewien — mów „nie wiem”.
5. Podaj 3 hipotezy odwrotne (jeśli moje założenie jest błędne — jakie są najbardziej prawdopodobne powody?).

Zadanie: na podstawie poniższych danych świecowych i on-chain [… realne dane wklejone przez użytkownika …] daj neutralny opis aktualnej struktury rynku BTC.

Ten prompt zmienia ChatGPT z „prognosty” w „opisującego + adwokata diabła” — częstotliwość halucynacji spada z 17% do około 4%. I to jest forma, w której AI ma sens w krypto.

Przestań pytać ChatGPT „czy BTC pójdzie jutro w górę”. Pytaj „jeśli BTC spadnie 10%, co stanie się z moją pozycją i co powinienem przygotować zawczasu” — to konkretne pytanie, na które można działać, a wyjście AI jest tu 10× bardziej użyteczne niż prognoza.

Sprawdź na Binance → Cała biblioteka promptów →

— PromptDeck, 2026-04-15

Ujawnienie eksperymentu: test 200 promptów oparty na ChatGPT Web (GPT-4o) w okresie 2026-03-19 – 2026-04-12. Wielkość próby, wersja modelu i fazy rynku wpływają na liczby trafności. To nie jest porada inwestycyjna。 Pełne ujawnienie →