Case study

Trzy miesiące testów rekomendacji AI w sklepie marko.pl

Pięć testów A/B, ani jednego „zwycięzcy" po konwersji z klasyczną istotnością statystyczną — a na końcu i tak wiedzieliśmy, który wariant gra i dlaczego. To zapis tej partii rozdanie po rozdaniu, a przy okazji przewodnik po pułapkach analizy testów A/B, które łapią prawie każdego.

Bartosz Jagielski2 lipca 2026

+110%więcej zakupów z rekomendacji po stronie AI (2,1× — wynik twardy)

+28%więcej sesji z kliknięciem w rekomendacje po stronie AI (wynik twardy)

+3,9%wzrost ogólnej sprzedaży = czysty przyrost już po odjęciu kanibalizacji

~+7,9%tyle dałyby rekomendacje, gdyby żaden zakup się nie kanibalizował (górna granica)

5testów A/B w 3 miesiące na żywym ruchu

0„zwycięzców" z klasyczną istotnością statystyczną — przy tym ruchu trzeba by milionów sesji

Jak czytać ten tekst: to nie jest laurka. To uczciwy zapis serii testów, w której większość rozdań nie dała twardego werdyktu — i właśnie dlatego jest z niej więcej do wyniesienia niż z pojedynczej „wygranej". Metafora pokerowa nie jest ozdobą: testy A/B na realnym sklepie gra się dokładnie tak. W pokerze nigdy nie masz kompletu informacji — i nigdy mieć nie będziesz. Decyzję zawsze podejmujesz na styku trzech rzeczy: eksploracji (co jeszcze możesz podejrzeć, płacąc za to ruchem i czasem), przeczucia (czego domyślasz się z niepełnych sygnałów) i statystyki (co liczby naprawdę potwierdzają). Nigdy na podstawie tylko jednej z nich — i nigdy z pełną pewnością.

Przeciwnik, który wcale nie był słaby

Zacznijmy od tego, z kim w ogóle graliśmy — bo to zmienia wszystko.

Typowy sklep internetowy ma z rekomendacjami jedną z dwóch sytuacji: albo nie ma ich wcale, albo ma „sklepowe" — domyślny moduł platformy, skonfigurowany raz przy wdrożeniu i nietykany od lat. W takim sklepie każdy sensowny system rekomendacji wygrywa łatwo, a case study pisze się samo.

Marko.pl to inny przypadek. Właściciel odrobił pracę domową: na kartach produktów działało wiele boxów rekomendacyjnych, opartych o dedykowane moduły — między innymi kojarzenie produktów na podstawie tagów — wszystko ręcznie skonfigurowane i dopieszczone. Poziom wyjściowy był znacząco lepszy niż w przeciętnym sklepie. Pobicie takiego przeciwnika niczym nie było oczywiste — i, jak zaraz zobaczysz, przez dobrych kilka tygodni wcale nie było jasne, czy w ogóle nastąpi.

Brutalna arytmetyka. Sklep z konwersją w okolicach 1% — czyli normalny, zdrowy sklep — żeby udowodnić z klasyczną istotnością statystyczną, że nowa wersja rekomendacji podnosi konwersję o 4% (mniej więcej tyle, ile ostatecznie u siebie zmierzyliśmy), potrzebuje około miliona użytkowników na wariant — blisko dwóch milionów łącznie. To próbka, którą większość sklepów zbiera rok albo dwa. Rok czekania na jedną odpowiedź. Nikt tak nie gra, bo tak grać się nie da.

Gra się jak w pokera: nie zobaczysz kart przeciwnika, dopóki nie zapłacisz — a każda karta kosztuje ruch i czas. Czyta się więc niepełne sygnały, stawia hipotezy, przegrane ręce folduje szybko, dobre podbija. Przez trzy miesiące rozegraliśmy w ten sposób pięć testów A/B: rekomendacje AI Witly kontra bardzo dobrze skonfigurowane rekomendacje sklepowe. Ani jeden test nie dał „zwycięzcy" po konwersji z klasyczną istotnością statystyczną. A mimo to na końcu wiedzieliśmy dokładnie, który wariant gra — i dlaczego.

Jedno zastrzeżenie o liczbach. Wyniki testów A/B to realny aktyw firmy — know-how, które kosztowało ruch, czas i pieniądze. Dostęp do takich danych normalnie jest płatny, leży za paywallem, bo ma wartość rynkową. Dlatego o tym, co konkretnie zadziałało w marko.pl, piszemy ogólnie: pokazujemy kierunki, mechanizmy i lekcje — a nie surowe liczby, które sprzedaje się osobno.

Oto zapis tej partii, rozdanie po rozdaniu.

Rozdanie 1 Cztery metryki, czterech różnych „zwycięzców"

Pierwszy test: trzy tygodnie, cztery różne konfiguracje rekomendacji na karcie produktu. Trzy z nich to różne zestawy sekcji widgetu AI — różniące się tym, które sekcje pokazujemy i w jakiej kolejności (jeden z tych zestawów, wariant C, łączył „wybrane dla Ciebie" i „inni oglądali też"). Czwarty wariant miał widget wyłączony całkowicie — czyli czyste rekomendacje sklepowe. Za punkt odniesienia (kontrolę) służył jeden z wariantów AI, do którego porównywaliśmy resztę.

Wyniki? Proszę bardzo — wybierz sobie zwycięzcę:

Metryka	„Zwycięzca"
Kliknięcia w rekomendacje	wariant C (+34% klikających!)
Dodania do koszyka	rekomendacje sklepowe
Konwersja	rekomendacje sklepowe
Przychód	rekomendacje sklepowe

Zależnie od metryki „wygrywał" ktoś inny: kliknięcia brał wariant AI, ale koszyk, konwersję i przychód — widget wyłączony, czyli czyste rekomendacje sklepowe. Jeśli metrykę decyzyjną wybierasz po teście, zawsze znajdziesz taką, która potwierdzi to, co chciałeś usłyszeć. To nie analiza — to szukanie asa w rękawie po rozdaniu kart.

Twardy był jeden sygnał: wariant C („wybrane dla Ciebie" + „inni oglądali też") klikał się o jedną trzecią lepiej niż cokolwiek innego. A jednocześnie miał najniższą konwersję z całej czwórki — nieco niższą od kontroli. Ta różnica konwersji była nieistotna, ale kierunek zapamiętaliśmy.

Lekcja z rozdania 1: przy tej wielkości próbki test był w stanie wiarygodnie wykryć dopiero ~10% względnej różnicy konwersji. Realne różnice między wariantami miały ~3%. I mimo wszystko sama liczba kliknięć — choć był to najtwardszy sygnał na stole — była dla nas zbyt wątłą podstawą, żeby na niej ogłaszać zwycięzcę; jeden wskaźnik, choćby najmocniejszy, to za mało. Graliśmy o stawkę, której ten stół w ogóle nie wypłacał — i całe szczęście, że nikt nie ogłosił zwycięzcy.

Rozdanie 2 Twarda porażka — i dobrze, że szybka

Po Rozdaniu 1 zrobiliśmy się chciwi. Wynik na kliknięciach był tak dobry, że przebudowaliśmy zestaw sekcji AI pod jeszcze mocniejsze klikanie — „mamy dobrą rękę, podbijamy". Stół odpowiedział szybko i bez litości.

Efekt po ośmiu dniach był twardy i jednoznaczny — tyle że na naszą niekorzyść:

Zakupy z rekomendacji: ~−40%wynik twardy
Kliknięcia w rekomendacje: ~−30% (też twarde). Konwersja ogólna: bez istotnej zmiany.

Nowa konfiguracja klikała się gorzej i — co ważniejsze — generowała istotnie mniej zakupów z rekomendacji. Ogólna konwersja nawet lekko drgnęła, ale nieistotnie: za mało ruchu, żeby cokolwiek z tego wyczytać. Można postawić hipotezę — jedną z wielu: może nowy układ przyciągał uwagę inaczej, ale odciągał od zakupu także tych, którzy nawet w rekomendacje nie kliknęli. Pewni nie jesteśmy i jednym testem tego nie rozstrzygniemy. I to jest sedno: dlatego tak ważne jest przeprowadzenie wielu testów i trzymanie kilku konkurencyjnych hipotez naraz, zamiast zakochać się w pierwszej.

Pokerowa uwaga, która jest sercem tego tekstu: to była dobra decyzja, mimo że przegrana. Twardy, jednoznaczny sygnał — nawet gdy mówi „przegrałeś" — jest wart więcej niż dwuznaczna wygrana. Dlatego sfoldowaliśmy tę rękę po tygodniu, nie po kwartale. A morał praktyczny: kliknięcia mierzą atrakcyjność, nie skuteczność — widget można podkręcić tak, że klika się rewelacyjnie, a sprzedaje gorzej.

Rozdanie 3 Paradoks w pełnej krasie — więcej klików, mniej zakupów

Tydzień, uczciwe porównanie: widget AI z czterema sekcjami kontra rekomendacje sklepowe. Wynik — obie połówki naraz:

KliknięciaAI +16% klikającychwynik twardy

KonwersjaAI −5% względnieposzlaka

Gdyby patrzeć tylko na klikalność: „AI miażdży, wdrażamy wszędzie". Gdyby tylko na konwersję: „wyłączyć widget natychmiast". Obie decyzje byłyby nieuprawnione — i to jest chyba najważniejszy akapit tego tekstu. Wskaźniki potrafią mylić, a już na pewno potrafią mówić dwie różne rzeczy jednocześnie.

Za to razem układały się w hipotezę o mocnym psychologicznym sensie: kliknięcie w rekomendację to zaproszenie użytkownika do zejścia ze ścieżki zakupu produktu, który właśnie ogląda. Jeśli cel jest trafniejszy od punktu wyjścia — zyskujesz. Jeśli jest tylko atrakcyjny — użytkownik błądzi po katalogu, odkłada decyzję i częściej nie kupuje nic. Ściana kilkudziesięciu alternatyw pod produktem może obniżać sprzedaż dokładnie dlatego, że dobrze się klika. Nie umieliśmy tego udowodnić (to wciąż było podejrzenie, nie dowód) — ale umieliśmy na tej hipotezie zagrać następne rozdanie.

Rozdanie 4 Raise — lepsza kombinacja rekomendacji

Zamiast wyłączać widget (fold po nieistotnym sygnale — najgorsze możliwe zagranie), przebudowaliśmy rękę pod hipotezę z poprzedniego rozdania:

Na pierwsze miejsce poszła sekcja „inni kupili również" — najbliższa intencji „domknij ten zakup", bo podpowiada uzupełnienia, nie alternatywy.
Dodaliśmy „Bestsellery" — czysty social proof.
Rekomendacje, o których podejrzewaliśmy, że mogą konwertować najgorzej, wyłączyliśmy całkiem.

Równolegle — mniej więcej w połowie serii — coraz mocniej premiowaliśmy w doborze podobieństwo cen: rekomendujemy produkty z tej samej półki cenowej co oglądany. To osobna dźwignia, która sama w sobie podnosi trafność (klient rzadko przeskakuje z produktu za 50 zł na propozycję za 500 zł).

Słowo o sekcji „Wybrane dla Ciebie" — naszym silniku personalizacji, z którego jesteśmy szczególnie dumni, bo w testach broni się wyjątkowo dobrze. Większość personalizacji w e-commerce sprowadza się do „pokazuj to, co popularne, z domieszką historii klienta". Nasz model odwraca pytanie: uczy się, czym dany klient różni się od przeciętnego klienta sklepu, i rekomenduje właśnie tę różnicę (w środku pracują wektory rezydualne — resztę zostawimy dla siebie). Jak działają poszczególne typy rekomendacji — „kupione razem", personalizacja, bestsellery — rozpisaliśmy w osobnym artykule o algorytmach rekomendacji. Ale pointa rozdania jest inna: nawet najlepszy algorytm nie obroni się sam. Chodzi o dobranie właściwej kombinacji sekcji — niektóre typy rekomendacji potrafią ze sobą nie grać, jedna osłabia drugą. Uczciwie: nasze wybory też w dużej mierze opierają się na przeczuciu. I dlatego finalnie tylko porządnie przeprowadzone testy A/B powiedzą, co realnie się liczy dla sprzedaży, a co nie — a większość takich hipotez, dopóki ich nie sprawdzisz, zostaje tylko hipotezami. To właśnie dlatego testowanie jest tak ważne. Psychologia zjada algorytmikę na śniadanie — dobry model zaczyna działać dopiero wtedy, gdy nie przeszkadza mu opakowanie.

Gramy długo — ponad miesiąc. Stan na dziś:

Sesje z kliknięciem rekomendacjiAI +28%wynik twardy

Zakupy z rekomendacji
(zakup po kliknięciu rekomendacji)AI 2,1× więcejwynik twardy

Konwersja ogólnaAI +3,9%poszlaka

Jedna rzecz dużo mówi o jakości dopasowania. Samych kliknięć w rekomendacje jest po obu stronach podobnie — ale AI zbiera je od ~28% większej liczby sesji. Po stronie sklepowej klika garstka osób, za to dużo (przeklikują się przez propozycje); po stronie AI klika znacznie więcej różnych osób, każda po trochu. Hipoteza: gdy rekomendacja jest trafna, klient klika raz w to, czego szukał, i idzie do zakupu; gdy jest tylko „ciekawa", ta sama grupa błądzi po kolejnych propozycjach, nabijając kliknięcia, ale nie zakupy. Liczy się nie ile klików, tylko ilu różnych ludzi znalazło coś wartego kliknięcia — i to się spina z resztą: przy podobnej liczbie klików AI kończy zakupem z rekomendacji 2,1× częściej.

Skuteczność kliknięcia to już nie „kliki dla klików" — kliknięcia zaczęły kończyć się zakupami. A konwersja +3,9% formalnie wciąż nie łapie klasycznej istotności, ale kierunek odwrócił się względem poprzedniego rozdania i przestał przeczyć pozostałym wskaźnikom. To już nie szum — to poszlaka, która zgadza się z twardym wynikiem: +110% więcej zakupów z rekomendacji po stronie AI.

Ile ruchu potrzeba, żeby ten +3,9% stał się „twardy"? Przy konwersji ~1% udowodnienie 4-procentowej różnicy względnej z klasyczną istotnością statystyczną wymaga rzędu ~1 mln użytkowników na wariant — czyli około 2 mln łącznie dla testu dwuwariantowego. Tyle ruchu marko.pl zbiera latami. Innymi słowy: wynik nie jest niepewny dlatego, że nie istnieje, tylko dlatego, że ten stół fizycznie nie rozdaje tylu kart, ile trzeba, by go potwierdzić z klasyczną pewnością.

Właśnie dlatego nie patrzymy wyłącznie na ogólną konwersję. Mierzymy cały lejek — kliknięcie → dodanie do koszyka → zakup — a przede wszystkim sesje, w których kliknięcie w rekomendację skończyło się zakupem. I to jest sedno. Ogólna konwersja jest rozcieńczona wszystkimi sesjami, które rekomendacji nigdy nie dotknęły — sygnał tonie w szumie i potrzebuje milionów odsłon. Ale gdy zawęzimy pomiar do sesji, które faktycznie miały kontakt z rekomendacją, różnica robi się ogromna (2,1×) i gęsta — a duży efekt na gęstej próbce osiąga istotność statystyczną dużo, dużo szybciej niż mały efekt rozmyty po całym ruchu.

Te metryki nie są oderwane od konwersji — one ją zapowiadają: dodanie do koszyka to krok bliżej zakupu niż samo kliknięcie, a zakup po kliknięciu rekomendacji to już sam zakup, tyle że policzony tam, gdzie rekomendacja realnie mogła zadziałać. Dlatego twardy wynik na „sesjach z zakupem z rekomendacji" pojawia się wtedy, gdy ogólna konwersja jeszcze długo pozostaje poszlaką. Jedno koreluje z drugim, tylko pierwsze widać wcześniej.

Chłodna kalkulacja: ile to realnie warte. Zakupów z rekomendacji było po stronie AI ~2,1× więcej. Gdyby każdy z tych dodatkowych zakupów był „nowy", rekomendacje dołożyłyby ~+7,9% sprzedaży (górna, naiwna granica). Ale ogólna sprzedaż urosła tylko o ~+3,9% — czyli mniej więcej połowa tych rekomendacyjnych zakupów i tak by się wydarzyła (kanibalizacja ~50%, nie z założenia, tylko wprost z danych). Po jej odjęciu zostaje ~+3,9% czystego przyrostu sprzedaży — dokładnie tyle, ile zmierzony wzrost konwersji. Dwie niezależne drogi, ten sam wynik. Co ważne, cięcie o połowę to założenie bardzo ostrożne: badania nad atrybucją w e-commerce pokazują, że rekomendacjom regularnie przypisuje się więcej sprzedaży, niż realnie dowożą (atrybucja ≠ inkrementalność) — realna kanibalizacja bywa więc nawet wyższa, a nasz przyrost tym pewniejszy.

Dwie ulubione pułapki na koniec:

Przychód. Przychód na odwiedzającego potrafi „wygrać" dla dowolnej strony — wystarczy jedno nietypowo duże zamówienie, żeby przechylić całą metrykę. Winsoryzacja (przycięcie wartości skrajnych) natychmiast zjada większość takiej przewagi, a przy szerokim rozstrzale cen testu istotności dla przychodu i tak nie da się sensownie policzyć. Wniosek prosty: na przychód po prostu tu nie patrz. Średnie przychodowe to pijany świadek — mówi dużo, głośno i nie pod przysięgą.
Efekt nowości. Przez pierwsze trzy dni przewaga przebudowanego widgetu była ~4× większa niż w kolejnych tygodniach. Kto ogłasza wynik w pierwszym tygodniu, ogłasza wynik efektu świeżości.

Trzeźwy partner przy stole: „analizuj przez AI"

W trakcie tej serii dodaliśmy do testów A/B w Witly przycisk, którego brakowało nam samym: analizę testu przez agenta AI. Agent sam sprawdza to, co powyżej — poprawność podziału ruchu, moc statystyczną i wymaganą próbkę, lejek per wariant, trend dzienny z detekcją efektu nowości, segmenty, istotność każdej metryki — i zwraca odpowiedź w trzech koszykach:

Przycisk Interpretacja wyników przez AI nad wynikami testu w panelu Witly — Przycisk „Interpretacja wyników przez AI" nad wynikami testu — jednym kliknięciem agent przechodzi przez wszystkie metryki i zwraca wnioski w trzech koszykach.

To mamy udowodnione

istotne statystycznie, przy wystarczającej mocy, na czystym podziale ruchu.

To podejrzewamy z dużą pewnością

spójne kierunki wielu wskaźników, które jeszcze nie uzbierały próbki.

Szum

którego agent… po prostu nie pokazuje.

Ten trzeci koszyk jest najważniejszy. Człowiek fiksuje się na zielonych cyferkach — „przychód w górę!" — i nie widzi jednego wielkiego zamówienia, które tę cyferkę zrobiło. Agent tej słabości nie ma: nieistotny wynik jest dla niego nie-wynikiem. W pokerze nazywa się to mindsetem — dobry gracz nie zakochuje się w jednym rozdaniu i nie podejmuje decyzji pod wpływem emocji (nie gra „na tilcie"). Ten mindset agent ma wbudowany na stałe.

Ale agent nie tylko odsiewa szum — stawia hipotezy. Bo cała ta gra polega na hipotezach: pojedynczy test rzadko daje wyrok, częściej daje przesłankę, z której trzeba coś wywnioskować i zagrać dalej. Nasz agent przekopuje się przez dziesiątki wskaźników testu naraz — lejek per wariant, segmenty, trend dzienny, zależności między kliknięciem, koszykiem a zakupem — i składa je w spójną opowieść: „to wiemy na pewno", „to jest prawdopodobne", „to hipoteza warta następnego testu". Nie tylko odpowiada na pytanie, które zadałeś — podpowiada, jakie zadać następne, i podsuwa mechanizm, który mógłby tłumaczyć liczby.

Podział ról, który u nas zadziałał: człowiek i agent stawiają hipotezy wspólnie — człowiek wnosi psychologię kupowania i znajomość sklepu, agent wnosi to, czego człowiek nie ogarnie gołym okiem: dziesiątki wskaźników naraz i chłodny rachunek. Jego zadanie to ściągać myślenie bliżej ziemi — żeby decyzje wynikały z tego, co liczby faktycznie mówią, a nie z tego, co chcielibyśmy w nich zobaczyć. Intuicja jest legalna, ale jak u dobrego pokerzysty: zawsze skonfrontowana z rachunkiem, nigdy zamiast niego.

Poradnik: osiem przykazań testera A/B

Kliknięcia to nie zamówienia. Łatwo wpaść w założenie „więcej kliknięć → więcej sprzedaży" — a to nieprawda: kliknięcie mierzy atrakcyjność, nie skuteczność. Jako cel testu ustaw twardy wynik biznesowy: konwersję albo przychód na odwiedzającego, nigdy samą klikalność.
Wskaźniki potrafią mylić — nie ufaj jednemu. Część firm rozlicza się z klientem właśnie za kliknięcia w rekomendacje — a jak widać na naszym teście, wariant klikany najlepiej potrafił w tym samym czasie obniżać sprzedaż (także u tych, którzy nic nie kliknęli). Płacisz wtedy za coś, co realnie szkodzi. Patrz na spójność: kliki + skuteczność kliknięcia + konwersja.
Policz wykrywalną różnicę PRZED testem. Przy konwersji ~1% wykrycie 10% względnej różnicy wymaga rzędu 175 tys. użytkowników na wariant; 5% — ok. 700 tys.; 4% — ok. 1 mln; 3% — blisko 2 mln. Jeśli cię na to nie stać — świadomie graj na poszlaki, zamiast udawać, że masz werdykt.
Metrykę decyzyjną ustal przed rozdaniem. Po teście każdy znajdzie metrykę, która „wygrała".
Przychód czytaj przez medianę i winsoryzację. Jedno duże zamówienie potrafi napisać dowolną narrację. A jeśli sklep ma szeroki rozstrzał cen (od kilkudziesięciu do kilku tysięcy złotych) — przychód na odwiedzającego najlepiej odpuść jako metrykę decyzyjną w ogóle. Jego rozrzut jest wielokrotnie większy niż konwersji, więc żeby cokolwiek na nim udowodnić, potrzebujesz próbki wielokrotnie większej niż i tak już ogromna próbka na konwersję. Przy realnym ruchu ta metryka niemal zawsze mówi więcej o kilku największych zamówieniach niż o samych wariantach.
Nie podglądaj pierwszych dni i nie kończ testów po jednej nocy. Efekt nowości zawyża, nocna próbka kłamie, licz pełne tygodnie.
Przegrany test z twardym wynikiem jest cenniejszy niż trzy „wygrane" bez istotności. Jeden z naszych najtwardszych, jednoznacznych sygnałów był porażką — i to on ustawił dalszą strategię. Fold też jest decyzją. Najtańszą.
Algorytm to nie wszystko. Możesz mieć najlepszy model na rynku — o wyniku współdecydują miejsce na stronie, dobór, kolejność i liczba sekcji. Czasem drogą do wzrostu jest wyłączenie części rekomendacji. Psychologia klienta gra przy tym stole na równi z matematyką.

Podsumowanie

Pięć testów, ani jednego werdyktu konwersyjnego z klasyczną istotnością — a mimo to wiemy, który wariant gra: ten, który klika się o jedną czwartą lepiej i którego kliknięcia dwukrotnie częściej kończą się zakupem. Reszta obrazu układa się spójnie w tę samą stronę, tylko przy tej wielkości ruchu jeszcze nie uzbierała próbki na twardy dowód. To nie jest „udowodniliśmy +X%". To jest „gramy skalibrowaną ręką i wiemy, dlaczego".

Prowadzisz sklep na Shoper, WooCommerce albo PrestaShop? Napisz do nas — pokażemy Ci rekomendacje AI i testy A/B z analizą przez agenta na Twoim własnym katalogu.

Zobacz też

Źródła

Ron Kohavi, Diane Tang, Ya Xu — Trustworthy Online Controlled Experiments (Cambridge University Press, 2020)
experimentguide.com
Evan Miller — How Not to Run an A/B Test (o podglądaniu wyników i błędach I rodzaju)
evanmiller.org/how-not-to-run-an-ab-test.html
Evan Miller — Sample Size Calculator (wymagana próbka dla różnicy w konwersji)
evanmiller.org/ab-testing/sample-size.html
Nielsen Norman Group — Hick’s Law: The Psychology of Choice Overload
nngroup.com/articles/response-times-3-important-limits/
Click A, Buy B: Rethinking Conversion Attribution in E-Commerce Recommendations (arXiv, 2025)
arxiv.org/abs/2507.15113