A/B tesztelés, az optimalizálás Szent Grálja? 6. rész

Az A/B tesztelés egy olyan eljárás, amikor egy kampányból kettő vagy többféle verziót készítünk, és a feliratkozók egy-egy csoportjának kiküldjük, annak érdekében, hogy megtaláljuk, melyik a leghatékonyabb egy meghatározott paraméter szempontjából. Email kampányok esetében az A/B tesztek segítenek meghatározni, hogy milyen email típusok és tartalmak a legsikeresebbek az adott célközönség számára. Két variáció közül mérésékkel könnyen meghatározható, melyik a hatékonyabb. Az egyik variációt A-nak, a másikat B-nek szokták elnevezni, innen az A/B név.

A gyakorlatban ez úgy történik, hogy a célcsoport egy része az A variációt kapja, egy másik – ugyanakkora – része pedig a B variációt. Az eredmények (megnyitási és átkattintási ráta) alapján pedig a győztes variáció kerül kiküldésre a célközönség többi tagjának.

Miután a kampány folyamán már nincs lehetőség manuális beavatkozásra, muszáj a tesztet alaposan előkészíteni. Össze kell állítani a tesztelendő elemek különféle variációit a prekoncepciók alapján. Egy kampány keretén belül kettőnél több elemet nem érdemes A/B tesztelni, mert az egyes változtatások hatása nehezen lesz elkülöníthető, illetve meghatározható.

Miért érdemes A/B teszteket alkalmazni?

Ezek a tesztek egyszerű és jól kezelhető lehetőséget biztosítanak arra, hogy kampányunkat úgy alakítsuk ki, hogy a megnyitási, konverziós és átkattintási rátákat lehetőség szerint maximalizáljuk. Az A/B tesztekkel lehet:

  • Két tárgy változatot kipróbálni, hogy milyen kulcsszavakra nyitják meg legtöbben az adott levelet, milyen hosszú vagy épp rövid tárgy kelti fel jobban az érdeklődést.
  • Ugyanarra a tartalomra két teljesen eltérő designt használni, hogy kiderüljön, mi a legmegfelelőbb tartalommegjelenítés. Ez különösen hasznos újratervezés előtt, hiszen az email kampányban tesztelhető az új stílus/szerkezet várható fogadtatása a célközönségnél – minimális kockázattal. De ugyanúgy lehet tesztelni, hogy a szöveges, a képes, esetleg a videós tartalom generál-e nagyobb átkattintást.
  • Tesztelni kereskedelmi eszközöket is: pl. az ingyenes szállítást vagy a kuponos árkedvezményt tartalmazó ajánlatok hatásosságát összehasonlítani.
  • A feladó nevét tesztelni: melyik változattal azonosítja jobban a brandet/céget a közönség, a hosszabb vagy a rövidebb név a célszerűbb?

Hogyan csináljam?

Az 1. lépés a probléma feltárása. Ez annyit tesz, hogy vesszük a nem megfelelőnek tartott paramétert (megnyitási arány, átkattintási arány, konverzió), és felállítunk egy elméletet, hogy mi okozhatja a problémát. Alacsony megnyitási aránynál – feltételezve, hogy technikai probléma nincs a háttérben – valószínűleg a tárgy mezőben keresendő az alacsony hatékonyság. Innen már tudjuk, hogy a tárgy lesz az A/B teszt célpontja.

A 2. lépés a változatok meghatározása. Mi lehet a baj a levél tárgyával? Nem releváns a tartalomhoz? Túl hosszú? Túl közvetlen? Túl konzervatív? A tárggyal kapcsolatban általában a következő A/B feltevéseket szokták tesztelni:

  • Hosszú – rövid
  • Pozitív üzenet – negatív üzenet
  • Hasznosság/érték – jellegzetesség/funkcionalitás

Ezek alapján már elkészíthető legalább két változat az adott levél tárgyából. Amennyiben több levél kiküldés is volt a múltban, és vannak már referenciaértékek a kiválasztott problémás paraméterből, akkor elégséges lehet az A/B teszt.

Amennyiben nincsenek vagy nem elérhetők a korábbi adatok, esetleg azok mennyisége nem elégséges, az A/B tesztet érdemes A/B/C változatban kiküldeni. Ez esetben a C (control) az ellenőrző email, a viszonyítási alap, amelyhez képest javulnia kell a mutatónak.

A 3. lépés annak meghatározása, hogy mennyi feliratkozón szeretnénk a tesztet futtatni. A statisztikai megbízhatóság figyelmen kívül hagyása nagyobb hiba, mint egyáltalán nem tesztelni. A túl kevés címre kiküldött teszt hamis bizonyosság-érzetet adhat: elhiszed, hogy tudod, mit akar a célközönséged, miközben a valóság az, hogy a döntés alapjául szolgáló eredmények nem reálisak. Szemléletesebben: ha egy érme 10 feldobásból 7-szer fejre érkezik, az nem azt jelenti, hogy 70%-os valószínűséggel mindig így fog érkezni, hiszen 1 000 feldobásból már valószínűleg közel 50-50% lenne a fej és írás aránya, 10 000-ből pedig még annál is pontosabb eredményt kapnánk. Email adatbázisra visszavezetve a következőképpen néz ki az ajánlott lista méret:

  • 1 000 feliratkozó alatt nem érdemes A/B tesztelni
  • 30 000 feliratkozó alatt érdemesebb a teljes listán tesztelni a változatokat
  • 30 000 feliratkozó felett érdemesebb az adatbázis egy részén tesztelni (de változatonként minimum 10 000 fő), majd a nyertes változatot küldeni a lista többi tagjának.

Amikor megvan a tesztlista és megtörténik a kiküldés, a fentieknek megfelelően két teendő marad:

  • Eldönteni, melyik változat a hatékonyabb (és nagy adatbázis esetén azt kiküldeni a tesztelésben nem szereplő feliratkozóknak)
  • Összesíteni az eredményeket, és azok tükrében módosítani az email marketing stratégiát.

Melyik a hatékonyabb változat?

Győztes változatot csak jelentős statisztikai különbség alapján lehet hirdetni, de még ekkor is fennáll a veszélye annak, hogy félreértelmezzük az eredményeket. Példának vegyünk egy olyan tesztet, amiben az az eldöntendő kérdés, hogy egy gombra akkor kattintanak inkább, ha piros, vagy akkor, ha zöld színű? Az egyszerűség kedvéért legyen jelentős különbség a kattintók között: mondjuk 70%-kal több kattintás jött a piros gombra. Ki lehet-e egyértelműen jelenteni, hogy a piros gomb hatékonyabb? A válasz: nem. A kapcsolódó területek kulcsparamétereit is össze kell vetni, azaz hogy a piros gombra kattintók ugyanannyi időt töltenek-e el az oldalon és ugyanúgy konvertálnak-e, mint a zöld gombra kattintók.

Lehetséges, hogy a figyelmüket ugyan sikerült jobban felkelteni, de az oldalon csalódnak a tartalomban, és a következő levélben már a piros gomb sem lesz hatékonyabb a zöldnél. Ezzel nem az A/B teszt haszontalanságára akartunk rámutatni, hanem arra, hogy komplex kérdésekben csak komplex információk alapján lehet jó döntést hozni. A valós optimalizáláshoz körültekintően kell eljárni az eredménynek értékelése során.

Általános hibák A/B tesztelések során

#1 Nagy eredmények, kis változásoktól

Amikor apró változások nagy eredményeket hoznak, akkor komoly problémák lehetnek a hírlevél struktúrájában vagy a szövegírási gyakorlatban. Apróbb változások többnyire pillanatnyi vagy rövid távú emelkedést jelentenek. A következő ábra egy kampány gazdasági hatékonyságát mutatja a különböző paraméterek változtatásával. Apróbb változásokkal, optimalizálással a lokális maximum eredmény közelíthető meg.

Az ábra másik üzenete, hogy időnként érdemes valami gyökeresen újjal próbálkozni annak érdekében, hogy jelentős eredményeket érjünk el. A lokális maximum nem más, mint az adott levélstruktúra és tartalomrendszer korlátja, mely üvegplafonként gátolhatja az igazán jó eredményeket.

#2 Mindent tesztelni, rendszeresen

Mivel a tesztek eredménye nem csak pozitív lehet, ráadásul valós feliratkozókkal történik a tesztelés, szükséges a mértékletesség. Mint mindenben, itt is fontosabb a minőség, mint a mennyiség, azaz kellően odafigyelve kell vizsgálni a statisztikákat, és csak olyan hipotéziseket szabad tesztelni, melyek a számokból „sejthetőek”, vagyis megalapozottnak, logikusnak tűnnek.

#3 Túl sok variáció egy tesztben

Amikor minden adott a teszteléshez, és több hipotézis került felállításra, nagyon óvatosnak kell lenni. Nem szabad kettőnél több változót A/B teszt keretében vizsgálni, mert az eredmények értelmezhetetlenek lesznek, és képtelenség lesz megállapítani az egyes változók pozitív vagy negatív hatását.