Реших да разгледам една доста интересна тема, а именно Error Type 1 and 2 в A/B testing.
По подразбиране в статистическото хипотезно тестване нито един тест не е 100% точен: това е защото се разчита на вероятности в експеримента.
Когато онлайн маркетолози и учени тестват хипотеза, и двете групи търсят статистически релевантни резултати. Достигнатите резултати трябва да бъдат в рамките на статистическата грешка : обикновено 95%.
Въпреки че достоверността на тестваните хипотези е много голяма има вероятност за два типа грешки.
Тези грешки са познати като тип 1 и тип 2 грешки.
Какво са грешките от тип 1
Тип 1 грешки са често описвани като отрицателно позитивни – се допускат при тестване на хипотези нулевата хипотеза е вярна, но в последствие отхвърлена. Нулевата хипотеза е първоначално твърдение или позиция по подразбиране, която няма връзка с двата измерени феномена.
Просто казано тип 1 са “лъжливо положителни” грешки – получават се, когато тестващия валидира статистически значителни разлики въпреки че няма такива.
Тип 1 грешка има вероятност “α”, която корелира с нивото на сигурност, което сме заложили. Тоест при тест с 95% ниво на сигурност съществува вероятност от 5% за грешка тип 1.
Последствия от грешки тип 1
Тип 1 грешки могат да възникнат при лош късмет ( 5% възможност ) или защото тестващия не е спазил продължителността и големината на експеримента заложени в началото.
В следствие от това тип 1 грешка ще доведе до лъжливо позитивни резултати. Това означава, че тестващия погрешно ще приеме тестваната хипотеза за вярна.
В реална ситуация това може да доведе до финансови загуби заради погрешно предположение.
Пример за грешки тип 1
Нека приемем, че искаме да повишим конверсиите на банер използван на сайта на клиент. За да проработи това се добавя изображение чрез което ще се провери, дали има повишение в конверсиите или не.
A/B тестът започва като се поставя контролата (А) срещу вариацията (В), която съдържа изображението. След 5 дена вариацията (В) надделява над контролата (А) с впечатляващите 25% повишение в конверсиите с 85% ниво на сигурност.
Експеримента бива спрян, а новото изображение е поставено. Въпреки това след месец се забелязва реално понижение в конверсиите на месечна база.
Това е защото в случая е допусната грешка тип 1, а имено вариациата не успява да надделее на контролата в дългосрочен план. Проблемът е в краткия срок (5 дни) на експеримента.
Поглед към грешките тип 2
Ако грешките тип 1 често биват наричани “лъжливо положителни“, то тип 2 са познати и като “лъжливо отрицателни“.
Те могат да бъдат допуснати когато неточно се заключи, че няма изявен победител измежду контролната версия и вариацията, въпреки че всъщност има такъв.
Статистически казано, тип 2 грешките се появяват, когато нулевата хипотеза е грешна, но не е отхвърлена в последствие.
Ако вероятността да се допусне грешка от тип 1 е определена от “α”, вероятността за тип 2 грешка е “β”. Бета зависи от силата на теста ( вероятността да не се допусне грешка тип 2, която е равна на 1-β).
Съществуват три основни променливи, които могат силно да повлияят на теста:
- Обем на примерните данни
- Нивото на значимост на теста (α)
- “Позитивната” стойност на тестваните параметри (повече тук)
Последици от грешки тип 2
Подобно на грешките от тип 1, тези от тип 2 могат да доведат до грешни изводи и вземане неправилни решения, което пък от своя страна може да причини загуби или намаляне на печалбата.
Дори може да се стигне (при неотчитане на грешка от тип 2) до дескридитиране на процеса по оптимизиране и подобряване на конверсиите. Това е обезкуражаващо както за експертите по оптимизация на конверсиите, така и за дигиталните маркетолози.
Пример за грешки тип 2
Нека приемем, че се провежда тест на интернет магазин за професионално компютърно оборудване за технически ентусиасти. В опит за повишаване на комверсиите се решава добавяне на ЧЗВ секция в продуктовата страница.
Провежда се А/В тест за проверка на тестовата версия В пред контролната версия А
След една седмица не се наблюдава никаква промяна в конверсиите: и двете версии конвертират с една и съща стъпка, което поражда съмнения в експеримента. След три дена теста бива спрян и продуктовата страница остава в началния вариант, а именно без ЧЗВ секция.
На този етап може да бъде допуснато, че добавянето на ЧЗВ секция към магазина не допринася за повишаване на конверсиите.
Две седмици по-късно става ясно, че конкурент е добавил ЧЗВ секция към своя магазин и е наблюдавал осезаемо повишение на конверсиите. Базирайки се на тази информация бива взето решение тестът да бъде проведен още веднъж, но този път в рамките на един месец, за да се постигнат статистически по-достоверни резултати, базирайки се на повишеното ниво на сигурност ( confidence factor – в този случай 95%).
В края на новия тестови период – О, чудо! – наблюдават се повишение на конверсиите за тестовата версия В. Добавянето на ЧЗВ секция към продуктовата страница все пак довежда до повече продажби.
Точно така – тук се наблюдава грешка от тип 2! Поради неточно избран период за извършване на експеримента получаваме лъжливо отрицателен резултат.