[Tribune] Quand arrêter un test A/B ?

Nous poursuivons notre série sur les erreurs les plus fréquentes de l’A/B testing avec ce second article dans lequel nous détaillons à quel moment on peut arrêter un test A/B.

titre-quand-arreter-un-test-ab

Le problème est qu’il n’existe pas de règle établie pour mettre fin à un test A/B. Nous allons vous éclairer sur le sujet en vous indiquant les éléments à prendre en compte avant de stopper un test pour les deux principales méthodes utilisées sur le marché : fréquentiste et bayésienne.

Très peu sont ceux qui peuvent faire la différence entre fréquentiste et bayésien. Et puis, vous ne trouverez pas deux solutions qui utilisent ces méthodes statistiques de la même façon.

Alors, comment vous aider ?

1-quand-arreter-un-test-ab-need-help

Dans cet article, nous abordons :

  • indice de confiance
  • taille d’échantillon
  • durée d’un test
  • variance des données

Note : Aucun de ces indicateurs n’est suffisant pour arrêter un test. En revanche, les comprendre peut vous aider à prendre de meilleures décisions.

L’indice de confiance

Il ne pas se fier à un test qui indique un indice de confiance inférieur à 95%.

Quand votre outil d’A/B testing vous indique que « la variation a X% de chance de générer de meilleurs résultats », il vous donne l’indice de confiance.

À 95%, il y a donc 5% de chance (ou 1 chance sur 20) pour que le résultat final ne corresponde pas au résultat obtenu lors du test. Je vous garantie que vous n’avez pas envie d’arrêter un test avant d’atteindre un indice de 95%.

Si vous stoppez un test avec un indice de 80%, vous passez de 1 chance sur 20 d’obtenir un résultat aléatoire à 1 chance sur 5 ! Vous voulez obtenir des résultats statistiquement valides. Votre temps et votre argent sont en jeu, ne jouez pas avec le hasard.

Donc si mon outil m’indique que ma variation a 95% de chance de battre l’original, c’est bon ! Non ?!

2-quand-arreter-un-test-ab-douloureux

La confiance statistique est nécessaire, mais non suffisante à l’arrêt d’un test.

En réalisant un test de deux variantes identiques (un test A/A donc), vous avez plus de 7 chances sur 10 d’obtenir un indice de confiance de 95% à un moment donné. Seul, l’indice de confiance n’est donc ni suffisant, ni pertinent.

Taille d’échantillon

Votre échantillon doit être représentatif de votre audience (sauf si vous souhaitez A/B tester un segment spécifique). Il doit également être suffisamment important pour subir la variation naturelle des données.

Sélectionnez une part de votre audience pour qu’elle corresponde au comportement moyen (et naturel) de l’ensemble de vos visiteurs.

La connaissance de son audience est essentielle. Analysez votre trafic avant de lancer un test A/B. Voici un exemple de quelques éléments que vous devez connaître.

  • Combien de mes visiteurs proviennent de PPC (SEA), trafic direct, de recherches organiques, d’emails, de parrainages, etc.
  • Le taux de nouveaux visiteurs vs. Visiteurs existants

Problème. Le trafic sur votre site web n’est jamais entièrement stable. Toutefois, plus vous avez de trafic, plus les écarts d’affluence se lissent.

Posez-vous donc la question suivante : Mon échantillon représente-t-il donc l’intégralité de mon audience, tant quantitativement que qualitativement ?

Plus l’échantillon est petit, plus les écarts sont importants d’une version à l’autre.

Qu’est-ce que ça veut dire ? Voici un exemple concret.

Nous avons lancé une pièce 10 fois.

P = pile

F = face

La probabilité « réelle » de notre pièce est de 50%. Nous avons répété l’expérience 5 fois et calculé le % d’apparition du pile.

Nombre du pile

Le résultat varie de 30 à 80%.

Même expérience, en lançant cette fois ci la pièce 100 fois au lieu de 10.

apparition du pile-2

Le résultat varie de 47 à 54%.

3-quand-arreter-un-test-ab-flip-a-coin

En somme, plus l’échantillon est large, plus le résultat obtenu est proche de la « vrai » valeur (ici comprise entre 47% et 54%, à savoir 50%).

Aussi, une variation pourrait rencontrer un succès fou dès la première journée (après l’envoi de votre newsletter). Or, la majorité des destinataires ne sont pas des visiteurs « normaux ». Ils vous connaissent et réagissent différemment à votre expérience.

En arrêtant le test après une journée, vous auriez des résultats tronqués et non-applicables à la plus grande part de votre audience.

Quelle taille pour mon échantillon ?

À nouveau, l’A/B Testing est une science, il n’existe pas de nombre magique. Tout dépend des voies d’amélioration que vous voulez découvrir. Pourtant, même avec un trafic similaire à celui de Google, la taille d’échantillon n’est pas suffisante en soi (on y vient).

Une chose s’applique en revanche à toutes les méthodes statistiques : plus on collecte de données, plus les résultats sont fiables.

Le résultat varie en fonction de la méthode appliquée par vos outils.

Je vais vous donner les conseils que l’on donne à nos clients pour utiliser notre outil (selon la méthode fréquentiste).

Laissez-moi insister sur le fait que ces chiffres ne seront peut être pas optimaux si votre outil n’utilise pas les statistiques fréquentistes. Ceci étant, la validité de vos résultats ne sera pas influencée.

Pour déterminer de la taille d’échantillon, nous recommandons à nos clients d’utiliser une calculatrice comme celle-ci (Kameleoon en comporte une également). Elle donne une bonne estimation de la taille d’échantillon requise – sans devoir trop se soucier des maths.

Elle vous permettra également de ne pas arrêter vos tests prématurément, connaissant la taille d’échantillon requise au préalable (vous ne devriez pas vérifiez les performances de vos variations avant d’atteindre ces chiffres).

Utiliser la calculette : indiquez votre taux de conversion actuel et la variation minimum attendue. Nous recommandons également que vous réalisiez 300 conversions par variation avant même de considérer à mettre fin au test.

Nous recommandons parfois 1000 conversions par variation si le trafic de notre client le permet. Dans ce cas, plus est synonyme de mieux. On peut aussi s’arrêter avant s’il existe une différence considérable entre l’original et la variation.

Donc, si j’ai beaucoup de trafic, un échantillon représentatif, ainsi qu’un indice de confiance de 95%, c’est bon?

Non.

5-quand-arreter-un-test-ab-leia

La durée du test.

Nous recommandons de lancer des tests de plusieurs semaines (au moins 2 à 3 semaines). Si vous pouvez, lancez un test correspondant à votre cycle de vente (voire deux).

Pourquoi ?

Vous savez probablement qu’il existe un moment optimum pour envoyer un mail ou poster sur les réseaux sociaux.

En effet, les gens se comportent différemment selon le moment de la journée et sont influencés par de nombreux facteurs externes (météo, actualité, soldes, etc.). Les taux de conversion sont par conséquent impactés. Ne me croyez pas sur parole – faites-en l’expérience. Analysez votre taux de conversion au cours de la journée, et notez les variations d’un jour à l’autre.

Un cycle de vente est un bon début. Vous capturerez les données de nouveaux visiteurs et celles de visiteurs sur le point de convertir (créant ainsi un test tenant compte de nombreux facteurs externes et sources de trafic).

Il est important de mener des tests sur des cycles entiers pour limiter l’effet trompeur des facteurs externes. Ainsi, si vous commencez un jeudi, terminez un jeudi (prévoyez au moins 2 à 3 semaines de test).

Et si jamais vous devez étendre la durée de votre test, faites le d’une semaine (et non pas seulement de quelques jours).

La variance des données

Si votre indice de confiance et vos taux de conversion fluctuent encore beaucoup, n’arrêtez pas votre test.

Deux phénomènes sont à considérer :

L’effet de nouveauté : c’est lorsque les visiteurs réagissent à votre changement, simplement parce qu’il est nouveau. Il s’estompe avec le temps.

Régression à la moyenne : plus vous récoltez de données, plus vous approchez de la valeur « réelle ». C’est pour cette raison que vous obtenez des résultats variables au début d’un test.

D’où le manque de pertinence du seul indice de confiance de 95% pour mettre fin à un test. Assurez vous que votre indice de confiance et vos taux de conversion se stabilisent avant de vous arrêter. Les fluctuations doivent être négligeables.

Imaginez deux versions :

  • Une version A avec un taux de conversion de 18,4% ± 1,2%
  • une version B au taux de conversion 14,7% ± 0,8%.

Cela signifie que le taux de conversion de la version A se trouve entre (18,4 – 1,2) et (18,4 + 1,2), et que celui de la version B se trouve entre (14,7 – 0,8) et (14,7 + 0,8).

variation des taux de conversion

En somme, la meilleure façon de ne pas céder à la tentation et mettre fin à un test parce qu’une variable « semble » se démarquer est de ne pas vérifier les résultats trop tôt.

Avant de mettre fin à un test, il faut réunir les conditions suivantes :

  • Un indice de confiance de 95%
  • Un échantillon représentatif de votre audience.
  • Un test suffisamment long
  • Des taux de conversion et de confiance stables.

N’arrêtez un test qu’une fois que vous avez pris ces éléments en compte. Sinon, vous perdrez du temps et de l’argent.

C’est tout pour aujourd’hui. Nous espérons que ce billet vous a aidé à comprendre quelques concepts de base, et vous empêchera de mettre fin trop tôt à un test.

4-quand-arreter-un-test-ab-magic-number

PS: Si vous avez manqué le billet précédent de cette série : 7 erreurs d’A/B testing et comment les éviter.

 

 

 

 

 

2 commentaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Merci de taper les caractères de l'image Captcha dans le champ

Merci de saisir ces caractères dans le champ
ci-dessous afin de valider votre commentaire.

Jean Baptiste Alarcon

Article de : Jean Baptiste Alarcon

Jean-Baptiste Alarcon, l’auteur, est Growth Marketer chez Kameleoon, prestataire de solutions SaaS d’A/B testing et de Personnalisation qui permettent aux équipes marketing de délivrer des expériences optimisées et contextualisées à chacun de leurs visiteurs sans contraintes techniques.