[Tribune] Interprétez-vous vos résultats de tests A/B correctement ?

Kameleoon - interprétez vous vos résultats de tests A/B correctement ?

L’interprétation des résultats est tout aussi importante que les étapes qui précèdent lors d’un test A/B. L’A/B testing repose en effet sur l’apprentissage et la prise de décisions basées sur l’analyse des résultats des tests menés.

Assurons-nous donc de bien mener cette étape aussi !

Dans ce 4e article sur les erreurs les plus fréquentes en A/B testing, nous nous intéressons aux erreurs qu’il est possible de faire en interprétant les résultats.

  • Vous ne connaissez pas les « faux-positifs »
  • Vous ne vérifiez pas vos segments visiteurs
  • Vous testez trop de variantes en même temps
  • Vous abandonnez une idée de test après un échec

Vous ne connaissez pas les « faux positifs »

 

Savez-vous qu’un test A/B peut donner 4 résultats différents ?

  • Faux positif (une variante est désignée gagnante quand ce n’est pas le cas)
  • Faux négatif (aucune variante n’est donnée gagnante alors qu’une d’elles l’est)
  • Aucune différence entre les variantes A et B (sans résultat concluant)
  • Variante gagnante (A ou B fonctionne mieux).

Si vous avez envie d’approfondir le sujet, voici un cours sur la vérification d’hypothèse. C’est la méthode mathématique utilisée par la méthode fréquentiste de l’A/B testing.

Pourquoi s’en soucier ?

1-interpreter-un-test-ab-faux-positifsParce que vous pourriez considérer un faux positif comme une variante gagnante. C’est votre argent qui est en jeu.

Prenons un exemple connu de Google : 41 shades of blue (41 variantes de bleu).

Doug Bowman, anciennement Lead Designer chez Google a quitté l’entreprise après avoir publié ce message :

“Yes, it’s true that a team at Google couldn’t decide between two blues, so they’re testing 41 shades between each blue to see which one performs better. I had a recent debate over whether a border should be 3, 4, or 5 pixels wide, and was asked to prove my case. I can’t operate in an environment like that. I’ve grown tired of debating such minuscule design decisions…”

« Une équipe de Google n’arrivait pas à se décider entre deux nuances de bleu. Ils ont donc testé 41 nuances de chaque bleu pour découvrir quelle est celle qui performait le mieux. J’ai aussi eu à justifier le choix de la largeur d’une bordure entre 3, 4 ou 5 pixels. Je ne peux pas travailler dans un tel environnement. Les grands débats à propos de détails minuscules me fatiguent … »

(Vous pouvez découvrir l’article intégral ici).

Que vous soyez d’accord ou non avec lui du point de vue du design, c’est potentiellement faux mathématiquement selon la méthodologie de test adoptée.

Il y a deux façons d’aborder le problème :

  • Faire un « testing en cascade ». C’est à dire que vous testez A vs. B, puis B vs. C, puis C vs. D, etc. NE FAITES SURTOUT PAS ÇA. On va voir pourquoi ensuite.
  • Faire un test A/B/n. C’est à dire que vous testez toutes les variantes en parallèle.

Testing en Cascade

Imaginez vouloir tester un titre différent sur une page produit.

a. Vous testez une variante A contre une variante B.

b. La variante B l’emporte, mais votre chef n’aime pas le wording, mais vous avez aussi envie d’en tester un nouveau, légèrement différent. Et puis encore une fois, et encore, etc.

Vous pourriez par exemple vous retrouver avec une cascade de 10 tests. Pourquoi est-ce un problème ?

Votre premier test A/B a donné la variante B gagnante avec un indice de confiance de 95%. Et on a vu dans un article précédent que cela signifie qu’il y a donc 5% de chance que le résultat soit un faux positif.

Puis vous avez lancé un 3e test : B vs. C. C l’a emporté avec un indice de confiance de 95%. Le problème ici est que les « chances » de tomber sur un faux positif passent de 5% à plus de 9%.

Après 10 tests consécutifs, les chances de tomber sur un faux positif passent à 40% ! (88% pour 41 variations !). C’est pire que jouer votre temps et argent à pile ou face.

En bref, ne faites pas de testing en cascade.

A/B/n Testing

Vous faites un test A/B/n lorsque vous testez n variantes au lieu d’une seule (B), contre une variante A. Cela signifie que votre variante A est comparée aux variantes B, C, D, E, F, etc., en même temps et sous les mêmes conditions.

C’est une bonne méthode. Mais nous avons vu dans notre précédent article qu’il faut cumuler au moins 300 conversions par test avant de pouvoir mettre fin à un test.

Si on reprend notre exemple de Google : 41 x 300 = 12 300. Et ca fait beaucoup.

Bon, avec un trafic équivalent à celui de Google, vous pourriez vous en sortir. Mais pour nous autres mortels, ce serait une belle perte de temps.

Vous pourriez même finir par tester pendant trop longtemps (le temps de générer 300 conversions par variante) et obtenir des résultats discutables. Finalement, ce type de test est rarement nécessaire et peut être évité avec une meilleure hypothèse.

Vous ne vérifiez pas vos segments.

Écoutez Avinash Kaushik. Il a une règle : « Ne jamais présenter de rapport sur une métrique sans avoir fait une analyse en profondeur de ce qui se cache derrière (i.e. ses segments) ».

La plupart des données que vous obtenez de votre outil d’analytics sont des données agrégées. Vous en obtenez de beaux graphiques, mais c’est à peu près tout ce que vous pouvez faire avec.

Votre site internet a plusieurs fonctions. Vos visiteurs y viennent avec différents objectifs. Et s’ils reviennent pour une même raison, c’est probablement pour un contenu différent. Si vous voulez un site internet efficace, vous devez segmenter votre audience.

Cela s’applique aussi aux résultats de vos tests. Si vous ne les segmentez pas, vous pourriez mal interpréter le résultat de vos tests.

En application, une variante pourrait être moins bonne que sa version originale dans l’ensemble, tout en surperformant sur un segment particulier.

Assurez-vous de vérifier vos segments avant de tourner la page sur un test.

Note importante : les règles ne changent pas. Avant de déclarer une variante gagnante sur un segment en particulier, vous devez valider un indice de confiance de 95% et avoir audience représentative du segment dans sa totalité (tant quantitativement que qualitativement).

Voici 3 façons de segmenter vos données :

  • Par source

D’où viennent vos visiteurs (SEA, réseaux sociaux, moteurs de recherche, newsletter, etc.) ?

Vous pouvez ensuite étudier les pages naviguées en fonction de la source du trafic, le taux de rebond, les différences de fidélité, etc.

  • Par comportement

Que font les visiteurs sur votre site ? Les gens se comportent différemment selon leurs besoins.

Exemple : quels sont les contenus préférés des visiteurs qui viennent plus de 10 fois par mois sur votre site vs. Les contenus préférés de ceux qui ne viennent que 2 fois. Quel était le point d’entrée des visiteurs qui ont parcouru plus de 5 pages vs. ceux qui n’ont vu qu’une page. Sont-ils intéressés par les mêmes produits, les mêmes gammes de prix ?

  • Par finalité

2-interpreter-un-test-ab-piscouVous pouvez segmenter selon les actions des visiteurs sur votre site : achat d’un produit, souscription à la newsletter, téléchargement d’une ressource premium, demande d’une carte de fidélité, etc.

Faites des groupes de visiteurs selon ce qu’ils font sur votre site et posez-vous les mêmes questions que celles énoncées ci-dessus. Vous verrez quelles campagnes fonctionnent, quels produits retirer, etc.

En segmentant vos données, vous obtiendrez des résultats pertinents. C’est seulement comme ça que vous allez pouvoir prendre des décisions informées.

Vous testez trop de variantes à la fois

Imaginez créer une variante où vous changez le CTA, le titre, ajoutez une vidéo, un témoignage et modifiez le corps du texte.

a. Vous testez la variante face à votre page actuelle

b. La nouvelle variante l’emporte.

Brav… non. Tout ce que vous avez appris est que certains éléments ont amélioré votre taux de conversion. Mais vous ne pouvez pas savoir lesquels en particulier puisque trop de changements ont été opéré.

3-interpreter-un-test-ab-variations

Comment savoir quels changement ont amélioré le taux de conversion sur votre page, et ceux qui à l’inverse on sous performé ?

Un test peut vous apporter beaucoup, mais si vous ne pouvez pas mesurer l’ensemble de vos actions, ni vraiment comprendre pourquoi vous avez obtenu ce résultat, et surtout savoir quel changement a eu un impact, ce n’est pas vraiment utile.

Assurez-vous de pouvoir mesurer vos actions. Sans mesure, vous ne pouvez pas apprendre de vos efforts. Et si vous ne pouvez pas apprendre, vous ne pouvez pas les reproduire, ni les améliorer.

Ne testez pas plusieurs éléments à la fois (à moins de maîtriser les tests MVT (ou tests multi-variés). Mais ces tests nécessitent un trafic très important et très peu de personnes l’utilisent.

Vous abandonnez une idée de test en cas d’échec

Si vous suivez nos conseils pour formuler vos hypothèses, vos idées de tests seront basées sur (idéalement une combinaison de ces élements) :

  • web analytics
  • carte de chaleur (ou heatmap)
  • tests d’usage
  • retours utilisateurs
  • analyse heuristique

Exemple :

  • Vos données vous informent que certains visiteurs restent longtemps sur une page produit … et s’en vont.

4-interpreter-un-test-ab-panda

Vous avez aussi pu apprendre depuis les sondages présents sur vos pages produits que les visiteurs ne sont pas vraiment convaincus.

  • Votre analyse heuristique a mis en avant des problèmes de clarté sur vos pages produits.
  • Les cartes de clics montrent que les visiteurs parcourent toutes les photos de vos produits

Vous décidez de modifier le corps du texte de vos pages produit et d’ajouter des images pour rendre vos pages plus claires.

Le test prend fin et … ne remarquez aucune évolution notoire de vos taux de conversion.

Que faire ? Passer à autre chose en imaginant que vos pages sont en fait suffisamment claires ?

Non, surtout pas. Essayez d’améliorer votre page d’une autre façon, avec d’autres éléments. Vous pourriez :

  • ajouter des témoignages
  • retirer les informations non pertinentes pour le produit
  • ajouter une vidéo
  • etc.

Puisque vous savez maintenant qu’il ne faut pas faire de tests en cascade, ni tester plusieurs éléments à la fois sur une même variante, vous pouvez pratiquer le testing itératif en toute confiance.

Il n’y a pas qu’UNE seule solution à un problème donné. Il y en a une infinité. À vous de les trouver !

Que faites-vous si et quand votre connexion internet coupe ? Si vous utilisez un câble ethernet, votre premier réflexe sera probablement de le débrancher, puis de le rebrancher.

Si rien ne change, en concluez-vous que le câble ne fonctionne plus et qu’il faut en acheter un nouveau ?

Ou allez vous l’essayer sur un autre ordinateur, vérifier votre routeur, votre ordinateur, vos serveurs, etc. C’est la même chose en A/B testing.

Ne tirez pas de conclusions trop tôt si quelque chose ne fonctionne pas. Essayez de trouver d’autres solutions, et testez à nouveau.

Vous savez maintenant que l’on peut se tromper de bien des manières dans l’interprétation des résultats d’un test A/B. Nous verrons la prochaine fois que nos cerveaux nous jouent de mauvais tours et peuvent nuire à la validité de nos tests.

Dernières publications :

3 commentaires

  1. Hello Jean-Baptiste, je viens de lire l’article avec attention. Seul point que je ne comprends pas bien, c’est celui sur les tests en cascade.
    Si tu testes A/B puis B/C, en quoi le % de faux positif augmente ? En testant B contre C on mesure deux choses différentes par rapport à A versus B non ?
    Exemple si on mesure un taux de conversion, genre affichages/inscriptions. Premier test donne B meilleur que A, +20% (mettons 120 inscriptions à trafic égal). Si le premier test a été bien conduit, je n’arrive pas à voir le souci.
    Si je teste B contre C et que de nouveau j’ai +20% (144 inscriptions à trafic égal), où se situe le souci ?

    1. Hello Anthony,

      Quand tu testes A vs B et que tu as B vainqueur avec un niveau de confiance à 95%, ça aussi veut dire que tu as 5% de chance que B soit un faux positif.

      Ensuite, si tu prends ton B (donc qui a 5% de chance d’etre un faux positif) et tu le testes contre C, et que C gagnes (toujours à 95% en niveau de confiance), C a donc 5% de chance d’être un faux positif. SAUF QUE, il faut prendre en compte le fait que ton B a également 5% d’être un faux positif. Donc la chance que C soit un faux positif réelle est plus que 5%, elle devient 9%.

      Et bien sûr, cela n’est vrai que si tu testes la même chose à chaque fois, par exemple pour faire simple, un titre de page.

      Si tu testais dans B une description, ensuite dans C tu ajoutes un témoignage, à ce moment-là pas de problèmes.

      Si tu veux tester plusieurs titres différents (si ton trafic le permet) il vaut mieux dans ce cas faire un A/B/n. C’est-à-dire ici : A vs B vs C en meme temps.

      J’sais pas si c’était très clair tout ça 😀

      Hésite-pas à m’envoyer un mail si tu as besoin d’autres infos. jbalarcon {at} kameleoon {dot } com

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Merci de taper les caractères de l'image Captcha dans le champ

Merci de saisir ces caractères dans le champ
ci-dessous afin de valider votre commentaire.

Jean Baptiste Alarcon

Article de : Jean Baptiste Alarcon

Jean-Baptiste Alarcon, l’auteur, est Growth Marketer chez Kameleoon, prestataire de solutions SaaS d’A/B testing et de Personnalisation qui permettent aux équipes marketing de délivrer des expériences optimisées et contextualisées à chacun de leurs visiteurs sans contraintes techniques.