[Tribune] A/B testing : N’écoutez surtout pas votre cerveau !

AB-testing-necoutez-surtout-pas-votre-cerveau

 

ab-testing-m-fantastiqueL’être humain n’est pas fait pour raisonner de façon statistique. Nous sommes imparfaits, irrationnels et subjectifs. Pourquoi ? Parce que nous sommes influencés par une liste de biais cognitifs aussi longue que le bras de M. Fantastique (en photo, au cas où).

Vous pouvez très bien vivre sans vous en soucier, mais si vous êtes en train de lire ces lignes, c’est que vous faites déjà de l’A/B testing, ou que vous y songez fortement. Or, l’A/B testing est une expérience scientifique qui requiert de l’objectivité et des données actionnables, mesurables et pertinentes.

Les biais cognitifs sont une vraie menace.

Ce sont les opinions personnelles, les croyances ou encore les préférences qui influent votre capacité à raisonner, à vous remémorer, ou à évaluer les informations.

Dans cet article, nous verrons que votre cerveau peut vous jouer bien des tours et :

  • Trouver des liens (inexistants) entre des évènements
  • Ne pas comprendre la taille d’échantillon
  • Chercher et interpréter la moindre information pour valider une idée préconçue
  • Repérer des similitudes imaginaires dans votre data
  • Penser que les évènements passés influencent les probabilités futures
  • Penser les informations devant votre nez sont suffisantes pour tirer des conclusions.
  • Baser son raisonnement entier sur la première information reçue
  • Laisser tomber toute logique dès que votre ego ou vos émotions entrent en jeu
  • Ne pas se mettre à la place de vos clients
  • Parce que vous avez toujours procédé de cette façon ne veut pas dire qu’il ne faut pas la remettre en question
  • Surestimer l’unanimité de votre opinion

Trouver des liens (inexistants) entre des évènements

Vous souvenez vous des facteurs externes qui nuisent à vos tests A/B ?

ab-testing-pingouinsSi vous faites abstraction de ces facteurs, vous pourriez supposer que c’est la nouvelle couleur rose de votre CTA qui a fait décoller les conversions de votre variante (et non pas parce qu’une tempête est sur le point d’éclater sur le pays et que les gens se ruent momentanément sur vos produits par exemple).
Le cas échéant, vous êtes victime du biais de corrélation illusoire (ou trompeuse). Vous avez supposé une relation entre deux événements indépendants, sans lien apparent.

La raison du succès ou de l’échec n’est pas si évidente à déterminer. Analysez les résultats de vos tests avec précaution.

Notre cerveau tire parfois des conclusions bien trop vite (je vous conseille la lecture de « Thinking Fast and Slow » de Daniel Kahneman sur ce sujet).
Vous prendrez des décisions importantes à partir de ces analyses, faites-le sérieusement et demandez-vous toujours s’il y a une réelle causalité.

Ne pas comprendre la taille d’échantillon

Dans un article précédent, nous avons souligné l’importance d’établir la taille de l’échantillon à nécessaire pour réaliser un test. Nous mettions en fait en avant le biais de l’insensibilité à la taille d’échantillon. Notre cerveau peine à appréhender correctement la taille d’échantillon et sous-estime les variations sous jacentes aux petits échantillons.

Prenons un exemple de l’ouvrage de Daniel Kahneman :

Une ville possède 2 hôpitaux. 45 enfants naissent chaque jour dans le plus grand, et 15 dans le plus petit. Imaginons qu’il y a exactement 50% de chance d’avoir un garçon. En application, le pourcentage exact varie chaque jour. On compte parfois plus de garçons que de filles, parfois moins.

Pendant un an, chaque hôpital a noté les jours où l’on a observé que plus de 60% des nouveaux nés étaient des garçons. Quel hôpital selon vous en a noté le plus ?

1. Le grand hospital
2. Le petit hospital
3. À peu près la même chose (à 5% près).

Alors ?

Voici les résultats obtenus lors de cette étude :

« 56% des interrogés on choisi la réponse 3, 22% la réponse 1 et 22% la réponse 2. Or, les mathématiques ne mentent jamais. Et selon la théorie d’échantillons statistiques, c’est le grand hôpital qui aura le plus de chances de reporter un ratio au plus proche de 50%. »

La bonne réponse est donc le petit hôpital. En effet, l’échantillon étant plus réduit, les variations sont automatiquement plus importantes.

Il est capital de comprendre cette notion de taille d’échantillon (mais notre cerveau l’oublie souvent lorsqu’il s’agit de résoudre des problèmes comme celui-ci de manière spontanée).
Un petit échantillon peut vous donner des idées de tests, mais n’en tirez pas de conclusions étant donnée qu’elles n’auront aucunes valeurs statistiques. Vous connaissez maintenant les risques. Plus l’échantillon est petit, moins il est fiable.

Chercher et interpréter la moindre information pour valider une idée préconçue

Il est également important de connaître le biais de confirmation. Il se produit lorsque l’on cherche ou se concentre sur une information en particulier simplement pour valider une idée préconçue.

ab-testing-idees-preconcues

On peut y ajouter le biais de congruence. C’est le fait de ne tester ou de ne remettre en question que ce que VOUS pensez être le problème, sans même considérer d’alternative : en résulte un test subjectif.

Prenons un exemple :

Si vous pensez que la couleur rouge augmente les conversions, votre cerveau ne va se concentrer que sur les informations qui semblent confirmer cette idée.

Quand vous pensez avoir raison et que les données semblent confirmer votre idée, demandez vous :

  1. si cela prouve objectivement votre hypothèse,
  2. si cette idée n’est pas alimentée par votre ego,
  3. s’il y a d’autres facteurs qui ont pu influencer cette hausse des conversions.

Si vous ne testez que pour prouver que vous avez raison, vous ne vous y prenez pas bien.

Vous testez pour apprendre, pas pour flatter votre ego. L’impact potentiel du test est ce qui compte.

Repérer des similitudes imaginaires dans votre data et penser que les évènements passés influencent les probabilités futures.

Ce point nous permet de mettre deux biais en avant.
L’illusion des séries : c’est le fait de percevoir des évènements aléatoires arrivant en séquence comme suivant une logique particulière (alors qu’ils sont comme leur nom l’indique … aléatoire).

L’histoire du « Tireur d’Élite du Texas » (the Texas Sharpshooter) illustre bien cet exemple :

C’est l’histoire d’un texan qui s’est abord amusé à tirer sur le mur de sa grange avant de dessiner des cibles autour des groupements d’impacts les plus importants pour vanter sa précision au fusil.

ab-testing-texas-sharpshooter

Ce n’est pas parce que vous remarquez des similarités entre des évènements qu’ils sont liés. Et puis, ce n’est pas parce que vous avez eu une bonne intuition hier que ce sera le cas demain.

De même, ce n’est pas parce qu’une pièce tombe 7 fois d’affilés sur face après 10 lancés qu’elle est pipée. Cela veut simplement dire que vous avez obtenu 7 faces consécutifs.

Et si vous obtenez 39 fois pile après 39 lancés, quelle est la probabilité pour vous obteniez à nouveau un pile après le 40e lancer ? 50%. Il s’agit simplement d’un nouveau lancer dont la probabilité est de 50%.

C’est aussi ce que l’on appelle le sophisme du parieur. Il consiste à croire que si l’on a obtenu un résultat similaire plusieurs fois lors d’une expérience aléatoire, il se reproduira en n+1.
N’arrêtez pas un test parce « vous pensez » avoir remarqué une tendance.

Peut-être que vous avez obtenu de bons résultats basés sur une intuition après un test. Ou du moins vous pensez que c’est le cas. Peut-être que vous êtes dans la même situation que le tireur texan …

Seules les données produites par de rigoureux tests peuvent vous donner raison (ou non). Rangez votre intuition et méfiez-vous de votre cerveau qui est câblé pour essayer de trouver un lien entre toutes les informations qu’il traite.

Penser que ce qui se trouve devant vous et tout ce dont vous avez besoin pour tirer des conclusions.

C’est ce dont Daniel Kahneman parle lorsqu’il écrit que « ce que vous voyez est tout ce qu’il y a à voir ». C’est le fait de tirer des conclusions basées seulement sur ce qui se trouve en face de soi.
Ça vous semble pertinent ?

Prenons à nouveau un exemple :

Une batte et une balle coûtent ensemble 1,10€. La batte coûte 1€ de plus que la balle. Combien coûte la balle ?

50% des étudiants (de Harvard et Yale) à qui la question a été posée se sont trompés. 80% des étudiants interrogés dans d’autres universités se sont également trompés. Je vous laisse trouver la solution par vous même (la réponse n’est pas 0,10€).

Votre cerveau est fait pour tirer des conclusions avec les informations qu’il possède. Sauf que de temps en temps (voire plus) il va un peu trop vite en besogne.

Ce n’est pas parce que vous semblez avoir toutes les pièces d’un puzzle sous les yeux que vous êtes près à les assembler pour le terminer.

Baser tout son raisonnement sur la première information reçue

C’est le biais d’ancrage. C’est le fait que l’on accorde souvent plus d’importance à la première information qui nous est livrée.

Voici l’exemple d’une étude menée par Fritz Strack et Thomas Mussweiler :

On a demandé à deux groupes de personnes quel âge avait Gandhi lorsqu’il est mort.

  • On a demandé au premier groupe s’il était mort avant ou après avoir atteint l’âge de 9 ans.
  • On a demandé au second groupe s’il était mort avant ou après l’âge de 140 ans.

Les deux réponses étaient assez évidentes. Ce qui est intéressant en revanche sont les réponses données dans les deux groupes lorsqu’on leur a demandé de donner une estimation de l’âge qu’avait Gandhi lorsqu’il est mort.

Dans le premier groupe, la moyenne était de 50 ans. Dans le second, elle était de 67. Pourquoi une telle différence ? Parce qu’ils étaient influencés par la première question qui leur a respectivement été posée.

Voici une image d’une étude similaire qui illustre ce biais :

ab-testing-biais-encrage

Selon que le dernier nombre de leur numéro de sécurité sociale était élevé ou non, les deux groupes ont été influencés lorsqu’on leur a demandé d’estimer le prix d’objets de façon aléatoire, comme illustré avec cette bouteille de vin français.

Remémorez-vous la négociation de votre salaire lors de votre dernier entretien. La première personne à donner un nombre annonce le terrain de la négociation. Si un nombre précis est donné, on a tendance à négocier sur de petits écarts (retrouvez l’étude ici). Si l’interviewer est le premier à donner un nombre, c’est ce sur quoi vous allez baser l’ensemble de votre négociation.

Notre cerveau est « fait » chercher des liens entre les informations à sa disposition (devant vos yeux), et en tirer des conclusions. Nous n’avons pas non plus le réflexe de prendre du recul et de considérer la situation de son entièreté.

Faites très attentions aux résultats que donnent vos tests. Quand ils confirment ce que vous pensiez, ne passez pas à la suite. Arrêtez-vous, prenez du recul et vérifiez votre test—ou que vous n’êtes pas juste en train de confirmer vos opinions par un test biaisé. Faites un second test si besoin.

Laisser tomber toute logique dès que votre ego ou vos émotions entrent en jeu

C’est probablement le plus difficile. Vous vous donnez à fond pour travailler sur un design, y passez des heures et êtes même extra fier(e) de votre travail.

Vous lancez un A/B test pour comparer les performances par rapport à l’ancien design…

Et c’est un échec cuisant…

Que faites-vous ?

« Tant pis, mon design est clairement mieux que l’ancien, ils ne comprennent rien »

Non. C’est douloureux, mais c’est aussi la raison pour laquelle vous faites des tests A/B. Pour ne pas perdre d’argent sur des décisions basées sur l’émotion ou l’intuition. Il faut aller dans le sens de ce que veulent vos visiteurs.

Oubliez votre orgueil, repartez de l’hypothèse qui vous a mené à ce nouveau design et essayez de comprendre ce qui n’a pas fonctionné à l’aide des données obtenues.

Si vous parvenez à tirer une croix sur des heures, voire des jours de travail si les données vous y invitent est un signe : vous êtes en train de devenir data-driven.

Et c’est loin d’être facile.

Ne pas se mettre à la place de vos clients

ab-testing-biais-savoirC’est la malédiction du savoir. Elle survient souvent lorsque vous êtes tellement plongé dans un sujet que vous n’arrivez plus à vous mettre à la place de quelqu’un qui y est débutant ou extérieur.

Quand vous savez que quelque chose est là (disons une nouvelle image sur une page), vous ne ne voyez évidemment que ça.

Mais ce ne sera probablement pas le cas de vos visiteurs. Faites l’expérience et demandez à quelqu’un d’une autre équipe de jeter un œil à votre test avant de le lancer.

Ne demandez à un membre de votre équipe. Vous serez probablement victime de l’effet de mode. Les membres d’un groupe peuvent s’influencer mutuellement. En fait, plus les autres réagissent d’une certaine manière, plus on est influencé pour faire la même chose.

C’est ce que montre une étude menée par Solomon Asch. Il a rassemblé plusieurs groupes d’une dizaine d’étudiants. Il les exposait face à plusieurs droites. L’expérience consistait à leur demander laquelle était la plus grande, un par un.

 

ab-testing-effet-de-mode

Dans chaque groupe, tous les étudiants étaient complices, sauf un. On demandait aux complices de commencer par bien répondre, puis de volontairement choisir la mauvaise réponse à partir du 3e essai. Avant derniers à répondre dans chaque groupe, plus de 33% des étudiants soumis au test finissaient par également donner la mauvaise réponse, influencés par le plus grand nombre.

Demandez régulièrement à vos visiteurs, vos clients et à vos collègues d’autres équipes de vous faire des retours, dans le cas contraire vous vous êtes peut-être construit une sorte de réalité parallèle et ne priorisez pas les bons tests.

Parce que vous avez toujours procédé de cette façon ne veut pas dire qu’il ne faut pas la remettre en question

La fixation fonctionnelle correspond au fait d’être coincé dans un raisonnement linéaire. Quand vous voyez un fer à repasser, vous l’associez automatiquement aux vêtements (pensée linéaire). Vous ne vous voyez pas l’utiliser comme un grille pain. C’est ce qu’on appelle la pensée latérale (out of the box).

Plus facile à dire qu’à faire, c’est vrai.
Vous pouvez vous soumettre à l’expérience et demander « pourquoi » à répétition dès que quelque chose vous semble évident ou surprenant. Vous finirez par remonter jusqu’à la source en validant (ou invalidant) votre hypothèse.

D’autres idées pour déclencher votre pensée latérale :

  • Un problème ? Essayez de résoudre son opposé.
  • Pensez à la solution la plus bête et évidente
  • Découpez votre problème en une série de problèmes plus petits et précis
  • Ne soyez pas satisfait avec une seule solution.
  • Changez votre perspective : comment aborderiez-vous ce problème si vous étiez un ingénieur, un scientifique, voire un(e) parfait(e) débutant(e) ?

Surestimer l’unanimité de votre opinion

« Personne n’aime les pop-ups ».

VOUS les détestez peut-être. Elles viennent généralement perturber le client, mais permettent également d’accroître les conversions lorsqu’elles sont bien utilisées (c’est à dire que ce n’est pas la première chose que vous allez voir en arrivant sur un site).

Le biais de l’effet du faux consensus peut rendre difficile l’analyse du feedback.

Il peut arriver que l’on croie fermement en quelque chose et penser que tout le monde partage notre opinion, à tort.

Il est par ailleurs mieux de demander des retours à des individus plutôt qu’à des groupes entiers qui seront forcément influencés par un certain nombre de biais.

Mais faites quand même attention en interrogeant des individus de ne pas tomber dans les préférences personnelles, restez objectifs.

Attention à ne pas le faire vous-même ! Quand vous pensez que quelque chose performe aussi bien qu’il est possible, ou que ça ne peut pas marcher parce que « tout le monde » le déteste, arrêtez-vous tout de suite. Et remettez-vous en question.

Testez les éléments qui auront le plus d’impact, mais testez aussi ce semble déjà bien fonctionner. Il y a toujours un moyen de faire mieux.

Voici qui conclut cet article sur les biais cognitifs et notre série de 5 articles sur les erreurs les plus fréquentes de l’A/B testing. J’espère que vous en aurez tiré 2-3 enseignements et que vos futurs A/B tests seront des succès, libres de tout faux pas ☺

Si vous avez manqué les articles précédents :

1 commentaire

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Merci de taper les caractères de l'image Captcha dans le champ

Merci de saisir ces caractères dans le champ
ci-dessous afin de valider votre commentaire.

Jean Baptiste Alarcon

Article de : Jean Baptiste Alarcon

Jean-Baptiste Alarcon, l’auteur, est Growth Marketer chez Kameleoon, prestataire de solutions SaaS d’A/B testing et de Personnalisation qui permettent aux équipes marketing de délivrer des expériences optimisées et contextualisées à chacun de leurs visiteurs sans contraintes techniques.