3 questions essentielles sur les tests A/B et multivariés

Par Sylvain | juin - 14 - 2012 | 19 commentaires  
Auteur de ce billet : Sylvain Lys est le responsable des campagnes d'optimisation de Wexperience, web agency spécialisée dans l'optimisation de la conversion à la performance. Il conduit en permanence une trentaine de tests par mois pour ses clients et bénéficie d'une grande expérience dans le domaine.
» Voir tous les articles de Sylvain

Tableau de bord de tests AB sur Visual Website Optimizer

L’optimisation de la conversion des sites ecommerce passe nécessairement par l’utilisation d’outil de tests A/B ou multivariés. Or, il est désormais possible avec de tels outils (comme Visual Website Optimizer que nous utilisons régulièrement chez Wexperience) de pousser de plus en plus loin l’analyse du trafic et d’arriver à des solutions extrêmement rentables pour les marchands. Cela dit, même s’il est relativement simple techniquement de mettre en oeuvre une campagne, il y a certains préalables qu’il faut bien connaître afin de maximiser les résultats d’un test.

Combien de temps dure un test ?

Très variables dans le temps, les performances des différentes combinaison d'un test finissent par se stabiliser, mais il est utile de prolonger assez longtemps de le test pour lisser les effets de bord

La question de la durée est primordiale et il est inutile pour cela de se tourner vers des outils sophistiqués de calcul, mais plutôt de faire appel à un certain bon sens(entre autres). La durée dépend :

  • De la quantité de trafic testé, mais pas seulement.
  • De notre expérience, il s’avère que le nombre de conversions nécessaires pour obtenir un résultat valide doit atteindre les 500 testeurs, bien que ce nombre soit à prendre avec des pincettes. Il peut-être atteint plus ou moins vite en fonction de l’endroit du site que l’on teste (landing page, tunnel, fiches produits). Attention, ce n’est pas parce que vous atteignez ces 500 conversions en 1 semaine que votre résultat sera probant.

En effet, il faut aussi prendre en compte pendant la durée du test les différentes typologies de trafic qui transitent sur votre site.

Effets des facteurs externes sur les tests

Untitled

Le temps peut jouer comme un facteur sur les tests

Exemple : si vous faites une campagne d’emailing pendant la première semaine du test, vous allez vous adresser à une catégorie de population qui a aura tendance à convertir plus ou moins (ça dépend), mais qui viendra biaiser le résultat plus global du test. De la même manière, une opération commerciale (soldes, remises exceptionneles, frais de port offerts) viendra perturber votre résultat. Et si vous ne faites rien de tout cela, pensez aussi que la météo ou l’actualité sportive (Coupe d’Europe) peuvent aussi avoir un impact sur vos visiteurs et la qualité du trafic. C’est pour cela qu’il est important de laisser courir un test suffisamment longtemps afin de lisser si possible tout ces effets. Cela peut durer 2 semaines, mais parfois être beaucoup plus long.

Doit-on segmenter son test ?

Baseline Traffic via Advanced Segments

Segmenter permet d'affiner la recherche des meilleures solutions

Conséquemment à ce que nous venons de dire, il peut être aussi une bonne idée de segmenter son test pour lisser les effets de bord. En effet, en segmentant, il est possible de s’adresser à ces catégories de visiteurs ayant, à priori, les mêmes comportements. Les effets de bords des évènements extérieurs ou intérieur au site s’y feront moins sentir. Attention toutefois : segmenter un test, revient à segmenter le trafic, ce qui en rallongera d’autant la durée. Autre difficulté, du moins avec WVO, il n’est pas possible de segmenter votre trafic selon des données CRM. Ce type de segmentation est certainement possible avec T&T d’Adobe, mais le coût d’une telle solution n’est réservée qu’à des très grosses sociétés ayant les moyens d’amortir ces coûts.

Toutefois, si l’on revient sur VWO, il est tout à fait possible de segmenter un test selon des origines de trafic, des récurrences de visites ou des données récupérées dans des cookies. Par exemple, un test pourra sur un site récupérer des données de cookie indiquant un montant d’achat pour un client donné, son nombre de visites depuis son dernier achat et de vérifier la perfomance de plusieurs variantes adéquates. Cela permet d’aller beaucoup plus loin que des simples tests d’ergonomie en tentant par exemple de faire varier des messages publicitaires en fonction des visiteurs, voire, pourquoi pas, également offrir des codes réductions plus ou moins forts.

Les règles de segmentation sur VWO sont intéressantes et permettent de sélectionner finement le trafic à tester

Peut-on personnaliser les résultats ?

L’intérêt d’un test, c’est bien sûr de pouvoir mettre en oeuvre rapidement son résultat. Malheureusement, c’est souvent impossible étant donné les inerties de temps liées au métier du développement. Encore une fois, VWO nous apporte la solution qui consiste à prolonger un test à 100% sur sa version gagnante. L’intérêt de faire cela permet :

  • A la fois, de générer du CA supplémentaire en temps réel si la version gagnante possède une valeur par visite supérieure à celle de la version de contrôle
  • Mais aussi de segmenter finement les résultats du test en fonction des catégories de visiteurs que vous avez décrites.

Toutefois, il n’est pas possible de faire courir ces tests indéfiniment, car ils consomment des testeurs au même titre qu’un vrai test. Et ces testeurs là ne peuvent pas être utilisés pour d’autres tests.

Tout est possible, mais pas pour tout le monde

Comme vous venez de le lire, il est possible d’aller beaucoup plus loin dans des tests A/B que de tester de simple couleur de boutons ou la mise en forme d’une page. Toutefois, l’approche évoquée ici nécessite déjà une certaine expérience et une bonne connaissance du client à travers les webs analytics et leur comportement. A noter également, et ce n’est pas le moindre des inconvénients évoqués ici, seuls des sites dépassant le million de visiteurs peuvent se permettrent de pousser aussi loin les méthodes d’optimisation.

Vous souhaitez rédiger un article qui sera publié sur le blog du Capitaine ? CLIQUEZ ICI

19 commentaires pour l'instant.

  1. Damien dit :

    Je confirme pour test & target avec le datawarehouse

  2. Julie dit :

    Petite remarque sur le nombre de “500 conversions”. Je ne suis pas d’accord du tout, et cette phrase indique un manque de compréhension des lois statistiques un peu inquiétant pour quelqu’un qui est sensé être dans le métier… Le nombre de conversions ne signifie rien, ce nombre minimum dépend de l’écart de performances entre les différentes solutions testées.

    Si on a 2 solutions dont une qui fait 2 fois plus de conversions, le test sera très court, pas besoin d’attendre 500 conversions. Si on a un différentiel de 2% par contre, il faudra des milliers de conversions pour arriver à un résultat statistiquement fiable, 500 ne sera pas du tout suffisant…

    Il y a des formules qui permettent de calculer ça précisément, mais elles arrivent au résultat que j’indique plus haut.

    Julie

    • Capitaine dit :

      Bonjour Julie,
      Je ne suis pas tout à fait d’accord avec toi non plus.
      Le nombre de 500 peut paraître arbitraire et il l’est, en effet, dans la mesure où nous travaillons avec une certaine typologie de marchands (un certain trafic sur certaines pages). Donc, mea culpa, ce nombre n’est qu’une indication et il est vrai qu’il n’est pas forcément vrai toujours tout le temps.
      En revanche, il semble indispensable, dans tous les cas, de recueillir un nombre statistiquement suffisamment représentatif de testeurs pour pouvoir valider un test.
      Comme je le dis dans l’article, on ne peut pas considérer un test valide même si l’écart de performance est très grand sur un temps trop court de test. Une semaine me parait un minimum et encore… On s’aperçoit que le temps à tendance souvent à contredire les résultats de la première heure, notamment à cause des externalités du test.
      Qu’en penses-tu ?

      • Julie dit :

        Il est important d’attendre assez longtemps pour lisser effectivement.

        Après, quel que soit le type de sites, sur un même site on peut avoir un test qui fait 2% de différence et un autre qui fait 20%, tout dépend du test. Personnellement je ne prend aucun minimum, je fais confiance aux maths, qui prennent en compte le nombre d’évènements dans leurs formules de toutes façons pour indiquer si la variation est significative ou pas.

    • Sylvain dit :

      Bonjour Julie, et merci pour ce commentaire.

      J’aurai dû en effet détailler un peu plus cette partie de l’article. Il s’agit d’un nombre que nous communiquons à nos clients à titre indicatif afin de déterminer une durée escomptée des tests en fonction du trafic du site testé. Nous avons eu des résultats significatifs au bout de 300 conversions comme d’autres à 3000, c’est pour cela que ce chiffre est à prendre avec des “pincettes”.

      • Capitaine dit :

        Oups, je n’avais que tu avais aussi répondu. :-)

      • Sylvain dit :

        De même cher Capitaine :D

      • Julie dit :

        Exact, d’après les tests que j’ai pu faire, c’est rare que ça soit significatif avec 300 conversions, mais ça arrive (ça veut dire avoir trouvé une variation qui améliore le taux de conversion de près de 20%… ou une variation très mauvaise, lol).

        Mais c’est plus souvent beaucoup plus que ça, en tout cas donner un nombre fixe ne veut pas dire grand chose, il faut indiquer que ça dépend de l’importance de la variation, ça peut être 250 comme 25000 :)

    • Loic dit :

      Assez d’accord sur ce point!
      La plupart des solutions de testing “enterprise” fournissent un “interval de confiance” qui est calculé selon des formules comme cité ci-dessus. Cet indicateur est absolument requis lors d’un test fractionnel factoriel et permet de mesurer la performance des interactions entre les facteurs, y compris des expériences qui n’ont pas été affichées aux visiteurs.

      le comptage des (500) conversions est assez aléatoire, notamment si le trafic évolue pendant le test en cours (ex: nlle campagne, soldes etc..)

      L’avantage de l’interval de confiance est qu’il est basé sur l’orthogonalité des facteurs/variables voire même appliqué à des segments. et non sur les expériences.

      Enfin cet interval de confiance peut et doit être mesuré contre les KPI utilisés pour mesurer le succès d’un test (ie: clic, CTR page suivante, panier, conversion)

      ex: on peut très bien avoir un interval de confiance très haut sur le premier indicateur, alors qu’il sera presque nul sur la page de confirmation…

      En général on arrete pas un test tant que l’interval de confiance n’atteint pas 95%

      Encore une fois, ceci s’applique essentiellement au MVT et dépend de la solution utilisée ;)

      • Capitaine dit :

        Salut Loïc,

        Peux-tu expliquer un peu plus clairement “L’avantage de l’interval de confiance est qu’il est basé sur l’orthogonalité des facteurs/variables voire même appliqué à des segments. et non sur les expériences.” ?

        Par ailleurs, d’accord sur le fait qu’il faille mesurer plusieurs kpi de succès sur les pages du tunnel suivant la page de test. On peut difficilement tester une page hors de son contexte, c.a.d., par exemple, hors du tunnel de commande jusqu’à la confirmation.

      • Julie dit :

        C’est pas faux, j’ai oublié de préciser qu’il faut si possible tenir compte de tous les facteurs : un test qui améliore le taux de conversion de 10%, s’il dégrade le panier moyen de 30% dans le même temps, c’est pas une très bonne affaire, les chiffres peuvent être trompeurs :-)

      • Loic dit :

        2 méthodologies principales: Full-factorial et fractional factaorial:
        -Full Factorial : on teste toutes les interactions possibles
        avantage: on va découvrir l’ensemble des interactions possibles
        inconvenient: Le test risque d’etre tres long, et parfois ne pas degager de winner. ce modèle a été développé par l’industrie afin de diminuer les couts de fabrication afin de s’assurer que le changement d’un process ou d’un composant mécanique n’impactent pas négativement le temps de fabrication ou la qualité de fabrication d’un véhicule par exemple: Cette méthodologie est donc assez différente du contexte du marketing online: augmenter les conversions, découvrir une ou plusieurs versions optimales d’une page, autrement dit prédire quelle est la version la plus performante d’une page en un minimum de temps.

        -Fractional Factorial: On va tester un nombre minimal d’experiences (ou combinaisons)afin de réduire la durée du test tout en se reposant sur une analyse statistique des interactions entre les facteurs et variables.
        Pour que cette analyse soit valide, il faut s’assurer que chaque interaction facteur/niveau ou variable/valeur soit exposé un même nombre de fois.
        rappel: un test full-factoriel est orthogonal par défaut puisse que l’on teste toutes les interactions possibles.

        Lorsqu’un test fractionnel factoriel est analysé, s’il est orthogonal, on va pouvoir décoréler l’impact de chaque facteur/variable de la performance générale de la page (ou de l’expérience)

        C’est à ce moment la que l’on va découvrir les interactions pertinentes entre certains facteurs qu’il est rarement possible de prévoir pendant la
        création du test.
        Si le test n’est pas orthogonal, on va passer à coté de certaines interactions, ou du bruit (ex: trafic spécifique, campagnes, segments etc) va fausser l’analyse des résultats, ou devoir laisser tourner le test plus longtemps avant qu’une certaine combinaison se détache du lot.

        C’est une question de stratégie et de maturité chez le client: que préfère t’il savoir?
        -Que la version 9 a augmenté de y% la performance en 45 jours?
        -que la version 9 devrait augmenter de z% la performance en 5 jours?

        C’est ici que ça devient pertinent pour de la segmentation (afin d’appliquer différentes combinaisons ou facteurs seuls lors d’un ciblage comportemental) (et donc sans avoir besoin que l’IT implémente le ou les winners)
        -Si le test est full factoriel: la segmentation va demander plus de temps (le test etant divisé) – il fa faloir plus de trafic pour identifier le contenu optimal pour chaque segment. Ce qui est peut pertinent pour le marketing.
        -Si le test est fractionel factoriel, la durée ne va pas changer, ce qui va changer c’est le taux de confiance de chaque combinaison en fonction du segment.

        Full fractionel et fractional factoriel sont donc à choisir selon l’objectif que l’on veut atteindre: lors d’un test disons avec 5 facteurs de 2 à 4 niveaux chacun, quel que soit le trafic, il va falloir des semaines pour qu’une combinaison se detache, et certaines combinaisons n’auront pas de sens..
        exemple: dans le meme test , sur differents facteurs, on veut tester l’impact de la rassurance et en meme temps du prix le plus bas. les 2 messages vont se croiser, et donc ajouter du bruit sur la performance des autres facteurs. Ce bruit va d’autant plus augmenter la durée du test avant d’avoir une combinaison qui se détache, au risque de faire baisser les conversions sur les expériences qui performent mal.

        Le meme test en fractionel factoriel sera indiscutablement plus rapide, avec des résultats qui sont calculés statistiquement (d’ou la notion de prédire l’optimal) c’est grâce à l’interval de confiance que l’on pourra décider ou non d’arreter le test. Cette méthode permet également d’éliminer certaines combinaisons que l’on ne souhaite pas tester en choisissant un autre tableau orthogonal le plus proche de celui qui correspond à présenter certaines expériences aux visiteurs: On ne teste pas une expérience control contre les autres expériences (challengers) on teste un nombre défini d’interactions entre les control de chaque facteur contre les challengers du meme facteur, indépendemment…

        L’analyse du test est donc beaucoup plus rapide et granulaire, et donc de comprendre la pertinence de tel ou tel facteur sur la segmentation par exemple.

        Enfin, lors de la transformation du test en ciblage ou une implémentation du du ou des winners par l’IT, les changements seront mineurs (puisse qu’on ne remplace que des éléments de la page par du contenu optimal et non pas la page complète).

  3. Capitaine dit :

    @Loïc : voilà qui mérite débat ! En tout cas, merci pour ta réponse très explicite.

  4. gsm55 dit :

    je connais pas de boite qui ont le temps de faire ce genre de test. en plus faut mettre du javascript partout

    • Capitaine dit :

      Salut GSM55,
      Avec les solutions les plus performantes, il n’est pas nécessaire de mettre du javascript partout.
      Par exemple, Visual Website Optimizer ne nécessite que la pose d’un tag pour démarrer les tests et c’est tout. Cela demande vraiment très peu de temps d’intégration.
      Pour le temps, il est vrai que ce genre de prestation doit être externalisée, justement pour ne pas pénaliser les équipes techniques dédiées au développement de fonctionnalités.
      As-tu déjà essayé de faire des tests sur ton site ou pour un autre site ?

  5. Je suis tout à fait d accord avec la remarque de julie et tout autant avec celle de Loïc.
    Je rajouterai que la significativité n est pas une finalité en soi, il faut aussi atteindre la “pertinence statistique” . ( je peux à peut prêt tout démontrer statistiquement, meme (surtout?) Ce qui n est pas pertinent. ) De plus il existe plusieur test stat possible pour traiter les données ( et c est le contexte.qui nous oriente), certain test étant plus gourmand en data que d autre. Perso je ne fais plus de test a/b a proprement parler… Je fait du multidimensionnel et j inclu le plus possible les effets d’interaction. Il ne faut pas oublier que l on suppose une certaines linéarité des réponses… Mais qu’en pratique on ne L observe que rarement.

    Faut vraiment que je L écrive mon livre blanc sur le test a/b .. depuis le temps que j en parle :p

Rédiger un commentaire




Wexperience  Emploi E commerce

Blogs ecommerce amis à visiter : Ecommerce Squad - Exciting Commerce - I Love Web - Ludovic Passamonti - Pauline Pauline - Rich Commerce - Tablette Tactile - Ziserman.com

Site hébergé par NBS System, spécialiste de l'hébergement ecommerce NBS System

Copyright © 2007 - 2013 Capitaine commerce - Le Blog du Commerce Digital - Ce blog utilise WordPress - Webmaster (et éplucheur de CPs) Alexis Sauvage Aka Robin

[ Capitaine Commerce SARL - RCS Lille B 789 520 046 - SIRET 78952004600010 ]