mardi 12 juin 2012

Caca dedans, caca dehors, ou le drame du GIGO

Durant une discussion hier soir avec d'anciens étudiants, lors d'une soirée de fin de promo, plusieurs d'entre eux m'ont fait part d'un de leurs meilleurs souvenirs de l'année : l'expression "Caca Dedans, Caca Dehors" (en anglais, GIGO pour "Garbage In, Garbage Out").
L'acronyme GIGO est employé en informatique, en traitement du signal... Et aussi, dans le cas qui m'intéresse, dans le domaine des études marketing. Il renvoie à la notion de qualité des données. L'idée est que si, dans un questionnaire, les questions sont mal posées, les réponses n'auront aucune valeur.

Par exemple, dans le questionnaire ci-dessous (réalisé par un institut d'études réputé, qui "envoie la sauce"), la question, sensée mesurer l'image de plusieurs marques de biscuits d'apéritif, n'a simplement pas de sens. On force en effet les répondants à donner leur avis sur des marques que, potentiellement, ils n'ont jamais essayées, voire même dont il n'ont peut-être jamais entendu parler. Il n'existe pas de possibilité de non-réponse. Ou pire...


Que va faire une personne qui ne connait pas les biscuits salés 3D? Elle ne va cocher aucune case pour cette marque.
Que va faire une personne qui pense que 3D n'est pas une marque bas de gamme? Elle ne va pas cocher la case correspondante.
Au final, si 25% des répondants cochent la case "C'est une marque bas de gamme", l'analyste pas futé avancera que 75% des interviewés pensent que c'est une marque qui n'est pas bas de gamme... Alors qu'en fait, dans ces 75%, il y a un nombre indéterminé de personnes qui ne connaissent pas cette marque ainsi que d'autres qui ne pensent pas, effectivement, que c'est une marque bas de gamme.

Autre source possible de CDCD (Caca Dedans, Caca Dehors) : les questionnaires trop longs. Il fallait en général entre 40 & 60 minutes à un répondant pour venir à bout du questionnaire (administré par un intervieweur vaguement briefé). Par exemple, voyons dans quel contexte général apparait la question présentée ci-dessus :
Et oui! Une double-page contenant 36 questions, pour 10 marques... Soit potentiellement 360 cases à cocher, sur les 8 & 9è pages d'un questionnaire qui en comptait 11. Inutile de dire que l'interviewé fatigué dira à l'enquêteur, au choix : "Remplissez pour moi!", "Ah non, je saute ces questions", ou encore "C'est trop long, j'arrête!"... Au meilleur des cas, il s'arrêtera à la moitié des questions... Que peut faire l'enquêteur? Balancer ce questionnaire à la poubelle, & ainsi foutre en l'air 25 minutes de travail (surtout s'il est payé au questionnaire), ou... Sauter les questions pour passer aux suivantes, et répondre à cet immonde tableau lui-même, après l'interview?

Les meilleures analyses au monde seront donc ainsi confrontées à un cas extrême de GIGO : Garbage in (les données rentrées par l'enquêteur) Garbage out (les analyses statistiques réalisées sur ces tableaux de données).
Je passe sur les biais d'échantillonage...

Bref : par maladresse, manque d'expérience, volonté d'en avoir le plus possible pour son argent en faisant des questionnaires trop longs, manque de connaissance du terrain, de nombreuses études marketing aboutissent à des résultats bidons, des statistiques fausses... Caca dedans, Caca dehors!


(écoutez à 4'21" pour comprendre d'où provient mon expression)