Aspects techniques : la fabrique du sondage.

1. L’échantillonnage

La méthode aléatoire consiste à effectuer un tirage au hasard de l’échantillon parmi la population, afin de n’introduire aucun biais (sous- ou surreprésentation de catégories) par rapport à la population réelle. Il faut pour cela posséder un fichier complet de tous les individus de la population, comme celui de l’INSEE, qui recense périodiquement la population, mais ne tient pas à jour son fichier entre les recensements. La liste des abonnés EDF-GDF ou du téléphone constitue un fichier quasi exhaustif des ménages (93% pour le téléphone) mais n’est pas accessible pour des raisons légales ou financières.

La méthode des quotas est la plus employée par les instituts de sondage. Il s’agit de reconstituer une population en miniature, c’est-à-dire de construire un échantillon dans lequel les individus sont répartis selon les mêmes proportions que dans le groupe à étudier. Or il existe bien sûr une infinité de caractéristiques possibles (hommes / femmes, âge, catégories socio-professionnelles, lieu de résidence, salariés du public / privé, etc). Le nombre de facteurs pris en compte dépend donc de la précision escomptée. Celui-ci est toutefois limité car chacune des catégories doit comprendre un nombre suffisant d’individus : par exemple si l’on a seulement trois ouvriers de la chaussure et deux femmes ingénieurs travaillant dans le secteur nucléaire sur un échantillon de mille personnes on ne pourra rien déduire sur ces catégories. La recherche sociologique tente de cerner avec soin ces facteurs, qui ne font toutefois pas l’unanimité, tandis que dans les pratiques commerciales leur définition est généralement plus sommaire. Correctement construit, un échantillon de 1000 personnes peut être très fidèle, tandis qu’un échantillon de 100 000 personnes donnera des résultats peu fiables (cf les « votes de paille ») . La taille de l’échantillon est en principe indépendante de la taille de la population que l’on souhaite étudier (habitants d’une ville, d’un pays) ; en revanche elle dépend fortement de la marge d’erreur statistique que l’on accepte dans le sondage.

Marge d’erreur acceptable

Il ne s’agit pas ici d’une erreur fondée sur des considérations psychologiques ou comportementales, mais simplement de la fourchette d’incertitude qui indique l’écart observable entre différents tirages potentiellement effectués sur cette population. Elle est purement méthodologique et découle du hasard des tirages. Dans le cas de deux réponses possibles à une question, réparties également (50% de « oui » et de « non » par exemple), la valeur de cette fourchette est indiquée dans le tableau suivant :

Cette marge d’erreur est calculable dans le cadre de tirages aléatoires. Pour les « quotas », elle n’est pas calculable avec précision, ce qui participe des critiques adressées à cette méthode. On considère en général qu’elle est du même ordre que celle d’un échantillon aléatoire, pour autant que les conditions du choix de l’échantillon soient proches d’un tirage aléatoire (ce qui est rarement le cas, et est aussi une condition très floue).

Les échantillons sont généralement de l’ordre de 1000 personnes : c’est un juste milieu entre l’exigence de précision et la faisabilité pratique de l’enquête.

La connaissance de la marge d’erreur est essentielle à l’analyse d’un sondage, d’autant plus si les enjeux sont « serrés ». Ainsi, le second tour de l’élection présidentielle de 1981 sembla « faire mentir les sondages » car ceux-ci, qui créditaient en moyenne (sur 21 sondages effectués de décembre 1980 à mai 1981) Giscard d’Estaing de 50,57 % et Mitterrand de 49, 42 % des voix, étaient présentés sans marges d’incertitude.

Difficultés de l’échantillonnage.

Toute partie trop petite d’une population de référence empêche d’y pratiquer tout sondage. Ainsi, aux Etats-Unis, Gallup refusait d’effectuer des sondages avant les élections primaires, auxquelles la participations est très faible (moins de 10 % des inscrits). La population à sonder est ici trop étroite, hétérogène et instable.

Des difficultés d’ordre technique se présentent également chaque fois que l’on s’éloigne des conditions d’une stratification instituée de la population à sonder. Ainsi, tenter d’établir la composition d’une foule est assez aléatoire, et l’on doit se contenter d’interrogations ponctuelles en divers endroits sans autre garantie de précision.

2. Les incertitudes liées à l’élaboration du questionnaire

Une des principales incertitudes quant à la validité scientifique des sondages provient de la façon dont est élaboré le questionnaire : en effet, on voit en prenant quelques exemples de sondages que l’intention de celui qui pose la question (ou la fait poser par un institut de sondage) influe sur la méthode utilisée pour interroger des gens ainsi que sur la signification des résultats. Les préférences des demandeurs influencent ainsi la formulation des questions, l’ordre dans lesquelles elles sont posées, les réponses proposées, et les analyses qu’on en tire. Il peut alors s’agir d’ambiguïtés involontaires de formulation ou de manipulations intentionnelles visant à favoriser tel ou tel résultat (questions dites inductrices).

Il existe tout d’abord de distorsions qui ne procèdent pas d’une manipulation intentionnelle mais d’effets liés au décalage entre ceux qui élaborent les questions et ceux auxquelles elles sont posées. Ainsi, les mêmes mots ne sont pas forcément compris de la même façon dans des contextes sociaux différents : si l’on demande à quelqu’un « s’il prend souvent des vacances », la signification du mot « souvent » ne sera pas la même pour toutes les personnes interrogées. Dans une étude sur les travailleurs de l’industrie, on s’est aussi rendu compte que la moitié des enquêtés confondaient les termes « production » et « productivité ». Faute de réflexion sur la portée des mots utilisés, leur niveau de compréhension, les connotations différentes qui leur sont attachés selon les milieux, de graves distortions peuvent donc intervenir. Néanmoins, les ambiguités de formulations sont assez souvent intentionnelles.

La plus simple des manipulations dans les sondages d’opinion est l’utilisation de la formulation « Etes-vous d’accord avec … » qui pousse à des réponses positives, nombre de personnes n’aimant pas afficher leur désaccord. L’utilisation d’échelles « plus ou moins d’accord » qui est censée contrecarrer cet effet, a une autre conséquence : le gonflement des réponses modérées (plutôt d’accord ou plutôt pas d’accord) au détriment des extrêmes.

On obtient aussi des réponses différentes selon que l’on pose une question sur le mode du souhait ou du pronostic : dans le cas de sondages sur les modes d’énergie utilisé dans le futur, les réponses majoritaires se portent sur l’énergie solaire quand la question est posée sur le mode du souhait, et sur le nucléaire lorsqu’elles sont posées sur le mode du pronostic. Le premier sodage a été commandité par le comité d’action solaire, le deuxième par la chambre syndicale des pétroliers. Le choix de la formulation est dans ce cas lié au résultat qu’on espère, et le glissement de sens entre « Souhaitez-vous » et « Pensez-vous » peut très bien être estompé lors de la lecture qui est faite des résultats.

Dans de nombreux cas, le problème vient aussi du fait que l’on peut comprendre la question de plusieurs façons : on peut prendre l’exemple d’un sondage de 1983, la question posée étant « En cas d’alternance du pouvoir, croyez-vous qu’il faudra dénationaliser ? ». Dans ce cas, on ne sait pas si la question est « Y-aura-t-il dénationalisation en cas de victoire de la droite » ou « Etes-vous d’accord avec la nécessité de dénationaliser ? ». On peut ainsi utiliser un tel sondage pour suggérer qu’une majorité des Français est favorable aux privatisations (exemple tirer de « Les sondages d’opinion », Repères n°38).

Le contexte dans lequel est posé une question peut aussi faire varier les réponses : on voit ainsi que, au lendemain d’un crime d’enfant particulièrement horrible, le nombre de partisans de la peine de mort augment nettement, pour retomber par la suite. On peut donc choisir des moments plus ou moins favorables à l’obtention de la réponse souhaitée.

Enfin, l’ordre des questions joue sur les réponses données selon un effet dit « effet de halo ». Exemple : une première question demande si « l’arrivée au pouvoir de lagauche a eu des effets économiques catastrophiques » et une deuxième « voterez-vous pour la gauche au prochaines élections ». Dans ce cas, la 1^re question a un effet clairement inducteur sur la réponse donnée à la deuxième.

Il existe donc de nombreuses façons d’avantager d’avance un terme du choix par rapport dans la phase d’élaboration des questions et des réponses possibles, dont le choix et l’ordre ne sont nullement neutres. Ces techniques de manipulation sont particulièrement importantes dans la mesure où obtenir une réponse majoritairement positive à un sondage est devenu un argument fort dans le débat politique.

3. Les méthodes d’enquête

Une fois l’échantillonnage effectué, il reste à réaliser l’enquête concrètement. Or, les enquêteurs se heurtent à de nombreuses difficultés qui peuvent induire des biais dans la composition de l’échantillon ainsi que dans les réponses.

Le premier problème est le problème classique des enquêtes quantitatives reposant sur des passations de questionnaire à domicile : selon l’heure à laquelle s’effectue l’enquête, on a beaucoup plus de chance de trouver telle ou telle catégorie socio-professionnelle. Une enquête effectuée dans la journée donnera un échantillon surreprésentés en retraités, femmes au foyer, chômeurs, étudiants et … concierges. L’enquêteur aura ainsi du mal à trouver le nombre de cadres, ouvrières, employés demandés pour son échantillon. Une pratique courante est alors, faute de trouver des « chefs de famille » en nombre suffisant, de prendre l’opinion d’une épouse au foyer comme un fidèle reflet de l’opinion du mari. Par ailleurs, les personnes vivant dans certains lieux (hameaux isolés, étages élevés sans ascenseurs) seront sous-représentés.

Une autre source de biais importante provient de la relation d’enquête elle-même, c’est-à-dire la façon dont les enquêtés perçoivent les questions qu’on leur pose ainsi que l’enquêteur lui-même. Dans certains cas, il peut être assimilé à un policier, à un travailleur social, et cette perception peut éveiller une méfiance te modifier les réponses : on refusera ainsi de répondre à certaines questions, par exemple de rattachement politique, ou bien on n’exprimera pas telle ou telle réponse dont on pense qu’elle sera mal vue. Un bon exemple est ainsi les enquêtes cherchant à évaluer l’importance du racisme, qui reçoivent des réponses très différentes selon les formulations employées, renvoyant plus ou moins directement au racisme, mais aussi selon les caractéristiques de l’enquêteur lui-même (une étude américaine montre ainsi que sur ce sujet, les réponses sont très différentes selon que l’enquêteur est blanc ou noir). On peut ainsi supposer que les réponses ne seront pas les mêmes selon que l’enquêteur est un homme ou une femme, selon son âge, selon qu’il est perçu comme quelqu’un d’un milieu social proche ou éloigné par l’enquêté… Alors que dans une enquête de type qualitatif par entretien approfondi, cette relation d’enquête est analysée comme un composante de l’étude, les enquêtes par sondages font par nature l’impasse sur tous les biais qu’elle peut engendrer.

Enfin, on constate qu’un enjeu important pour l’enquêté peut être de ne pas perdre la face : s’il ne comprend pas à quoi fait allusion la question, il peut très bien répondre tout de même à la question pour ne pas dévoiler son ignorance. Le CREDOC a mis en évidence ce phénomène en posant une question portant sur un amendement imaginaire, « Avez-vous entendu parler de l’amendement Bourrier, concernant la Sécurité Sociale ? », question à laquelle entre 4 et 6% des personnes interrogées répondent oui. Cela montre que dans un sondage, toute proposition, fût-elle imaginaire ou fantaisiste, est susceptible de rencontrer un minimum d’adhésion, car l’enquêté n’est pas une machine à répondre mais une personne prise dans un contexte social, réagissant non seulement à des questions mais à un enquêteur et à l’image qu’il en a, et capable de stratégies.

4. Le traitement des données.

La méthode du redressement

Ce terme recouvre deux pratiques de traitement des données, selon que l’on souhaite corriger un biais structurel de l’échantillon ou un biais observé a posteriori dans les réponses (typique des sondages politiques).

Il est licite d’appliquer un coefficient multiplicatif au nombre de réponses obtenues dans une catégorie sous-représentée (quelles qu’en soient les raisons) afin de ramener celle-ci à son poids réel dans la population. Ainsi, si l’on a interrogé dans un échantillon moins d’ouvrier que n’en compte proportionnellement le pays, cette opération est tout à fait justifiée (à condition que l’ampleur de cette correction soit faible : il ne s’agit pas d’interroger la moitié d’une catégorie puis de multiplier le résultat par deux). Toutefois, ce redressement ne doit pas perturber les équilibres généraux de l’échantillon (répartition hommes/femmes, des classes d’âge…).
Dans le cas des sondages politiques, c’est le résultat final que l’on corrige, indépendamment de l’échantillon considéré. Par expérience, les sondeurs observent en effet un biais récurrent : le vote pour les partis d’extrême-droite ou d’extrême-gauche s’avoue difficilement devant l’enquêteur. En contrepartie, certaines formations, comme le PS, bénéficient toujours de plus d’intentions de vote que de votes réels (ou bien les électeurs du PS répondent plus aux enquêtes d’opinion, ou bien ceci est l’effet d’une « révérence envers l’idéal socialiste »)[1]. La méthodologie de ces redressements repose sur la comparaison des prédictions avec les précédents scrutins. Ainsi on demande au sondé quel a été son vote aux dernières élections, puis on ramène ces aveux, biaisés, au résultat réel. Le problème de cette méthode est que l’on joue avec une variable de trop : mathématiquement, on se trouve face à une équation possèdant deux inconnues, la prédiction du scrutin à venir et le vote passé qu’avouent les sondés, sans qu’on puisse leur faire confiance. Lors d’une enquête électorale, on interroge ainsi les sondés sur leur vote lors de la précédente élection. Si 7 % d’entre eux avouent avoir voté pour le Front National dans un scrutin où il obtint 13 % des suffrages (Législatives de 1993), il faudra multiplier en proportion le nombre d’intentions de votes avouées pour ce parti lors de l’élection suivante. Cette méthode est donc a priori incapable de distinguer ce qui relève de l’inavouabilité du vote, et ce qui relève de l’évolution de cet électorat, comme l’a montré le premier tour de l’élection présidentielle de 2002. En outre, elle est inopérante dès lors qu’une configuration politique inédite se constitue pour une élection (comme le binôme du RPR Balladur-Chirac aux présidentielles de 1995 pour lequel on ne possédait aucun « critère objectif » de correction d’un biais éventuel, ou la candidature de Chevènement en 2002). Enfin, une part indéniable d’intuition intervient dans de telles corrections. Celles-ci sont toutefois contrôlables objectivement par la Commission des Sondages : elle dispose des chiffres bruts et redressés, peut demander des comptes aux instituts et rendre publiques toutes ses observations. En conclusion, si « un bon sondage est un sondage bien corrigé »[2], dans quelle mesure cela permet-il « non de figer des choix mais au contraire de suivre les évolutions » de l’opinion, qui, nous rappelle J. Jaffré, « a le droit de changer » [3] ?

[1] Jérôme Jaffré, Vice-président de la SOFRES, « Les sondages mesurent l’opinion, ils ne la créent pas », entretien accordé à Médiaspouvoirs, mai 1995.

[2] Colloque de l’AFSP, 1984

[3] Jérôme Jaffré, op. cit.

Source

Aspects techniques : la fabrique du sondage.

FRANCE

TOP PUBLICATIONS
DANS CETTE RUBRIQUE

Aspects techniques : la fabrique du sondage.

FRANCE

TOP PUBLICATIONS DANS CETTE RUBRIQUE

TOP PUBLICATIONS
DANS CETTE RUBRIQUE