Pas de mise à jour des projections ce matin puisqu'il n'y a pas eu de nouveau sondage (Mainstreet publie à tous les jours mais les changements sont faibles). Vous pouvez regarder les projections d'hier si vous voulez.
Ah les sondages! Magnifiques pour certains,
outils anti-démocratiques et faux pour les autres. Je ne compte ici faire un débat sur
l’utilité ou l’influence des sondages. Mon but est assez simple : mesurer
la fiabilité des sondages au Canada et au Québec en particulier. Une question spécialement pertinente pour moi. En effet, mes projections ne seront fiables
que dans la mesure où les sondages le sont également.
Soyons clairs ici, ce billet ne parlera pas des
changements dans les intentions de vote durant une campagne. Oui Justin Trudeau
était projeté avec très peu de chances au début de la campagne 2015 et a
finalement gagné (le PLC était 3e à 25%). Cela ne signifie pas que les sondages du début de campagne
étaient faux! Non, le but ici est de regarder les derniers sondages parus lors
d’une campagne et de les comparer aux résultats.
Je vais utiliser des données des élections au
Québec (2008, 2012 et 2014) ainsi que de l’Ontario, Alberta, Colombie-Britannique
et des trois dernières élections fédérales.
Voici la méthodologie :
1) Collecter les sondages de fin de campagne.
Wikipédia est en général très utile pour cela. J’utilise les sondages de la
dernière semaine de campagne. Un seul sondage par firme. Moyenne simple, pas de
formule compliquée basée sur la taille d’échantillon ou avoir été oublié 1 jour
plus tôt (une étude faite par David Coletto d’Abacus et moi-même a montré que
tous ces effets n’étaient pas significatifs).
2) Comparer cette moyenne aux résultats. En
général pour les 3-5 partis majeurs (cela dépend de la province; Pas de règle
stricte mais en général il s’agît simplement des partis inclus dans les
sondages).
3) Calculer l’erreur absolue moyenne ainsi que
les vraies marges d’erreur.
Un peu d’explications sont nécessaires pour le troisième
point. L’erreur absolue est la suivante : imaginons que que le Parti
Libéral soit à 25% dans les sondages mais récolte 27% le soir de l’élection. C’est
une erreur de 2 points. L’erreur absolue serait la même si les sondages avaient
plutôt surestimés ce parti par 2 points, à 29%. Prendre la valeur absolue est
importante car sinon les erreurs s’annuleraient (entre partis) et cela nous
donnerait la fausse impression que les sondages sont parfaits.
La « vraie marge d’erreur », ou marge
d’erreur effective, est une mesure de l’incertitude des sondages dans le monde
réel. Ce n’est pas la même chose que l’erreur absolue dans le sens où cette
erreur est juste une moyenne alors que la marge d’erreur nous donne une idée de
la distribution des erreurs. En d’autres mots : la marge d’erreur nous
fournit le niveau d’incertitude des sondages, pas seulement la précision absolue. Les marges nous donnent un intervalle dans lequel le résultat actuel devrait y être 95% du temps.
Les sondages publient tous une marge d’erreur
(le plus ou moins 3% 19 fois sur 20). Mais cette marge est théorique (et fausse
en fait. Un parti à 45% n’a pas la même marge qu’un parti à 5%, mais oublions
cela pour l’instant). Laissez-moi vous expliquer. Il y a essentiellement trois
sources d’incertitude pour les sondages :
a) Le fait qu’on ait seulement un échantillon
de la population
b) Le fait que les gens peuvent changer d’avis
entre le moment où ils ont répondu au sondage et le moment de voter. Les gens
peuvent aussi mentir.
c) Le fait que le sondage ne sonde pas les
bonnes personnes. Imaginons un sondage où vous ne demander qu’aux francophones
au Québec, oubliant les anglophones.
Les marges d’erreur des sondages ne tient compte que du point a). C’est une source
importante d’erreur mais dans les faits, avec la multitude de sondages que nous
avons, cette erreur est quasi nulle. En effet lorsque je fais une moyenne entre
5-6 sondages, la marge d’erreur devient très, très petite. S'il s'agissait de la seule source d'incertitude, faire une moyenne des sondages devrait nous donner des résultats super précis. Mais ce n'est pas le cas (et cela explique aussi pourquoi je m'en fous un peu de ces marges d'erreur. En particulier le débat sur les sondages en ligne qui n'ont pas un échantillon probabilistique est une perte de temps complète selon moi).
Mais les sondages ne sont pas parfaits, cela
veut dire que b) et c) sont importants. B) peut se produire lorsqu’un évènement
de dernière minute arrive ou que beaucoup d’électeurs étaient indécis entre
deux ou trois options. Il y a aussi des cas où les gens cachent leurs vraies
intentions. C’est possiblement le cas lorsqu’il y a des partis d’extrême droite
(bien que cela ne semble plus tellement être le cas ces dernières années). Possiblement le cas au Québec avec la prime à l'urne des Libéraux.
Finalement, c) peut survenir lorsque les
sondages font une erreur de ciblage. Aux USA en 2016, les sondages n'ont
semble-t-il pas inclus assez de « hommes blancs sans éducation
universitaire » dans leurs échantillons. Cela a sous-estimé Trump dans
plusieurs États clé. Les sondages en général utilisent la pondération du
recensement mais cela ne fonctionne pas quand les électeurs diffèrent
substantiellement de ce recensement (15% de blancs sans éducation mais ils
représentent 25% des électeurs disons).
Ce billet n’essaie pas d’estimer lequel de a, b
ou c est plus important. Je mentionnais cela uniquement pour vous convaincre
que les sondages ont une précision réelle bien plus faible que la précision
théorique.
Sur ce, regardons les chiffres.
1. Au Québec seulement.
Prime à l’urne aux Libéraux? Autre source d’imprécision?
Voici ce que nous obtenons pour les trois dernières élections.
Première remarque : les sondages avaient
été vraiment très bons en 2014 mais moins bons tant en 2012 qu’en 2008. Tout le
monde se souvient de 2012 car les Libéraux avaient failli créer la surprise en
n’échouant qu’à 4 sièges du PQ. Le PLQ avait été sous-estimé par les sondages
pas près de 5 points! Les gens ont probablement oublié que les sondages n’avaient
déjà pas été extraordinaires en 2008 alors qu’ils avaient légèrement surestimé
les Libéraux (la seule fois) et sous-estimé le PQ.
Une précision moyenne absolue de 1.6 points est
assez bonne. Mais souvenez-vous qu’il s’agît d’une moyenne. En 2012 l’erreur
moyenne n’était que de 1.9 points mais, tel que mentionné ci-dessus, le PLQ était
près de 5 points trop bas. La moyenne est baissée car les sondages avaient par
exemple estimé la CAQ quasi parfaitement. Dans les faits, chaque élection a eu
un parti relativement loin des sondages (PQ sous-estimé par 2.8 pts en 2008,
PLQ en 2012 et PLQ encore en 2014 mais seulement par 1.4 pts).
Une marge d’erreur de 3.8 points signifie que
même après avoir fait une moyenne de plusieurs sondages, il reste une
incertitude considérable. Si vous voulez créer des intervalles de confiance à
95% (donc un degré élevé de certitude), il vous faut ajouter et soustraire 3.8
points à chaque parti. Dans le cas de l’élection actuelle, cela signifie que le
PLQ pourrait être à 34% et la CAQ à seulement 33% par exemple. Encore une fois, certains d'entres vous vont me dire que c'est proche du plus ou moins 3% des sondages mais ce n'est pas la même chose. Le plus ou moins 3% est l'incertitude théorique d'un seul sondage. Ce 3.8% est l'incertitude empirique de la moyenne.
2. Au Canada en règle générale
J’avais publié un
article similaire, en anglais, lors de l’élection Ontarienne. Voici le
graph (en anglais, dsl je ne voulais pas le refaire juste pour ce billet).
Si vous incluez les deux vraiment grosses
erreurs en Alberta 2012 et CB en 2013, la marge d’erreur est de plus de 5
points! Cela veut dire que lorsqu'un parti est sondé, en moyenne, à 35%, il vous faudrait en fait imaginer plutôt un intervalle allant de 30 à 40%!
Conclusion
Les sondages, tant au Québec qu’au Canada ces
dernières années, sont plutôt bons. Ils ont cependant quelques râtés majeurs
comme au Québec en 2012, Alberta 2012 ou CB 2013 (il y a aussi de plus petites
erreurs telles que l’élection fédérale de 2015 avec une sous-estimation
importante du PLC, en particulier au Québec ou la récente élection Ontarienne
où les sondages téléphoniques avaient tout bons mais les sondages en ligne
étaient dans le champ. Note : de manière générale, je n’ai pas trouvé de
différence systématique entre les deux méthodes).
Qui plus est, même lorsque les sondages sont
plutôt bons, il reste une incertitude importante. Dépendamment des élections
incluses dans le calcul, on parle de marge d’erreur pour la moyenne des
sondages de 4-5%.
Voici mon avis personnel: les sondages sont fiables dans une certaine mesure. Espérer une précision absolue alors qu'ils essaient de mesurer quelque chose de difficile (les intentions de votes, qui sont une fonction de la participation, etc) est une erreur. Nous n'aurons jamais de précision absolue et les surprises arrivent relativement souvent, parfois petites, d'autres fois très grandes.
Cela ne veut pas dire cependant qu'il faut commencer à dire "tout peut arriver". Non, le fait est que votre parti est en bien meilleure position de gagner s'il est sondé en tête à quelques jours de l'élection. Ne prenez pas les 2-3 cas où les sondages avaient carrément le mauvais parti en tête comme étant la norme. Ce sont bel et bien des exceptions. L'espoir fait vivre mais peu aussi être trompeur.
C'est pourquoi je passe autant de temps à faire mes simulations et à les calibrer correctement selon la fiabilité moyenne des sondages. C'est aussi pour cela que je vous recommande de regarder surtout les chances de gagner et pas seulement le nombre de sièges en moyenne.