6 août 2012: À quoi ressemble la variation dans chaque circonscription? Et quel modèle utiliser?

Voici un relativement long et technique billet concernant le modèle. Comme d'habitude, je comprends que cela n'intéressera pas tout le monde ici, mais en même temps, en visitant un site de projections électorales, vous prenez un risque de lire des trucs de "nerds" lol

Donc, à quoi ressemble la variation dans chaque circonscription? Le graphique suivant montre en bleu la variation du PLQ (sur l'axe Y) entre 2007 et 2008, en fonction du pourcentage obtenus en 2007 dans le comté en question.



En rouge, vous avez la variation dite linéaire utilisée par certains modèles. Cette variation est simplement la variation provinciale. Ainsi, le PLQ a augmenté de 9 points entre 2007 et 2008. Un modèle linéaire augmenterait le PLQ de 9 points dans tous les comtés. En mauve (les petits Xs), vous avez la variation si le modèle dit proportionnel était utilisé. Avec cette technique, vu que le PLQ a augmenté de 27% (+9%/33.08%), alors ce parti hausserait de 27% partout. Naturellement, une hausse de 27% est différente selon que le parti était à 10% ou à 50%, ce qui explique la pente de la courbe mauve.

Comme vous le voyez, la vraie variation n'est ni linéaire ni proportionnelle. Dans les faits, plusieurs facteurs entrent en ligne de compte dont la région et le fait d'être le candidat sortant. Par exemple, quand le PLQ augmente de 9 points, ce parti augmentera davantage dans certaines régions mais moins dans d'autres. C'est exactement l'idée derrière le modèle: estimer ces coefficients de variations au lieu de faire l'hypothèse que le modèle linéaire ou proportionnel est juste.

Voici quelques chiffres démontrant que le modèle fait en moyenne moins d'erreurs est surtout, est davantage précis. La "précision" est la moyenne des écarts (absolus) entre les projections et les vrais résultats. Ainsi, le modèle de ce site arrive en moyenne à prédire le pourcentage correct à 2.6 points près (la précision pour les autres partis est très similaire), alors que le modèle proportionnel à une marge d'erreur plus grande. Cependant, ce modèle aurait fait une erreur de moins en 2008, mais bien davantage en 2007. De plus, il faut savoir que le modèle proportionnel n'aurait projeté que 3-4 sièges ADQ, alors que notre modèle avait l'ADQ à 7-8. Pourquoi? Les coefficients régionaux qui permettaient à l'ADQ de résister davantage dans certains comtés. Notre modèle prédisait PLQ à 62 sièges, PQ à 55 et l'ADQ à 8. Le modèle proportionnel avait PLQ à 67, PQ à 55 et ADQ 3.

Modèles
Linéaire Proportionnel Too Close To Call
2007 # erreurs 25 25 16
Précision 3.40% 4.50% 2.60%
2008 # erreurs 13 10 11
Précision 2.90% 4.70% 2.70%



Concernant les 11 erreurs en 2008, il faut savoir que dans 7 cas, il s'agissait d'une course serrées et le modèle avait correctement prédit une telle lutte (entre les bons partis). Le modèle n'avait simplement pas prédit le bon gagnant. Mais encore une fois, quand la victoire est par moins de 5 points, il est difficile de projeter le bon gagnant 100% du temps. Les autres erreurs sont simplement des cas "spéciaux", genre Shefford où l'ADQ avait résisté vraiment très bien, ou les Îles-de-la-Madeleine où le PQ s'était effondré.

Prenons un exemple spécifique. Le modèle proportionnel aurait prédit Beauce-Sud correctement mais avait le PLQ gagnant facilement 38%, devant l'ADQ à 30%. Notre modèle avait le PLQ à 39% et l'ADQ à 41%. Le vrai résultat fût PLQ à 43% et ADQ à 42%. Ainsi, oui le modèle proportionnel aurait fait le correct "call" mais au prix d'une imprécision très grande. Je vais prendre une erreur de "calling" n'importe quand si cela me permet d'être bien plus précis. Dans le même ordre d'idée, le modèle proportionnel aurait prédit une victoire PLQ dans Beauce-Nord, 33.5% vs 33.2% pour l'ADQ. Notre modèle avait l'ADQ remportant ce comté confortablement 47% à 35%. Le soir de l'élection, l'ADQ a obtenu 49.9% et le PLQ 37.9%.

Au final, ce que tout cela veut dire peut se résumer à deux choses. 1) Étant donné l'information à notre disposition, le modèle est bien plus sophistiqué que les autres. Estimer les coefficients est naturellement supérieur à simplement assumer ces derniers. Ne pas utiliser l'information disponible (élections passées) est une faute grave selon moi. 2) Le modèle ne fera pas (et ne fera jamais) des projections parfaites. Cependant, avec le niveau élevé de précision, vous pouvez être confiants que les projections dans chaque comté sont en général très proches de ce qui arrivera. En particulier, si le modèle ou simulateur prédit une lutte serrée, il y a de bonnes chances que cela sera le cas. À partir de là, la manière juste d'utiliser et lire les projections et de regarder les comtés "sûrs", et ensuite de considérer que les luttes serrées peuvent aller d'un bord comme de l'autre.