Azertyuiop a écrit:Ok, mais dans ce cas, ce sont les coefficients de contribution des individus à chaque axe qui manquent.
Ici les individus sont les communes. Les coefficients de contribution des individus (ce que j’ai appelé les scores) sont représentés sur les cartes via les quantiles de la distribution correspondante. J’ai considéré que c’était plus lisible pour les non-familiers avec la méthode de lire les cartes via un index allant de 0 à 1 plutôt que les scores directement. Donc, pour répondre à votre question, pour connaitre les individus qui contribuent le plus à chaque axe, il suffit de regarder les communes avec des index proche de 0 et proche de 1 car ce sont ceux qui ont les scores respectivement les plus négatifs et positifs alors que les communes ayant des index proches de 0.5 sont neutres sur cet axe. Si vous voulez, je peux fournir directement le fichier avec les scores bruts mais c’est peu lisible quand ça n’est pas cartographié.
PhB a écrit:* Par ailleurs j'avais en tête qu'un facteur de corrélation négatif marquait plutôt une anti-corrélation (ou corrélation inversée) tandis qu'un facteur proche de 0 marquait une absence de corrélation. Est-ce bien le cas ici ? Comment est-ce traduit dans les cartes ?
Vous avez raison en général sur le fait qu’un facteur de corrélation négatif marque une anti-corrélation mais ici, vu le modèle que j’ai utilisé, un coefficient nul va également pouvoir être interprété comme une anti-corrélation par rapport aux comportements des variables qui nous intéresse (le résultat individuel d’un candidat). J’explique ça en détail dans la réponse au message suivant.
Azertyuiop a écrit:PhB a écrit:* Je n'ai pas bien saisi la subtilité de prendre l'abstention comme catégorie de référence. Quelle incidence ce choix peut-il avoir sur les facteurs de corrélation, notamment si l'abstention change, d'un scrutin à l'autre, ou d'une commune à l'autre ?
Il est obligatoire de prendre une catégorie de référence qui sert de référentiel pour toutes les autres. C'est un peu comme lorsqu'on mesure une vitesse : elle ne veut rien dire dans l'absolu mais doit être regardée relativement à un référentiel fixé.
Par contre, pour moi, c'est une erreur de considérer les pourcentages des inscrits car c'est justement cela qui crée le biais en donnant des scores plus faibles à tous les candidats des zones à forte abstention et en les coloriant à chaque fois plus en rouge qu'elles ne le devraient être. Bon, après, il y a peut-être une subtilité qui m'a échappé.
Je ne souhaitais pas entrer précisément dans les détails de la méthodologie pour ne pas être rébarbatif mais vu vos questions, je me sens obligé.
Je n’ai pas fait directement une ACP sur les % des inscrits mais sur des variables transformées à partir du % des inscrits. Je vais vous expliquer quelle transformation j’ai faite et pourquoi. Je me suis inspiré des modèles de choix statistiques à options multiples. Ces modèles sont utiles quand on a des données pour N individus (associés à des caractéristiques qui leur sont proches) qui doivent faire un choix unique entre K options. Grâce à ces modèles, on peut estimer comment les caractéristiques propres aux individus influencent le choix d’une ou de l’autre des options par rapport à une catégorie de référence. On le fait statistiquement en regardant comment la probabilité de chaque d’une option vs. celle de l’option de référence varie en fonction des caractéristiques. De tels modèles sont très proches de la situation qui nous intéresse ici : on a des électeurs qui doivent choisir entre différentes options dont chacun des candidats, le blanc/nul ou l’abstention. La seule différence est que nous n’observons pas le vote individuel mais une agrégation de ce vote au niveau de la commune. Idéalement, on préférerait descendre au niveau le plus désagrégé disponible (le bureau de vote) mais je ne peux pas le faire à cause des redécoupages de bureaux de vote entre élections (pour avoir des entités géographiques stables). Ici, j’approxime donc la probabilité de choisir une option électorale dans une commune par le % des inscrits qui ont choisi cette option et je modélise ces probabilités selon un modèle de régression logistique multinomiale. (Si vous voulez du détail sur cette méthode, l’article Wikipédia ici est bien fait :
https://en.wikipedia.org/wiki/Multinomi ... regression) – en particulier, la partie « As a log-linear model »). En prenant comme catégorie de référence l’abstention, ça revient à s’intéresser aux variables transformées suivantes : [log(résultat candidat i en % des inscrits) - log(résultat abstention en % des inscrits)]. Avec cette modélisation, on étudie comment les ratios entre les voix de chaque candidat et celles de l’abstention varie dans l’espace. L’ACP permet d’identifier des directions de variation de ces ratios communes à l’ensemble (ou un sous-ensemble) de candidats. Il est important à cet égard de prendre comme catégorie de référence une option électorale qui est disponible (et identique) pour les électeurs à l’ensemble des scrutins. Ceci laisse donc deux choix possibles : ou bien l’abstention ou bien l’option blanc/nul. J’ai choisi de retenir l’abstention car c’est une option retenue par beaucoup plus l’électeur et qui est donc moins « bruitée » que la catégorie blanc/nul.
Il faut de plus garder en tête qu’une ACP identifie des directions de variation des variables étudiées relativement à leur valeur moyenne. Ainsi, si certaines élections présentent un % d’abstention systématiquement supérieur à d’autres scrutins, cela n’influencera aucunement les résultats pour autant que la géographie de l’abstention soit similaire entre les scrutins. En revanche, s’il y a certaines communes dans lesquelles l’abstention est systématiquement supérieure à la moyenne nationale de l’abstention, cela sera pris en compte. Néanmoins, tout dépendra du fait de savoir si ces zones où l’abstention est systématiquement supérieure ont des comportements électoraux spécifiques. En effet, s’il existe une géographie de l’abstention qui est indépendante des choix électoraux, l’ACP identifiera uniquement un axe « participation » vis-à-vis duquel l’intégralité des candidats auront une sensibilité positive. Ce n’est clairement pas ce que l’on observe dans mes résultats : au contraire, la carte de l’abstention est essentiellement liée à l’axe 2 mais ce que cet axe indique est ce que ce sont les zones où c’est spécifiquement le score des partis libéraux qui est faible. Cela signifie aussi qu’il y a de l’information relative aux comportements électoraux dans le % d’abstention (par rapport à la moyenne) et qu’on ne doit pas ignorer cela directement. L’autre raison pour laquelle je pense qu’il est justifié de raisonner en % des inscrits est liée au fait que je regarde les résultats des élections en prenant en compte les deux tours. Vu que l’on restreint les options électorales au 2ème tour, les passages des électeurs entre l’abstention et le vote exprimé entre les deux tours sont également informatif des comportements électoraux. Par exemple, si on regarde 2017, il y a eu des transferts vers l’abstention et le vote blanc/nul pour les électeurs Mélenchon ou Fillon.
Je reviens maintenant sur l’interprétation des coefficients. Je vais prendre un exemple simple pour pouvoir illustrer les choses. Imaginons que l’on ait seulement 3 options électorales (candidat A, candidat B, abstention) et qu’après avoir mis en œuvre l’ACP sur les variables transformées (ici, deux variables par conséquent), on obtienne un seul axe pertinent. Sur cet axe, le candidat A a un coefficient de sensibilité de 1 et le candidat B a un coefficient de 0. Cela signifie que lorsque le ratio entre les voix obtenues par le candidat B et l’abstention est invariante sur cet axe (ou que ce ratio est toujours égal à sa moyenne sur l’ensemble des communes) alors que le ratio entre les voix obtenues par le candidat A est l’abstention est croissante avec le score de la commune sur l’axe (inférieur à la moyenne si le score est négatif, supérieur à la moyenne si le score est négatif). Par conséquent, quand le score est négatif cela signifie que le résultat du candidat A en % des inscrits est inférieur à la moyenne mais aussi nécessairement que le score du candidat B et de l’abstention sont supérieurs à la moyenne (ce n’est que le ratio entre ces deux dernières qui est invariante). C’est la raison pour laquelle j’ai interprété un coefficient de 0 également comme une anti-corrélation alors qu’habituellement cet effet n’existe pas.
Idéalement, pour exprimer plus clairement les résultats sur chaque axe, il aurait fallu, pour chaque axe, que je calcule l’effet sur les résultats de passer de la moyenne (i.e. une « commune » située à un score de 0.5 sur tous les axes) à un index de 0.25 et 0.75 uniquement sur cet axe-là. Ça donnerait une meilleure idée de la transformation des résultats le long d’un axe.
Je mentionne également qu’avec la modélisation retenue, l’effet des différents axes interagissent. En effet, dans une zone à la fois de « populaire populiste » et de droite, le score du RN sera doublement plus élevé par rapport à sa moyenne (avec un score d’Hamon doublement moins élevé par exemple). C’est une bonne propriété car on sait que cela correspond à certains effets. Dans le bouquin de Fourquet paru récemment (L’Archipel Français), il documentait par exemple que le vote des ouvriers pour le RN était systématiquement supérieur au vote des cadres pour le RN et simultanément que le vote de chacune de ces deux catégories pour le RN est croissant avec le sentiment de déclin / faible dynamisme économique de sa zone d’emploi.
Je finis en mentionnant que les cartes que je produis ne paraissent globalement pas des artefacts. En effet, l’axe 1 correspond à peu près à un gradient d’éloignement par rapport aux zones dynamiques économiquement alors que l’axe 2 est très proche de la carte du revenu médian. Sur ce dernier point, vous pouvoir regarder cet outil de visualisation qui est assez éloquent :
http://map.datafrance.info/population (rubrique population / revenus).
Azertyuiop a écrit:PhB a écrit:Par ailleurs je suis intrigué par la Corse, qui est toujours en rouge. Y aurait-il un axe "Corse" pour expliquer ce phénomène ? Quels autres électorats y seraient corrélés ?
Il me semble que les axes n'expliquent que les candidats, pas les régions qui ne sont que le reflet des comportements des candidats. Après, il est plutôt logique quand on voit les axes que la Corse qui n'est ni une terre de gauche, ni une terre FN canl historique, ni une terre particulièrement libérale (par contre, je n'aurais pas parié très gros qu'elle soit si peu "populaire-populiste" mais pourquoi pas) soit toujours en rouge.
Je suis d’accord avec cette interprétation. Pour prendre l’exemple de 2017, MLP et Fillon ont fait de gros scores en % des exprimés mais ils sont beaucoup plus proche de la moyenne nationale quand on regarde en % des inscrits (MLP : 18.4% des inscrits en Corse vs. 16.1% en France // FF : 16.9% en Corse vs. 15.1% en France). Par ailleurs, les autres principaux candidats ont fait des scores très sensiblement inférieurs à leur moyenne nationale en Corse, en % des exprimés mais aussi en % des inscrits (EM : 12.2% en Corse vs. 18.2% en France // JLM : 9.1% en Corse vs. 14.8% en France). C’est cohérent avec un rejet de la gauche et des partis libéraux. Le score de MLP peut paraitre étonnant au regard du résultat sur l’axe « populaire-populiste » mais il ne faut pas oublier que le RN a aussi une sensibilité à l’axe droite-gauche non négligeable. Ce que ça semble indiquer est que le vote RN en Corse est un vote d’extrême droite « classique ».
Azertyuiop a écrit:PhB a écrit:Je me demande aussi si intégrer d'autres élections intermédiaires (régionales, européennes) ne serait pas intéressant. Mais bon c'est du boulot !
Ça aurait été compliqué car les autres élections intermédiaires n'étaient pas à échelon nationale donc il faudrait prendre en compte le fait que l'offre politique n'aurait pas été exactement la même partout. IL y avait 8 circonscriptions pour les élections européennes plus anciennes, et pour les régionales, idem.
En effet, il me faut nécessairement arriver à avoir des résultats électoraux à l’échelle nationale pour pouvoir l’inclure dans la procédure d’estimation. En effet, l’ACP fonctionne en regardant les écarts à la moyenne sur l’ensemble des communes. Il y a deux manières de contourner ce problème. La première option consiste à consolider les résultats des élections par circonscription au niveau national en se servant des étiquettes. Cela peut poser problème quand les alliances ne sont pas identiques entre les circonscriptions (par exemple aux régionales). Par ailleurs, même si on n’a pas ce problème-là, on estimera via l’ACP un positionnement moyen au niveau national de l’ensemble des listes regroupées sous la même étiquette : si, dans la réalité, des électeurs ont perçu ces listes comme différemment positionnées, cela générera des écarts qui seront corrigés dans des axes secondaires – il faudrait donc interpréter les résultats à la lumière des axes principaux et de ces axes correctifs. L’autre seconde option serait de ne pas utiliser les résultats des élections intermédiaires pour estimer les axes via l’ACP mais de se servir des axes estimés via une ACP sur les scrutins nationaux puis de régresser les résultats des élections intermédiaires directement sur ces axes estimés. De cette manière, on peut obtenir une analyse du positionnement de chaque liste par circonscription qui est indépendante l’une de l’autre. Mais c’est effectivement un peu de boulot.