mercredi 6 juin 2012

Législatives 2012: Activité Professionnelle et Appartenance Politique

Ici, nulle géographie, nous allons exploiter les données du fichier des élections législatives. Il est téléchargeable à cette adresse:
http://www.data-publica.com/data/13587--liste-des-6603-candidats-aux-elections-legislatives-des-10-et-17-juin-2012

Ce fichier a déjà fait l'objet d'analyses sur des blogs:
Le fichier des élections législatives possède deux informations que nous allons utiliser spécifiquement ici: la profession du candidat et son affiliation à un parti, ceci afin de voir s'il existe un lien entre les deux.


Plan:
  • Tableau de contingence et visualisation
  • Classification hiérarchique
  • Analyse Factorielle des Correspondances


Tableau de contingence et visualisation

Ces informations apparaissent toutes deux en lignes: il existe une colonne pour identifier la profession, une autre pour le parti. Nous allons transformer le fichier un petit peu afin de procéder à notre analyse, en ayant en lignes les métiers, en colonnes les différents partis et au sein du tableau, les valeurs d'effectifs. Nous allons aboutir à ce que l'on appelle un tableau de contingence.

En proportions, cela donne:





Classification hiérarchique

On peut essayer de dégager une hiérarchie, une classification des différentes activités professionnelles en prenant en compte les effectifs des activités pros au sein de chaque parti.




Certains regroupements sont peu surprenants:
  • Les cadres semblent afficher le même bord politique: cadre supérieur, ingénieur, chef d'entreprise
  • De même que ceux qui le porte-feuille de clients (assez surprenant!): expert comptable, agent d'assurances, notaire, ...
  • Aussi, des candidats qui travaillent dans le domaine du bâtiment: entrepreneur en bâtiments, contremaitre, architecte.
  • Des professions médicales: dentiste, chirurgien, vétérinaire
  • Des activités liées à la créativité: homme de lettres et artiste, artisan, journaliste et autre média.
  • Des commerçants aussi sont regroupés

Par contre, on ne sait toujours pas quelle relation lie chacune des activités professionnelles aux partis. Si le candidat est ouvrier, chef d'entreprise ou enseignant, vers quel parti tendra-t-il à se rapprocher et ce lien est-t-il fort?


Analyse factorielle des correspondances

On peut aller plus loin en effectuant une analyse factorielle de correspondances.
Sur le blog de François Guillem ainsi que sur le blog de Jean-Baptiste Coulmont, on trouve des applications très sympathiques de l'ACP.

Dans notre cas, on effectuerait une ACP si l'on avait une liste d'individus et un score d'appartenance aux idées de chaque parti pour chacun d'eux, sans que l'on ne connaisse rien d'eux. Cette analyse aboutirait à l'analyse de relations entre partis, voire entre des individus et des partis.

Une AFC est comparable à une ACP, à ceci près qu'elle prend en entrée deux variables qualitatives au lieu d'une. Il s'agit d'une ACP particulière qui, en superposant une ACP sur le profil-lignes (ici, les activités professionnelles) et une autre sur le profil-colonnes (nature du parti), permet de dégager des proximités entre les différentes modalités inhérentes aux deux variables.

La prudence est de mise dans une AFC lorsque les effectifs sont faibles. Voici un classement dans l'ordre croissant des effectifs marginaux des activités professionnelles (somme de tous les effectifs par parti pour chaque métier).




Un résumé rapide d'une AFC sur notre pool de données législatives donne ceci:

      eigenvalue percentage of variance cumulative percentage of variance
dim 1 0.24250254              38.284494                          38.28449
dim 2 0.13548582              21.389491                          59.67398
dim 3 0.05178132               8.174848                          67.84883
dim 4 0.04483564               7.078317                          74.92715
dim 5 0.03231638               5.101869                          80.02902
dim 6 0.02886831               4.557514                          84.58653

Dans le meilleur des cas, les deux premières dimensions suffisent à expliquer en grande partie l'inertie totale/la variance de notre nuage de points mais ici, à elles deux, elles n'en restituent que 59.7 %, soit un peu plus de la moitié et moins des 2/3.  A partir de la troisième dimension, les inerties partielles attribuées aux axes sont assez faibles et égales. On s'arrêtera à deux axes quand même en ayant intégré cette lacune.

Voici le graphique de notre AFC:



Pour pouvoir définir nos axes, on utilise deux notions: la première est la contribution à l'inertie principale selon un axe, la deuxième, le  cosinus carré.
  1. La première se calcule en utilisant les coordonnées de la modalité considérée, son effectif  marginal, l'effectif total des candidats ainsi que l'interie principale de l'axe. Elle ne favorise pas  les métiers où il existe peu de candidats. 
  2. Le cosinus carré permet, par une simple formule trigonométrique autour des coordonnées d'une modalité, de déterminer la qualité de la représentation d'une modalité selon l'axe considéré.

Les modalités les plus contributives serviront de fil directeur afin de définir nos axes.

Axe 1

Pour les lignes

                                        Dim 1       Dim 2        Dim 3
Ouvrier (secteur privé)             13.826404 0.006545828 1.028070e-02
Professeur du secondaire et techn.  11.146823 3.325899414 3.222432e+00
Enseignant 1er deg.-directeur école  8.169252 1.617955387 9.755707e-01
Industriel-Chef entreprise           6.909406 1.452912388 8.674976e+00
Cadre supérieur (secteur privé)      6.033875 2.415535798 3.407859e+00
Fonctionnaire de catégorie B         5.705795 0.205800913 1.476177e-02
Avocat                               4.859643 1.857456635 2.092405e-01
Employé (autres entrep. publiques)   4.588501 0.062211865 3.014305e-05
Agent technique et technicien        3.611098 0.503568174 8.181242e-01
Grands corps de l'état               3.332086 7.191733408 1.909935e+00

On observe que des catégories socio-professionnelles sont très bien représentées selon cet axe, en particulier si l'on considère la profession d'ouvrier et de cadre supérieur, chef d'entreprise. Ces deux catégories s'opposent nettement selon l'axe1. Pour des valeurs de très bonne contribution, on retrouve d'ailleurs de très bonnes qualités de représentation (cosinus carrés): Fonctionnaire de catégorie B, ouvrier..
L'axe 1 semble également afficher un gradient dans les revenus, de l'ouvrier, du salarié agricole au chirurgien, au cadre supérieur.

                                        Dim 1       Dim 2        Dim 3
Fonctionnaire de catégorie B        0.8445433 0.017018866 4.665529e-04
Employé (autres entrep. publiques)  0.8352921 0.006327298 1.171687e-06
Enseignant 1er deg.-directeur école 0.8210169 0.090847686 2.093560e-02
Ouvrier (secteur privé)             0.7928073 0.000209701 1.258745e-04


Pour les colonnes

                                         Dim 1        Dim 2     Dim 3
 Extrême gauche                     53.6458070 3.685077e-01  0.586280
 Union pour un Mouvement Populaire  20.5045345 9.552070e+00  6.440497
 Front de gauche                     8.7616438 6.926126e+00  2.052448
 Divers droite                       6.3457991 5.398400e+00  4.939185
 Socialiste                          2.2204804 2.743800e+01  1.195895
 Parti radical                       2.1260108 3.077681e-01  3.394504
 Le Centre pour la France            2.0347689 4.064435e-01 10.014818
 Autres                              1.2411170 1.353765e+01 16.187905
 Nouveau Centre                      1.1801562 4.032157e-04  2.733341
 Alliance centriste                  0.4726506 9.336666e-02  1.076020


Il n'y a que pour l'extrême gauche et l'UMP que l'on observe de fortes contributions. Ces deux partis s'opposent d'ailleurs très nettement selon l'axe 2. Les partis "minoritaires" sont assez mal représentés selon cette dimension. On ne peut dire cependant dire que l'axe 1 représente des extrêmes dans les idées car la contribution de l'extrême droite est peu élevée. L'axe 1 semble opposer les conservateurs et les autres.


Axe 2

Pour les lignes et colonnes selon l'axe 2

                                          Dim 1     Dim 2       Dim 3
Fonctionnaire de catégorie A       5.844613e-03 14.782627  0.04618557
Employé (secteur privé)            1.302235e+00 11.858040  4.46289301
Retraité de l'enseignement         1.212100e+00  7.494665  0.83004297
Grands corps de l'état             3.332086e+00  7.191733  1.90993498
Etudiant                           7.154676e-04  5.870858  7.52139123
Autre retraité                     1.260179e-01  4.951988  4.13172449
Permanent politique                2.506618e+00  4.307984  7.17496219
Professeur du secondaire et techn. 1.114682e+01  3.325899  3.22243177
Retr.artis.commerc.chef d entrep.  6.103767e-01  3.053174 10.53309174
Commercant                         3.706510e-01  2.908927  0.50359611

                                           Dim 1     Dim 2        Dim 3
 Socialiste                          2.220480421 27.438003  1.195895249
 Ecologiste                          0.005144083 15.292174  2.809477381
 Autres                              1.241116999 13.537654 16.187904983
 Front National                      0.191649846 11.166394 31.816832284
 Union pour un Mouvement Populaire  20.504534463  9.552070  6.440496989
 Front de gauche                     8.761643759  6.926126  2.052447511
 Divers droite                       6.345799136  5.398400  4.939184582
 Extrême droite                      0.247869905  3.610187 12.713174193
 Radical de Gauche                   0.362048589  2.962734  0.052368789
 Divers gauche                       0.339019594  1.675900  0.006959395


L'analyse selon la dimension 2 est plus délicate. Nous nous contenterons de l'analyse selon la première dimension..

En considérant le nuage de points, de manière globale, il apparaît que les professions exercées par les candidats correspondent aux franges de population qu'ils sont censés défendre. Il n'y a pas vraiment d'antagonisme entre le métier exercé et le parti de ralliement. Peu de professions d'encadrement du côté de l'extrême gauche et inversement du côté de celui de l'UMP.

Il faut bien se remémorer que la somme des inerties principales des 2 axes n'est est que légèrement supérieure à la moitié, ce qui rend l'analyse moins fiable que dans ces cas on l'on retrouve une très forte contribution des 2 axes (supérieure à 80%). De plus, il y a peu de candidats exerçant certains métiers (salarié agricole, notaire, agent d'affaires...), ce qui rend l'analyse d'autant plus délicate pour ces éléments-là.

Si l'on avait préalablement réduit les classes pour les activités professionnelles: métiers manuels, relationnels, médicaux, libéraux ainsi que les partis en classes de partis: modéré, extrême, marginal, gauche ou droite, nous aurions sans doute eu une AFC de meilleure qualité.

Aucun commentaire:

Enregistrer un commentaire