http://www.data-publica.com/data/13587--liste-des-6603-candidats-aux-elections-legislatives-des-10-et-17-juin-2012
Ce fichier a déjà fait l'objet d'analyses sur des blogs:
- sur les prénoms des candidats
- sur la relation avec la suppléance en terme d'écart d'âge
- sur la parité homme-femme
- sur les professions des candidats socialistes et UMP
Plan:
- Tableau de contingence et visualisation
- Classification hiérarchique
- Analyse Factorielle des Correspondances
Tableau de contingence et visualisation
Ces informations apparaissent toutes deux en lignes: il existe une colonne pour identifier la profession, une autre pour le parti. Nous allons transformer le fichier un petit peu afin de procéder à notre analyse, en ayant en lignes les métiers, en colonnes les différents partis et au sein du tableau, les valeurs d'effectifs. Nous allons aboutir à ce que l'on appelle un tableau de contingence.
En proportions, cela donne:
Classification hiérarchique
On peut essayer de dégager une hiérarchie, une classification des différentes activités professionnelles en prenant en compte les effectifs des activités pros au sein de chaque parti.
Certains regroupements sont peu surprenants:
- Les cadres semblent afficher le même bord politique: cadre supérieur, ingénieur, chef d'entreprise
- De même que ceux qui le porte-feuille de clients (assez surprenant!): expert comptable, agent d'assurances, notaire, ...
- Aussi, des candidats qui travaillent dans le domaine du bâtiment: entrepreneur en bâtiments, contremaitre, architecte.
- Des professions médicales: dentiste, chirurgien, vétérinaire
- Des activités liées à la créativité: homme de lettres et artiste, artisan, journaliste et autre média.
- Des commerçants aussi sont regroupés
Par contre, on ne sait toujours pas quelle relation lie chacune des activités professionnelles aux partis. Si le candidat est ouvrier, chef d'entreprise ou enseignant, vers quel parti tendra-t-il à se rapprocher et ce lien est-t-il fort?
Analyse factorielle des correspondances
On peut aller plus loin en effectuant une analyse factorielle de correspondances.
Sur le blog de François Guillem ainsi que sur le blog de Jean-Baptiste Coulmont, on trouve des applications très sympathiques de l'ACP.
Dans notre cas, on effectuerait une ACP si l'on avait une liste d'individus et un score d'appartenance aux idées de chaque parti pour chacun d'eux, sans que l'on ne connaisse rien d'eux. Cette analyse aboutirait à l'analyse de relations entre partis, voire entre des individus et des partis.
Une AFC est comparable à une ACP, à ceci près qu'elle prend en entrée deux variables qualitatives au lieu d'une. Il s'agit d'une ACP particulière qui, en superposant une ACP sur le profil-lignes (ici, les activités professionnelles) et une autre sur le profil-colonnes (nature du parti), permet de dégager des proximités entre les différentes modalités inhérentes aux deux variables.
La prudence est de mise dans une AFC lorsque les effectifs sont faibles. Voici un classement dans l'ordre croissant des effectifs marginaux des activités professionnelles (somme de tous les effectifs par parti pour chaque métier).
Un résumé rapide d'une AFC sur notre pool de données législatives donne ceci:
eigenvalue percentage of variance cumulative percentage of variance
dim 1 0.24250254 38.284494 38.28449
dim 2 0.13548582 21.389491 59.67398
dim 3 0.05178132 8.174848 67.84883
dim 4 0.04483564 7.078317 74.92715
dim 5 0.03231638 5.101869 80.02902
dim 6 0.02886831 4.557514 84.58653
Dans le meilleur des cas, les deux premières dimensions suffisent à expliquer en grande partie l'inertie totale/la variance de notre nuage de points mais ici, à elles deux, elles n'en restituent que 59.7 %, soit un peu plus de la moitié et moins des 2/3. A partir de la troisième dimension, les inerties partielles attribuées aux axes sont assez faibles et égales. On s'arrêtera à deux axes quand même en ayant intégré cette lacune.
Voici le graphique de notre AFC:
Pour pouvoir définir nos axes, on utilise deux notions: la première est la contribution à l'inertie principale selon un axe, la deuxième, le cosinus carré.
- La première se calcule en utilisant les coordonnées de la modalité considérée, son effectif marginal, l'effectif total des candidats ainsi que l'interie principale de l'axe. Elle ne favorise pas les métiers où il existe peu de candidats.
- Le cosinus carré permet, par une simple formule trigonométrique autour des coordonnées d'une modalité, de déterminer la qualité de la représentation d'une modalité selon l'axe considéré.
Les modalités les plus contributives serviront de fil directeur afin de définir nos axes.
Axe 1
Pour les lignes
Dim 1 Dim 2 Dim 3
Ouvrier (secteur privé) 13.826404 0.006545828 1.028070e-02
Professeur du secondaire et techn. 11.146823 3.325899414 3.222432e+00
Enseignant 1er deg.-directeur école 8.169252 1.617955387 9.755707e-01
Industriel-Chef entreprise 6.909406 1.452912388 8.674976e+00
Cadre supérieur (secteur privé) 6.033875 2.415535798 3.407859e+00
Fonctionnaire de catégorie B 5.705795 0.205800913 1.476177e-02
Avocat 4.859643 1.857456635 2.092405e-01
Employé (autres entrep. publiques) 4.588501 0.062211865 3.014305e-05
Agent technique et technicien 3.611098 0.503568174 8.181242e-01
Grands corps de l'état 3.332086 7.191733408 1.909935e+00
Ouvrier (secteur privé) 13.826404 0.006545828 1.028070e-02
Professeur du secondaire et techn. 11.146823 3.325899414 3.222432e+00
Enseignant 1er deg.-directeur école 8.169252 1.617955387 9.755707e-01
Industriel-Chef entreprise 6.909406 1.452912388 8.674976e+00
Cadre supérieur (secteur privé) 6.033875 2.415535798 3.407859e+00
Fonctionnaire de catégorie B 5.705795 0.205800913 1.476177e-02
Avocat 4.859643 1.857456635 2.092405e-01
Employé (autres entrep. publiques) 4.588501 0.062211865 3.014305e-05
Agent technique et technicien 3.611098 0.503568174 8.181242e-01
Grands corps de l'état 3.332086 7.191733408 1.909935e+00
On observe que des catégories socio-professionnelles sont très bien représentées selon cet axe, en particulier si l'on considère la profession d'ouvrier et de cadre supérieur, chef d'entreprise. Ces deux catégories s'opposent nettement selon l'axe1. Pour des valeurs de très bonne contribution, on retrouve d'ailleurs de très bonnes qualités de représentation (cosinus carrés): Fonctionnaire de catégorie B, ouvrier..
L'axe 1 semble également afficher un gradient dans les revenus, de l'ouvrier, du salarié agricole au chirurgien, au cadre supérieur.
Dim 1 Dim 2 Dim 3
Fonctionnaire de catégorie B 0.8445433 0.017018866 4.665529e-04
Employé (autres entrep. publiques) 0.8352921 0.006327298 1.171687e-06
Enseignant 1er deg.-directeur école 0.8210169 0.090847686 2.093560e-02
Ouvrier (secteur privé) 0.7928073 0.000209701 1.258745e-04
Pour les colonnes
Dim 1 Dim 2 Dim 3
Extrême gauche 53.6458070 3.685077e-01 0.586280
Union pour un Mouvement Populaire 20.5045345 9.552070e+00 6.440497
Front de gauche 8.7616438 6.926126e+00 2.052448
Divers droite 6.3457991 5.398400e+00 4.939185
Socialiste 2.2204804 2.743800e+01 1.195895
Parti radical 2.1260108 3.077681e-01 3.394504
Le Centre pour la France 2.0347689 4.064435e-01 10.014818
Autres 1.2411170 1.353765e+01 16.187905
Nouveau Centre 1.1801562 4.032157e-04 2.733341
Alliance centriste 0.4726506 9.336666e-02 1.076020
Il n'y a que pour l'extrême gauche et l'UMP que l'on observe de fortes contributions. Ces deux partis s'opposent d'ailleurs très nettement selon l'axe 2. Les partis "minoritaires" sont assez mal représentés selon cette dimension. On ne peut dire cependant dire que l'axe 1 représente des extrêmes dans les idées car la contribution de l'extrême droite est peu élevée. L'axe 1 semble opposer les conservateurs et les autres.
Axe 2
Pour les lignes et colonnes selon l'axe 2
Dim 1 Dim 2 Dim 3
Fonctionnaire de catégorie A 5.844613e-03 14.782627 0.04618557
Employé (secteur privé) 1.302235e+00 11.858040 4.46289301
Retraité de l'enseignement 1.212100e+00 7.494665 0.83004297
Grands corps de l'état 3.332086e+00 7.191733 1.90993498
Etudiant 7.154676e-04 5.870858 7.52139123
Autre retraité 1.260179e-01 4.951988 4.13172449
Permanent politique 2.506618e+00 4.307984 7.17496219
Professeur du secondaire et techn. 1.114682e+01 3.325899 3.22243177
Retr.artis.commerc.chef d entrep. 6.103767e-01 3.053174 10.53309174
Commercant 3.706510e-01 2.908927 0.50359611
Dim 1 Dim 2 Dim 3
Socialiste 2.220480421 27.438003 1.195895249
Ecologiste 0.005144083 15.292174 2.809477381
Autres 1.241116999 13.537654 16.187904983
Front National 0.191649846 11.166394 31.816832284
Union pour un Mouvement Populaire 20.504534463 9.552070 6.440496989
Front de gauche 8.761643759 6.926126 2.052447511
Divers droite 6.345799136 5.398400 4.939184582
Extrême droite 0.247869905 3.610187 12.713174193
Radical de Gauche 0.362048589 2.962734 0.052368789
Divers gauche 0.339019594 1.675900 0.006959395
L'analyse selon la dimension 2 est plus délicate. Nous nous contenterons de l'analyse selon la première dimension..
En considérant le nuage de points, de manière globale, il apparaît que les professions exercées par les candidats correspondent aux franges de population qu'ils sont censés défendre. Il n'y a pas vraiment d'antagonisme entre le métier exercé et le parti de ralliement. Peu de professions d'encadrement du côté de l'extrême gauche et inversement du côté de celui de l'UMP.
Il faut bien se remémorer que la somme des inerties principales des 2 axes n'est est que légèrement supérieure à la moitié, ce qui rend l'analyse moins fiable que dans ces cas on l'on retrouve une très forte contribution des 2 axes (supérieure à 80%). De plus, il y a peu de candidats exerçant certains métiers (salarié agricole, notaire, agent d'affaires...), ce qui rend l'analyse d'autant plus délicate pour ces éléments-là.
Si l'on avait préalablement réduit les classes pour les activités professionnelles: métiers manuels, relationnels, médicaux, libéraux ainsi que les partis en classes de partis: modéré, extrême, marginal, gauche ou droite, nous aurions sans doute eu une AFC de meilleure qualité.
Aucun commentaire:
Enregistrer un commentaire