lundi 4 avril 2016

Des statistiques et des bulles d'iris qui flottent sur Paris

Cet article traite des cartes avec camemberts, des problèmes que cela pose d'un point de vue graphique, et cartographique. Mais surtout, nous verrons la conception d'une carte socio avec diagrammes, par contour IRIS à Paris, qui s'appuie sur le circle packing. Tout ça en essayant d'être rigolo.






Cliquer sur l'image modes de pour voir en grand


La tarte tatin, c'est bon ...enfin, ça dépend


Les twix, c'est meilleur que les donuts



Les américains, ils disent que les tartes aux pommes, c'est pas bon. En effet, un article de Business Insider affirme qu'il est difficile de se faire une idée des proportions avec les pie charts. C'est pourquoi on en mange autant.


En France, on appelle ces pie charts des camemberts... On aurait pu appeler ces graphiques des "quiches lorraines" ou "pizzas 4 fromages" selon ce qu'on préfère. Résidant en Provence, je dirais "pompe à l'huile"

"Les chiffres sont critiques !  Regardez donc cette pompe à l'huile !"

Une tarte un peu spéciale


http://www.datemplate.com/post_types-of-charts_136702/gende

En fait, la vraie dénomination de ce graphique serait d'après l'illustration ci-dessus des "slice chart".

Si l'on se réfère à cette illustration, la vraie pie chart serait une tarte tellement disproportionnée que tout pâtissier assez audacieux pour en confectionner une se ferait interner.


Cette pie chart présente en réalité certaines caractéristiques des radar charts, ou encore spider charts (des arachnophobes dans la salle ?)



Du coup, on pourrait la traduire par RADAR PIE CHART ™, ou "tarte espion" en français.


Ce type de graphique assez bizarroïde présente selon moi certains avantages sur une carte.
En admettant que l'angle de chaque part de tarte espion soit identique, chacune possèdera la même directivité dans l'espace, ce qui facilite les comparaisons. Ce n'est pas le cas avec la tarte maison.
Evidemment, cela ne marche plus dès lors que l'on fait varier à la fois l'angle des parts et leur longueur. C'est un cas qu'on rencontre assez souvent avec des graphiques car la bidimensionnalité est leur vocation première.


Ces tartes espion peuvent être utiles afin de figurer des variables statistiques discrètes mais aussi continues, par exemple temporelles.

Bulles de statistiques


Les iris ne sont pas que des fleurs

L'IGN et l'Insee nous ont gratifiés il n'y a pas si longtemps des contours...IRIS ®, l'iris étant le niveau d'agrégation et administratif le plus fin après la parcelle, le bâtiment et le pavé de trottoir.
En liant des données statistiques à ces IRIS, on peut réaliser tout plein d'analyses et de cartes folles et sympas, ce qui explique pourquoi la mise à disposition de ces contours a pas mal excité la géosphère.

"retrouvons-nous après un petit flash publicité"
Bon, je le dis comme ça : à l'ouverture des données, je m'étais amusé à réaliser une carte des IRIS niveau France entière avec des...iris



Catégories socio-professionnelles

L'Insee, acteur historique de l'#Opendata en France https://t.co/9G7jFHY7N6 pic.twitter.com/Ws9Ei9bOYs
@Insee (@InseeFr) 9 février 2016

C'est fou tout ce qu'on trouve sur le site de l'INSEE, mine de rien. La donnée qui nous intéresse ici est le fichier Travail-Emploi du recensement général de la population de 2012 à l'Iris. Grâce à ces données, on peut faire des cartes très intéressantes pour se faire une idée, entre quartiers, de la mixité sociale, du mode de déplacement privilégié des riverains : voiture, deux roues, etc

Illustrons la méthode en nous appuyant sur la première carte à bulles présentée en début de page. Les colonnes du fichier statistique qui ont été utilisées sont :

  • nombre d'agriculteurs : on en trouve à Paris, si s
  • nombre d'artisans, commerçants et chefs d'entreprise
  • nombre de cadres et professions intellectuelles supérieures
  • nombre personnes occupant des professions intermédiaires
  • nombre d'employés
  • nombre d'ouvriers

Quand les diagrammes posent des soucis aux géomaticiens

Nous pourrions être tentés de représenter ces données sous forme pie charts (camemberts), voire de graphiques à barres (twix).


Dans les deux cas, la difficulté vient, à l'échelle de travail qui est assez fine, du phénomène appelé overlapping qu'on appelle recouvrement en français, mais ça fait moins stylé.

ça fait over-mal


L'astuce du jour, le circle packing, ou empaquetage de cercles (on traduit comme on peut)



L'astuce du jour  $*♪ TADAM ♪*$  consiste à utiliser la technique du circle packing.


Cette technique que Google traduit par "cercle d'emballage", consiste à répartir le mieux possible des cercles dans un espace de telle sorte qu'aucun ne recouvre l'autre.


C'est un peu ce qui se passe si vous remplissez à 99% une table de billard de boules et que vous mettez des boules dessus. Ces dernières vont se faufiler, pousser les autres jusqu'à le tout se soit équilibré (mais faut avoir bouché les trous du billard avant).


Son application en cartographie la plus connue s'appelle les cartogrammes de Dorling, du nom de son créateur, Danny Dorling
Danny Dorling (au photomaton ?)
http://www.abc.net.au/4corners/stories/2011/10/04/3331769.htm


A quoi ressemblera ma carte


un méchant diagramme

Au niveau de chaque rosace, chaque catégorie se verra affecter une tranche sur le diagramme et cette dernière sera d'autant plus grande qu'il y aura d'employés, ou de cadres, ou d'artisans,...

La carte


Le feeling



Et là, dans ma tête, cercle a évoqué "bulles". Des bulles flotteraient au-dessus de la capitale avec des statistiques dedans. Les stats c'est lourd, mais quand elles sont dans des bulles, c'est plus léger.

Éléments de contexte


Bon ok, c'est un peu flou, et même très petit

J'ai positionné la Seine, épine dorsale de la capitale ainsi que les contours d'arrondissements (BDROUTE 500 ®) avec un léger flou, pour donner de la profondeur de champ, comme en photographie, ainsi que rejoindre cette idée de légèreté.







L'algorithme de circle packing s'est chargé du mieux qu'il a pu, de répartir les boules de même circonférence sur le territoire, alors que les iris ont initialement des formes, surfaces différentes, il faut faire attention à l'échelle d'analyse.
Chaque bulle a la couleur d'un arrondissement. Cela est d'autant plus nécessaire que la limite imposée à l'algorithme en terme d'itérations a pu entraîner par endroits le transfert d'une bulle dans un arrondissement voisin.

Parlez arrondissement à un provincial comme moi, et il n'y pigera que nenni. Parlez-lui métro, et tout s'éclaire. Tout touriste parviendra à adjoindre une atmosphère à une bouche de métro. Les noms "Barbès", "Porte d'Italie", "Le Trocadéro", "La Défense" évoquent tout de suite des ambiances, des souvenirs.

Les stations de métro fournissent un très bon référentiel que j'ai choisi d'ajouter en filigrane afin de relier l'environnement socio-professionnel à ce réseau auquel on se réfère souvent.


La couleur des lignes, des étiquettes est celle du logo de la RATP. Fallait bien choisir une couleur et la couleur peut évoquer une fonction.



Pour récupérer les lignes ainsi que les stations, j'ai utilisé une petite requête overpass (overpass est  un super outil d'interrogation et d'extraction de données OSM par attributs et critères géographiques et non un pass navigo illimité que l'on trouve sur le darknet).

Les iris et leurs niveaux supérieurs
Aussi, les noms d'Iris constituent des toponymes intéressants à faire figurer sur la carte. Cependant, ils sont beaucoup trop nombreux. On trouvera par exemple PERE LACHAISE 1, PERE LACHAISE 2, etc...

groupes_iris = sub("^(.*) ([0-9]+)$", "\\1", iris.df$NOM_IRIS)

Grâce à une petite expression régulière, j'ai récupéré la racine du nom de l'iris sans le numéro et constitué une couche agrégée d'entités de niveau supérieur. Les noms de ces entités supérieures ont servi à l'étiquetage. Je leur ai affecté la même couleur que celle de l'arrondissement auquel ils appartiennent.

Bribes de design


D'un point de vue programmatique, pour générer ces diagrammes, je me suis appuyé sur la librairie R packcircles et des rudiments de géométrie.



En particulier, pour avoir une tranche de gâteau, il suffit de générer un polygone issu d'une série de points, elle-même définie en fonction d'une distance à un centroïde, d'un effectif et d'une rangée d'angles.

Sous QGIS, un mode est utilisé, qui de son joli nom "Flannery", permet de définir de façon automatique la taille de symboles proportionnels. Ce mode se base sur une fonction interne de QGIS appelée scale_exp. D'après la documentation utilisateur officielle de QGIS, cette fonction échelonne des valeurs entre une valeur minimale et une maximale en suivant une courbe exponentielle.


J'ai porté le code sous R grâce à la doc' API de QGIS pour définir la taille des pales de la rosace.
Il s'avère qu'en réalité, le rééchelonnage des valeurs se fait selon une courbe de puissance. La fonction devrait du coup plutôt s'appeler scale_pow. 
Voici une illustration de ce que cette fonction accomplit :

La fonction puissance permet de mieux dissocier les valeurs hautes

Si l'on effectue un étirement linéaire, on perçoit moins les différences de valeur :

étirement linéaireVS étirement par puissance

Du QGIS


Sur cet iris, des employés d'abord. des professions intermédiaires ensuite, des cadres, des ouvriers et des artisans enfin
Pour les bulles, j'ai utilisé le dégradé selon la forme, auquel j'ai ajouté un effet d'ombre intérieure.
J'ai utilisé l'effet flou ainsi que des ombres portées sur les autres éléments d'habillage.
Pour les pétales de la rosace, j'ai utilisé un dégradé simple pour un peu de skeumorphisme ainsi que des ombres portées.
J'ai également utilisé les modes de fusion, celui de lumière dure et surtout, celui appelé "multiplier".

Déclinaisons

Paris, encore

On peut décliner ces cartes sur tout un tas d'autres sujets.

Voici, sur le même mode, la répartition entre étudiants, chômeurs et retraités à Paris par iris:


Et ici, les modes de déplacement utilisé à Paris : deux roues, voiture, transport collectif, marche à pied :

Bonus tracks

Allez, en bonus, voici une carte de la population par âge quinquennal, par département


A vrai dire, je n'ai rien inventé : des cartes exploitant cette technique ont déjà circulé dans les médias, souvent réalisées à l'échelle internationale ou nationale.

Par exemple, il y a cette carte de la pollution, issue de l'atlas du carbone :


Kenneth Field, un carto-critique très pertinent, et créateur de cartes originales, avait par exemple créé cette carte à l'occasion du mondial du football

Rond - ballon, il n'y a qu'un pas !

2 commentaires:

  1. Très bel article, bravo pour cette jolie démonstration.

    Y'a pas à dire, l'équipe de Géotribu a bien fait de m'indiquer votre site !

    RépondreSupprimer
  2. Merci pour cet article détaillé avec la touche de second degré qui va bien pour digérer les pie charts et autre spider chart et ressortir de la lecture avec un sourire plutôt qu'un mal de crâne.

    RépondreSupprimer