jeudi 22 juillet 2010

[fr][MAJIC] Intégration OpenSource des Fichiers Fonciers

On peut lire beaucoup de fils de discussion dans les forums géomatiques traitant de l'extraction des données MAJIC comme celui-ci: http://georezo.net/forum/viewtopic.php?id=53811
La lecture de ces données, leur exploitation nécessitent des compétences particulières. Ainsi, certaines structures font appel à des prestataires ayant de l'expérience dans l'intégration de ces fichiers et/ou font l'acquisition de solutions le plus souvent propriétaires.

L'objectif de la série d'articles qui viendra est de:
  • vous présenter les fichiers fonciers MAJIC, leur structure
  • et surtout, de vous décrire comment procéder gratuitement à leur intégration à l'aide de Talend Open Studio, solution ETL OpenSource.

Présentation des fichiers fonciers
Voici un aperçu du contenu du CD ROM des fichiers fonciers:


On retrouve:
-l'ensemble des fichiers fonciers à la racine
*.NO748
-la liste des communes concernées LISTE_DES_COMMUNES.HTM
-le dossier DESCRIPT dans lequel on retrouve la documentation associée à chaque fichier.

Notons que pour les néophytes, la présentation des fichiers peut prêter à confusion comme ils ne possèdent pas d'extension. Un ajout de l'extension .txt vous permettra de les ouvrir automatiquement dans votre éditeur de texte préféré.

Structure des fichiers
Si l'on ouvre un fichier foncier, on retrouve cette structure (représentée de façon schématique):


Les fichiers source MAJIC sont de type positionnel, c'est-à-dire que chaque champ/colonne est déterminée par une position au nombre de caractères.

La structure de la plupart des fichiers fonciers est irrégulière dans la mesure où ces derniers peuvent contenir plusieurs types d'informations appelés articles revenant cycliquement au sein du fichier. Une ligne peut représenter un article, la suivante un autre article. Le nombre d'articles par fichier est variable. L'exemple ci-dessus serait celui d'un fichier foncier possédant 3 articles. Par exemple, le fichier des propriétés non-bâties NBAT en contient 4 (sans compter l'article direction commun à tous les fichiers).

Transformation des fichiers source
Peu de logiciels permettent de traiter et d'exploiter directement des fichiers de type positionnel.
Les formats les plus courants d'exploitation statistique sont les formats délimité, Excel/Calc ainsi que ceux de SGBDR tels que PostgreSQL. En l'état, les fichiers source MAJIC sont donc difficilement exploitables.
Une fois transformés dans les formats les plus couramment utilisés, il devient alors possible d'exécuter des requêtes spécifiques et donc d'exploiter pleinement les données. Les interrogations seront beaucoup plus poussées et plus faciles à exécuter sous un SGBDR comme PostgreSQL que sous Excel. C'est pourquoi la plupart du temps des prestataires proposent une intégration au sein d'un SGBDR.
Pour autant, nous verrons qu'il est tout à fait possible, dans Talend Open Studio, de procéder directement à des requêtes sur les fichiers source de type positionnel.

Etapes de traitement
Avant d'exploiter les données, il apparaît tout d'abord nécessaire d'effectuer quelques traitements.
Dans un premier temps, nous allons séparer un fichier foncier en autant de fichiers qu'il y a d'articles. Il y aura donc un fichier par article. Chaque fichier obtenu sera de structure homogène, contrairement à avant.
Article1


Article2
Article3



Une fois ce traitement réalisé, nous serons en mesure de transformer les fichiers source obtenus en fichier délimité et/ou procéder à leur intégration au sein d'un SGBDR (nous utiliserons ici PostgreSQL).

L'intérêt du fichier délimité est qu'il est ouvrable dans un logiciel Tableur comme OpenOffice Calc ainsi que dans les logiciels SIG courants.



Logiciels d'intégration existants
L'annexe du guide du CERTU mentionne, parmi les solutions d'intégration, le logiciel Feature Map Engine ainsi des macros ayant été développées sous Excel. La société veremes a développé une extension spécifique facilitant l'exploitation des données MAJIC dans FME.
Le tableau comparatif comprend deux solutions gratuites: les macros excel citées ci-dessus ainsi que l'application GISMeaux développée par le Pays de Meaux. Le développement de scripts Perl pour traiter les fichiers fonciers est gratuit, lui aussi, mais il demande des compétences fortes en programmation avec toutes les problématiques de maintenance que cela peut poser.
Talend Open Studio est une solution ETL opensource, assez similaire à FME, qui ne figure pas dans ce tableau. Elle fournit à l'utilisateur une interface de modélisation graphique des processus qui se substitue à l'écriture fastidieuse de lignes de code. Derrière, du code Java ou Perl est généré, sans que l'utilisateur n'ait à s'en préoccuper.
En plus de l'intégration, TOS permet d'effectuer un contrôle qualité des données: identification des doublons, de champs non renseignés, d'incohérences. De plus, l'implémentation de composants de Slow Changing Dimension permet de suivre l'évolution des données dans le temps, par exemple d'une année à une autre.
Spatial Data Integrator ajoute la composante spatiale à TOS. Il permet de générer des fichiers plats géographiques ainsi que d'importer les données MAJIC géolocalisées directement dans PostgreSQL/PostGIS.
En somme, il est tout à fait possible de procéder à l'intégration de la matrice cadastrale sans surcoût financier lié à l'acquisition d'un logiciel.

Les prochains articles vous décriront les opérations d'intégration sous le logiciel Talend Open Studio/Spatial Data Integrator.