http://bota-phytoso-flo.blogspot.fr/2013/11/botanique.html

mercredi 30 octobre 2013

HOW TO ... combiner des documents tableurs

... pour compter des taxons sur la base de critères définis.

1. Récupérer une liste de taxons
(par exemple celle la BDTFX sur Tela-Botanica)
http://referentiels.tela-botanica.org/zip/bdtfx_v2_00.zip (7,7 Mo)

2. Extraire les fichiers 
de l'archive zip et ouvrir bdtfx_v2_00_ref.txt avec LibreOffice (clic-droit sur le fichier texte, "ouvrir avec ... Libre Office Calc") - en conservant les paramètres par défaut : codification = Unicode - UTF8, langue = français, séparateur = tabulation. (C'est un gros fichier donc ça peut prendre un peu de temps mais normalement pas plus de 2-3 minutes, disons 5 minutes si votre ordinateur rame un peu. Au-delà, abandonnez car vous galèrerez trop).

Là vous devriez vous retrouver avec un fichier comportant 93946 lignes. Sachant qu'une ligne correspond à un nom de plante.

Rappel sur les notions de nomenclature et taxonomie : 
une même plante possède généralement plusieurs noms, chacun correspondant à une description publiée par un botaniste (l'auteur du nom) et donc à une conception (compréhension) différente de la délimitation d'un concept taxonomique : quel rang, quelle variation au sein du taxon, quelles limites.
Par exemple en 1753, Karl von Linné décrit la Pulmonaire à feuilles étroites. Les botanistes se réfèrent à cette description en utilisant ce nom en latin : Pulmonaria angustifolia L. 1753 (on précise à la fin l’abréviation de l'auteur et la date à laquelle il a publié ce nom).
En 1812, Toussaint Bastard décrit dans son Essai sur la Flore du Maine et Loire, la description d'une variation du taxon de Linné, variation qu'il baptise "longifolia" (à longue feuilles). Nous nous référons à cette description en parlant de Pulmonaria angustifolia var. longifolia Bastard 1812.
Mais finalement, en 1857, Alexandre Boreau décide - dans la 3e édition de sa Flore du Centre de la France, d'élever cette variation au rang d'espèce et modifie donc le nom binomial de la plante en créant la combinaison Pulmonaria longifolia. Nous faisons référence à cette modification en précisant Pulmonaria longifolia (Bastard) Boreau 1857. Le nom de l'auteur original du taxon est préciser entre parenthèse devant le nom de l'auteur ayant décidé de la modification du statut du taxon.
Pour conclure : nous avons trois noms différents qui correspondent à trois approches taxonomiques différentes : a) une espèce au sein de laquelle on n'avait tout d'abord pas détecté de variation, puis b) la dite variation et enfin c) la reconnaissance que cette "variation" est suffisamment importante pour qu'on la considère comme une espèce à part entière. Au final on considère actuellement deux entités : Pulmonaria angustifolia L. 1753 (nom valide de l'espèce initiale toujours reconnue) et Pulmonaria longifolia (Bastard) Boreau 1857, ce dernier binôme est le nom valide d'une seconde espèce dont on considère actuellement que Pulmonaria angustifolia var. longifolia Bastard 1812 est un synonyme.
Pour en revenir à notre tableau : chaque nom (chaque ligne donc) peut se voir attribuer l'un des deux statuts suivant : nom accepté (c'est le nom que l'on considère actuellement comme correct) ou bien synonyme.
Afin de savoir quels sont les noms valides et quels sont les synonymes on utilise des codes de référence.
Le premier code doit être unique pour chaque nom (donc une ligne = un code, aucune répétition possible). Il identifie de manière absolue chaque binôme ou trinôme latin et l'abréviation de l'auteur et la date de publication qui lui est associé. Ce code est dit "code nomenclatural" car il code un nom.
Un deuxième code est attribué à chaque nom, il s'agit du code nomenclatural faisant référence au concept taxonomique reconnu comme valide. C'est donc le code du taxon actuellement reconnu : il doit être appliqué à tous les noms faisant référence à ce même taxon (chacun correspondant à une conception différente de la même entité taxonomique, bref de la même plante). Pour cette raison ce code est appelé "code taxonomique".
Lorsque ce code est un numéro on parle alors de "numéro nomenclatural" et de "numéro taxonomique", abrégés en "num_nom" et "num_tax", ce dernier est appelé "num_nom_retenu" dans la BDTFX et "num_ref" dans le référentiel TaxRef publié par le MNHN.

Note : Le fichier utilisé contient un champ de colonne appelé "num_taxonomique", cependant aucune définition de ce champ (ni d'aucun des autres champ à droite du champ "exclure_taxref" - colonne AK -) n'est donné par le manuel. Ceci dit, les définitions et exemples proposés ici sont conformes aux explications du manuel.

3. Distinguer les noms valides de leurs synonymes

Voilà, maintenant qu'on a rappelé la différence entre nom valide et synonyme, on aimerait bien pouvoir les différencier au premier coup d'oeil sans avoir à comparer à chaque fois les champs "num_nom" et "num_nom_retenu".
Pour cela je vous propose d'ajouter une nouvelle colonne avant toutes les autres (colonne A donc que l'on baptisera par exemple "validite") dans laquelle on va écrire une formule pour préciser le statut de chaque nom.

SI le nom retenu est le même que le nom ALORS "valide" SINON "synonyme"
ce qui revient à écrire dans la cellule A2 :
=SI(B2=C2;"valide";"synonyme")

Il suffit ensuite de recopier cette formule vers le bas simplement en sélectionnant la cellule (clic gauche) puis en double-cliquant (clic gauche) sur le petit carré apparaissant dans le coin inférieur droit de la cellule : la formule est automatiquement recopiée vers le bas jusqu'au dernier enregistrement.

Afin de ne pas perdre le résultat lors d'éventuelles manipulations ultérieures, je recommande une fois la formule exécutée, de ne conserver que le texte du résultat et non pas la formule. Pour ce faire, on sélectionne la colonne A, puis on utilise la fonction copier (Ctrl+C) / collage spécial (clic-droit "collage spécial"). On décocher les cases "coller tout" et "formule" afin de ne coller que le texte du résultat. Dans la cellule A2 vous devriez trouver le texte "synonyme" remplaçant la formule donnée ci-avant.

On peut également séparer les noms valides des synonymes sur deux feuilles différentes.
Pour ce faire : sélectionner l'ensemble de la table (en cliquant sur la "cellule" en haut à gauche de la cellule A1. Toute la feuille est alors sélectionnée), puis se rendre dans le menu "Données > Trier", dans l'onglet "Options" cocher la cases "L'intervalle contient les étiquettes de colonnes". Enfin de l'onglet "Critères de tri", "trier par" : "validite".
Il suffit alors de ne sélectionner que les lignes "synonymes" puis de les couper et de les coller dans une nouvelle feuille de classeur.

Nous devrions nous retrouver avec, d'un côté 21303 noms valides (cette liste comprend également les noms supra-génériques (c'est-à-dire les noms de famille, ordre, classe, etc.), mais aussi les noms infra-spécifiques (les sous-espèces, variétés, formes, cultivars etc.). De l'autre côté nous avons 72643 synonymes.

Note : pour la suite, ayant séparé les noms valides des synonymes sur deux feuilles différentes, je supprime ma colonne A "validite" dans les deux tables. Il faudrait faire de même ou bien le tenir en compte lorsque je nommerai les colonnes du fichier dans le reste de l'explication.

4. Distinguer les rangs taxonomiques des noms

Ce faisant nous allons faire un peu de classification.
Distinguer les rangs taxonomiques nous sera aisé : en réalité c'est déjà fait dans le fichier que nous avons récupéré. Le rang est codé dans la colonne D "rang" par un numéro. La traduction de ce numéro est disponible ici et également dans le manuel PDF de la BDTFX (Annexes, tableau 7, page 25).

On peut utiliser l'outil "rechercher / remplacer" (Ctrl+H) pour rendre ce champ D "rang" plus facilement interprétable. Par exemple en sélectionnant toute la colonne D, on pourra utiliser cet outil pour remplacer "290" par "ES", "ESP" ou "ESPECE", "220" par "GN" ou "GENRE", "180" par "FM" ou "FAMILLE", "320" par "SES", "SSP" ou "SOUS-ESPECE" et encore "340" par "VAR" ou "VARIETE"
.

En triant la table par le champ "RANG" on peut ainsi facilement isoler un seul rang taxonomique. Je me sers de cette possibilité pour isoler les espèces que je copie/colle dans une nouvelle feuille "espèces valides". Ce qui nous permet de dénombrer quelques 14496 espèces valides pour les seuls trachéophytes de France métropolitaine !
On notera toutefois que la BDTFX ne contient pas que des taxons vivants. Elle inclue également quelques taxons considérés comme éteints.

5. Distinguer les statuts biogéographiques des espèces

Il s'agit de savoir si une espèce est présente ou absente d'un territoire donné (la BDTFX distingue présence absolue, dans le champ "presence" (colonne AG) et précise dans les champs "presence_Ga" (en Gaule) ou "presence_Co" (en Corse) si le statut "métropolitain" est à prendre au sens strict ou élargis à l'Île de Beauté...
La table 9 du manuel vous précise le contenu de ces champs.

D'autre part, les champs "statut_origine" (colonne AH) et "statut_introduction" (colonne AI) vous permettent de distinguer une espèce autochtone d'une espèce "exotique" et de pratiquer ainsi la phytodiscrimination (en espérant ne pas la transformer en xénophytophobie !)

 TO BE CONTINUED ... A SUIVRE


Aucun commentaire: