Distance Sampling

lundi 21 août 2023

CE BLOG N'EST PLUS MIS A JOUR ... MAIS ...

Après de nombreuses années de travail de terrain relatées ici, les études réalisées avec la méthode du Distance Sampling se multiplient en France.

Nous estimons que les mises à jour de ce site n'ont plus lieu d'être. Mais il reste encore disponible.

Nous sommes assez fiers que l’"École Auvergnate de Distance Sampling" ait été la première en France à utiliser concrètement cette méthode difficile à appréhender sans la pratique : notre savoir-faire de terrain est réellement précieux car il nous a permis de comprendre les arcanes de la technique utilisée maintenant dans le cadre national de l'Atlas Oiseaux de France.

Nos nombreuses études de terrain ont permis d'accumuler des centaines de données de densités dans des milieux très différents en Auvergne (et ce n'est pas fini), et aussi de former des dizaines d'observateurs à ces protocoles de terrain exigeants.

Merci à toute l’Équipe DS auvergnate et à tous les observateurs qui ont été de l'aventure.

mardi 5 janvier 2021

Le Distance Sampling pour les Nuls ...

Deux mille pouillots comptés le 26 mars 2016 en val d'Allier bourbonnais? Vous êtes sûr du chiffre ? Vous les avez comptés un par un ? Qu'est-ce que c'est que cette histoire ?

la migration des pouillots, ou comment compter des milliers d'oiseaux ...

Le printemps nous amène chaque année un flot de passereaux migrateurs, souvent très groupés, dès le mois de mars. La Réserve Naturelle Nationale du Val d'Allier, près de Moulins (03) - voir mon autre Blog http://ornithovaldallier.blogspot.fr/ - est particulièrement propice à l'observation de ces mouvements migratoires grâce à ses milieux très diversifiés.

Mais cela fait quarante ans que certains ornithologues - dont un des auteurs de ce Blog - se posent une question toute simple: combien y-a-t'il de pouillots, dans la réserve (ou ailleurs) , les jours de gros passage ? cent, mille, plus ? Comment savoir ? la question se pose d'ailleurs pour tous les autres migrateurs: fauvettes, rossignols, etc ...

Où les méthodes scientifiques courantes montrent leurs limites ...

Sur de petites surfaces, l'ornithologue peut effectuer des comptages directs: ainsi, il est possible d'affirmer que sur certains bras morts, fin mars, sont présents simultanément des dizaines de ces petits oiseaux de retour d'Afrique.

Mais dès qu'il s'agit d'évaluer sur des surfaces plus conséquentes, çà coince ... Des techniques de comptages sur des parcours kilométriques (les "Line-Transects") existent: elles permettent d'obtenir des valeurs minimales: "21 pouillots sur 1 km", par exemple. Mais il est impossible de dire à quelle SURFACE correspondent ces chiffres, donc de transposer en densités. Tout au plus peut-on, si la semaine suivante on en observe 42 par km, affirmer qu'il y en a deux fois plus ce jour-ci...

Le "Distance Sampling" au secours du scientifique de terrain

Cette méthode mise au point par les ornithologues anglos-saxons il y a une quinzaine d'années n'a pas franchement la cote en France, et pourtant, elle le devrait ! Distance Sampling, çà veut dire "échantillonnage par la distance" (pas trouvé mieux comme terme en français).

Partons d'une simple constatation : si on parcourt un milieu en détectant les oiseaux à la vue (à l’œil nu, les jumelles ne servant que pour confirmer) et à l'audition, il est évident que plus les oiseaux présents sont loin de l'observateur, moins ils sont détectables.

Il va donc falloir faire un peu de mathématiques : la fonction f(x) qui donne la probabilité de détection d'un oiseau en fonction de la distance d'observation est une fonction décroissante, avec la probabilité 1 si l'oiseau est à distance = 0, et la probabilité 0 quand l'oiseau est à la limite maximale de détection.

Le Distance Sampling consiste donc à parcourir un milieu dans de bonnes conditions (vitesse régulière, météo correcte), et à noter non pas seulement le nombre d'oiseaux rencontrés pour une espèce donnée (ce qui s'appelle un Indice Kilométrique d'Abondance ou IKA) , mais aussi sa distance par rapport à l'observateur.

Les données de distance obtenues sont alors regroupées par classes (intervalles), ce qui donne le graphe suivant (nombre de données en fonction de la distance): bleu données de terrain, rouge courbe théorique (voir plus loin).

Ce diagramme présente, par intervalles de distance de 20 mètres, la probabilité de détection de 103 pouillots contactés le 26 mars 2016 le long d'un parcours d'un peu plus de 4 kilomètres dans la Réserve du Val d'Allier par F. Guélin. On peut noter que la fonction de détection est effectivement décroissante, mais pas de manière linéaire. Les théoriciens du Distance Sampling - voir bibliographie en fin d'article - ont démontré qu'il existe une modélisation mathématique possible et "robuste" sous la forme d'équations polynomiales (assez complexes, mais nous n'avons pas besoin d’en savoir plus).

Heureusement ces ornithomatheux ont conçu un logiciel d'analyse gratuit - Distance 6.2 - qui traite les données, calibre la courbe de détection (ci-dessus en rouge), et permet l'extrapolation des données à une surface ! Sur quel raisonnement se base le logiciel ?

A partir de deux repères fondamentaux, à savoir la distance=0 où TOUS les pouillots sont considérés comme étant détectés, et la distance maximale (donc l'observation la plus lointaine de la série, ici 200 mètres), le logiciel trace la courbe de détection, ce qui permet d'extrapoler à la surface du rectangle constitué du tracé du "transect" rectiligne, sur deux fois la largeur de détection. En effet les 103 pouillots ont été notés sur une surface de 4,38 km x (2 x 200 m) dans le cas présent (soit 175 ha). Et, c'est bien visible ci-dessous, il est mathématiquement simple de calculer les pouillots NON DÉTECTÉS, si l'on suppose une répartition homogène sur la surface totale...

Qu'est ce que çà donne comme résultat ?

Grosso modo, on voit bien sur le graphe ci-dessus que la surface totale du rectangle (qui est proportionnelle à TOUS les pouillots présents sur la surface de recensement) fait plus de 2 fois la surface cumulée des colonnes du graphe: 103 pouillots notés mais il y en a probablement plus de 200 (autrement dit, l'ornithologue en a loupé la moitié !).

La zone prospectée ce jour là couvre environ 145 hectares, choisis pour être représentatifs des 1450 hectares de la RNVA.

Le logiciel nous permet donc d'évaluer à 221 pouillots la densité sur les 145 ha de comptage (avec une fourchette d'effectifs de 153 à 320 individus dans l'intervalle de confiance statistique de 95%). L'extrapolation à toutes la Réserve Naturelle s'effectue en multipliant par 10: soit 2210 pouillots sur l'ensemble de la RNVA ce jour-là ...

Quelques détails pratiques pour mieux comprendre ..

Concrètement, cette méthode nécessite une préparation assez conséquente: ainsi il a fallu réaliser pendant plusieurs journées les repérages pour les quatre kilomètres de "transects" durant l'hiver 2015-2016, en repérant bien le terrain, et en décrivant les milieux pour qu'ils soient représentatifs de l'ensemble de la RNVA (carte ci-dessous, vous remarquerez que la zone d'étude est entre le Paradis et les Rognons). Les transects utilisés sont les cinq trajets visibles dans la partie sud en rive gauche vers "TILLY" (réalisés en une matinée).

Matériellement, mesurer la distance d'un oiseau par rapport à l'observateur passe par l'utilisation d'un plan (ici un plan papier au 1/2000ème, les systèmes numériques étant encore inadaptés). Trajet en vert, et rouge en cas d'impossibilité !)

Il faut avoir l'habitude des techniques de comptages d'oiseaux pour faire ce travail, c'est évident, mais avec l'expérience, le Distance Sampling par transect s'avère très agréable. Une fois à la maison, avec règle et tableur, on met en fichier les résultats obtenus pour le traitement logiciel.

Pour une autre espèce, le rouge-gorge, notée et "mesurée" le même jour (seulement 32 données) que les pouillots, la modélisation donne les éléments suivants :

Le logiciel donne le nombre total de rouge-gorges sur la zone (ici c'est une zone plus large de 242 ha correspondant à 9 transects au lieu de 5 seulement pour les pouillots). Ce chiffre est de 110 (71 à 168). Il exprime aussi ce chiffre en densité à l'hectare (0.45329). Extrapolé à la RNVA, on obtient une estimation de 660 rouge-gorges ce jour-là, soit un beau pic migratoire de fin mars ...

Bref, si cette technique vous tente, continuez de lire ce Blog, qui vous propose plus de détails en colonne de droite.

Et n'hésitez pas nous écrire !

mercredi 20 mai 2020

Bilan de l'étude ACDC 2019

Remercions d'abord les deux équipes, 18 personnes au total !

L’équipe "Papyrus" (DS sur plan papier) : Thibaut BRUGEROLLE, Jean François CARRIAS, Anne CITRON, Alex CLAMENS, Jean-Pierre DULPHY, Camille FASOLIN, François GUELIN, Sylvain SAINNIER, Gilles SAULAS.

L’équipe "Smartphone": Cyril BRUNEL, Matthieu CLEMENT, Cyrille JALLAGEAS, Jean-Philippe MEURET, Patrick MOUGEL, Romain RIOLS, Clément ROLLANT, Hugo SAMAIN, Pierre TOURRET.

Rappel: les protocoles 2019 sont disponibles ICI.

Sommaire

I. Bilans préliminaires

1. Protocole 1 : DS sur plans papier

2. Protocole 2 : DS sur smartphone

3. Protocole 3 : IPA historiques

II. Tous les détails pour le DS

1. Comparaison des 2 protocoles DS et des durées 5 / 10mn

2. Détail des analyses effectuées

3. Perspectives 2020

I. Bilans préliminaires

1. Protocole 1 : Distance Sampling sur plans papier

Le protocole a été réalisé complètement avec 104 points effectués 2 fois = 208 points au total. L'analyse préliminaire des résultats permet d'obtenir des estimations de densité pour 28 espèces : tableau ci-dessous. Et les commentaires après ...

Dans ce tableau (téléchargeable ici), la colonne 1 donne l'espèce en code, le nombre de points (périodes A et B cumulées ou seulement B pour les espèces les plus tardives), la durée du point (5 ou 10 mn), le nombre de données N, le modèle retenu, avec test du Chi2 et Coefficient de variation de la densité, et ENFIN l'estimation de densité , suivie des mini-maxi à 95% de signification.

Concernant la comparaison entre les durées de 5 et 10 mn, nous constatons que pour 24 espèces sur 28, l'estimation avec une durée de 10 mn est supérieure (la moyenne des différences est de 28 %).

La différence est visible même pour les espèces à forte densité (qui sont aussi celles qui apportent le plus de données : entre 200 et 400 données)

A cela, deux explications possibles:

- soit le nombre de données est encore assez faible, et la méthode du DS minimise les densités en cas de faible nombre de données. Peut-être, mais pour certaines espèces bien notées (ex: la Fauvette grisette SYLCOM, le Merle TURMER ...) cette différence est significative.

- soit la durée influence le résultat des estimations ! En effet, si nous prenons pour exemple une population de 100 rossignols, si nous contactons 25 rossignols sur 5 mn, et 50 sur 10 mn, au final, l'estimation DS DEVRAIT être la même car la probabilité de détection devrait passer de 0.25 sur 5 mn à 0.50 sur 10 mn. Mais cette probabilité p n'évolue pas comme cela dans nos résultats. La possibilité de doubles comptages existe, mais nous avons donné des consignes de grande prudence à ce sujet, et elle nous semble mineure.

2. Protocole 2 : Distance Sampling avec Smartphone.

Pour cette partie, nous nous sommes heurtés à l'impossibilité d'obtenir les informations numériques concernant l'emplacement des observateurs auprès de Biolovision ... Nous avons donc travaillé en demandant aux observateurs de nous fournir eux mêmes le site exact où les points avaient été effectués.

Nonobstant ces petites contrariétés, les résultats portent sur 94 points (période B) ou 190 points (période A+B). Ces points sont les mêmes que le protocole 1.

Voici le tableau de résultats bruts (téléchargeable ici), les commentaires en dessous :

Comme pour la partie "Papyrus", on observe des écarts quasi-systématiques entre la durée de 5 mn et celle de 10 mn (encore plus importants mêmes !!) ... cela pose question.

La comparaison des résultats obtenus par les deux modes de saisie sur le terrain (avec papyrus ou avec smartphone) montre cependant une différence plutôt mineure de moins de 10 % globalement (mais c'est quand même assez différent pour certaines espèces).

3. Protocole 3 : Les points d'écoute de 1991 refaits en 2019

Sur ce secteur (zone rouge), Jean-Pierre Dulphy effectue depuis 1991 des comptages semi-quantitatifs par points, avec une méthodologie qu'il a individualisée. Il a refait ces points avec la même méthode que par le passé, et à partir de ses indices relatifs, et des données de densité estimées par les points DS, nous pouvons remonter le temps pour "retrouver" les densités des années 90, grâce à des coefficients de conversion.

Voici le tableau des résultats de cette partie III, téléchargeable ici :

* les estimations de densités trouvées en 2019 par DS sont dans les colonnes avec en-tête en vert (colonnes 7-8-9),

* lLes valeurs des IPA de JP Dulphy en 1991-1992 sont dans la colonne 2, celle de 2019 sont dans la colonne 3,

* avec un simple coefficient de conversion (voir les 3 dernières colonnes), on peut donc proposer une fourchette de densités pour les années 1991-1992 : c'est dans les colonnes 6-7-8, surlignées en jaune.

II. Tous les détails pour le DS

Si vous voulez aller plus loin, voici des détails sur ce que nous avons fait, où nous en sommes de nos réflexions, et des liens pour télécharger toutes les données si vous voulez y regarder de plus près et expérimenter vous-même.

1. Comparaison des 2 protocoles et des durées 5 / 10mn

Le tableau de synthèse est téléchargeable ici.

2. Méthode utilisée pour les analyses DS

a. Analyses de type Conventional Distance Sampling (CDS) (pas de covariables)

- protocole "Plans papier" via logiciel Distance 7.3 à la main,

- protocole "Naturalist" via MCDS 6.2.0 (le moteur de calcul sous-jacent à Distance 7.3), appelé automatiquement "en masse" via code Python maison (module "autods" en cours de développement, destiné à publication Open Source).

b. échantillons analysés

- données des 2 protocoles Plans Papier et Naturalist séparément

- liste d'espèces considérées : celles pour lesquelles on a contacté au moins 20 mâles en 10mn pour les 2 protocoles, en ajoutant Oriolus oriolus et en éliminant Passer domesticus mal inventoriées de cet manière, soit 28 espèces : Alauda arvensis, Anthus trivialis, Carduelis cannabina, Carduelis chloris, Columba palumbus, Cuculus canorus, Emberiza cirlus, Emberiza citrinella, Erithacus rubecula, Fringilla coelebs, Jynx torquilla, Lanius collurio, Lullula arborea, Luscinia megarhynchos, Emberiza calandra, Oriolus oriolus, Cyanistes caeruleus, Parus major, Phylloscopus collybita, Prunella modularis, Saxicola rubicola, Streptopelia turtur, Sylvia atricapilla, Sylvia communis, Turdus merula, Turdus philomelos, Turdus viscivorus, Upupa epops

- périodes considérées :

. les 2 passages cumulés pour la plupart des espèces,

. sauf pour LanCol, StrTur et OriOri plus tardives : seulement le 2nd passage (après 15 mai),

- uniquement les mâles (chanteurs, ou visuellement identifiés comme tels),

- contacts des 5 premières minutes, et tous les contacts (0-10mn), séparément (pour comparer).

c. cas des données "plans papier" (alias "Papier" ou "Papyrus")

- données de terrain (+ mesures distances sur papier) traitées et formatées pour import dans Distance via code Python maison

- analyses effectuées à la main via Distance 7.3 : pour chaque échantillon indépendamment,

. d'abord, analyses sans troncature avec 5 modèles x séries d'ajustement (Half-Normal Cosine, Unifiform Cosine & Polynomial, Hazard-Rate Cosine & Polynomial)

. améliorations "manuelles" si nécessaire avec troncatures (quelques cas), et plus rarement avec des tranches de distances imposées (une fois).

d. cas des données "Naturalist" (alias "smartphone")

- données des formulaires exportées de faune-auvergne.org traitées et formatées pour analyses DS via code Python maison,

- distances calculées après récupération auprès des observateurs des géoloc réelles (de mémoire) des points effectués sur le terrain à chaque passage (distance = géoloc. observateur - géoloc. oiseau) ; biais probable, notre mémoire n'étant pas toujours précise, mais a priori négligeable (les 32 formulaires où la trace avait été enregistrée montrent quelques erreurs manifestes : décalage de 50m pour 1 seul point, 7 autres entre 10 et 20m, les autres sous 10m),

- analyses DS automatisées via code Python maison : pour chaque échantillon indépendamment,

1. pré-analyses Half-Normal Cosine sans troncature, pour voir la distribution des distances brutes (histogramme) et l'allure des courbes fittées de Probabilité de détection et de Densité de Probabilité de Détection

=> pour vérifier rapidement, à l'oeil et au fitting, que les données sont correctement exploitables en DS,

2. recherche des meilleures troncature gauche et droite, et du meilleurs nbre de tranches de distance de fitting (les 3 "paramètres" recherchés) pour chacune des 6 combinaisons suivantes de modèles (Half-Normal, Uniform, Hazard-Rate) et séries d'ajustement (Cosine, Polynomial), par 2 méthodes :

a. simple combinatoire (division uniforme en 4 tranches des intervalles de troncature gauche et droite, (avec les limites suivantes : à droite = max(méthode de Tuckey, quantile à 95%) ; à gauche, quantile à 2.5%), et nbre de tranches parmi [2/3, 5/6, 1, 5/4, 3/2] * racineCarée(nbDonnées échantillon avant troncature)

=> on retient pour chaque modèle x série les paramètres donnant le meilleur Chi2,

b. via un optimiseur non "dérivatif" (module Python "zoopt") des même paramètres, dans les mêmes limites, sur Chi2 (critère à maximiser) (pas sur l'AIC, puisqu'il dépend un peu du nbre de contacts pris en compte, qui varie avec les troncatures)

NB: peu efficace, car nbres d'itérations énormes, mais résultats probablement meilleurs qu'à la main, sur un nombre bien plus réduit d'essais possible, forcément

=> on retient pour chaque modèle x série les paramètres donnant le meilleur Chi2

3. exécution automatisées des analyses selon 18 (au plus) jeux de paramètres :

- systématiquement les 6 combinaisons de modèles (Half-Normal, Uniform, Hazard-Rate) et séries d'ajustement (Cosine, Polynomial)

- d'abord sans troncature => 6 analyses au plus (certaines n'aboutissent pas pour certains modèles / séries),

- ensuite avec les 3 paramètres trouvés précédemment en 2 (troncatures à gauche, à droite et nb de tranches de distance pour fitting) par test combinatoire => 6 analyses

- ensuite avec les 3 paramètres trouvés précédemment en 2 (troncatures à gauche, à droite et nb de tranches de distance pour fitting) par optimisation => 6 analyses

NB: Nous avons bien conscience que cette automatisation n'est pas du meilleur goût en matière de rigueur d'analyse Distance Sampling, et qu'il vaudrait mieux procéder à la main plus soigneusement (comme pour les données Plans papier), ... mais faute de temps, avec cette masse de donnée et de calculs à faire ... c'est un bon début !

e. critère de sélection des résultats des analyses

. meilleur AIC (le plus faible)

. à AIC équivalents, on garde l'analyse avec le meilleur Khi2, en veillant à ce que CV < 30%

2. Données et paramètres des analyses effectuées

a. Analyses des données "sur plans papier"

Les projets Distance 7.3 et fichiers d'échantillons ayant servi en entrée pour chacun sont téléchargeables ici.

b. Analyses des données Naturalist

- mode d'emploi des rapports ci-dessous,

- rapports de pre-analyse (1 par échantillon),

- rapports d'analyses (la totale : 16-18 analyses par échantillon).

NB: Les fichiers d'échantillons sont dans le sous-dossier associé à chaque analyse (data.txt)

c. Données brutes de terrain

(avec distances observateur - oiseau)

- Papier : ACDC2019-Papyrus-DonneesIndivAvecDist.xlsx

- Naturalist : ACDC2019-Naturalist-ObsBrutesAdAvecMinuteDist.xlsx

3. Perspectives 2020

* nous avions l'intention de faire de nouveaux inventaires sur le même secteur pour continuer les comparaisons et estimations de populations (en particulier en rapprochant le protocole Naturalist des EPOC MNHN) ... certaines circonstances nous en ont empêché... mais ce n'est que partie remise à 2021 : tout est prêt sur cette page.

* nous allons refaire l'intégralité des analyses DS "Plans papier" et "Naturalist" en automatique, en utilisant cette fois :

- les mêmes stratégies de calcul pour les 2 protocoles,

- dont une partie en paramètres DS fixes (modèle, série ajustement, troncatures) afin de pouvoir comparer plus "facilement", avec moins de "biais méthodologiques".

Nombre total de pages vues