Article Index

Réallignement d'images multi-spectral

L'enregistrement des images est le processus qui consiste à transformer différentes images d'une scène dans un même système de coordonnées. Les relations spatiales entre ces images peuvent être rigides (translations et rotations), affines (cisaillements par exemple), homographiques, ou de modèles plus complexes de déformation (en raison de la différence de profondeur entre le sol et les feuilles par exemple). La principale difficulté est que les caméras multispectrales ont une faible couverture spectrale entre les bandes :

ce qui entraîne une perte de caractéristiques communes entre elles. Cela est dû au fait que :

  • les feuilles des plantes ont un aspect différent selon les bandes spectrales
    • par exemple valeur haute dans le proche infra-rouge et basse dans le bleu
  • nos images présentent des structures très complexes et auto-similaires
    • effectivement ont retrouve les "mêmes" feuilles partout dans l'image
    • idem pour le sol et d'éventuelles cailloux

Cela affecte donc le processus de détection de caractéristiques communes entre les bandes pour l'enregistrement des images. Il existe deux types d'enregistrement, basé sur des points-clé ou sur l'intensité.

  • Les méthodes basées sur les points-clé fonctionnent en extrayant des points d'intérêt et en utilisant la correspondance de caractéristiques (texture). Dans la plupart des cas, une mise en correspondance par bruteforce est utilisée (teste toutes les combinaisons), ce qui rend ces techniques lentes. Heureusement, ces points-clé peuvent être filtrées sur des propriétés spatiales pour réduire le nombre de correspondance à effectuer.
  • L'enregistrement basé sur l'intensité est un processus itératif, et les métriques utilisées sont difficile à définir et influence le nombre d'itérations, ce qui rend ce genre de méthode coûteuse en termes de calcul pour un enregistrement précis. En outre, le multispectral implique des métriques différentes pour chaque bande enregistrée, ce qui est difficile à réaliser.

On peut trouver différentes études d'alignement d'images à l'aide de caméras multi-capteurs pour l'acquisition par drones à des distances moyennes (50-200 m) et élevées (200-1000 m). Certaines montrent de bonnes performances (en termes de nombre de points clés) avec une forte recherche sur l'amélioration des descripteurs de ces points clé. D'autres préfèrent utiliser un enregistrement basé sur l'intensité avec de meilleures mesures de convergence (en termes de corrélation), ce qui est plus lent et pas nécessairement robuste contre la variabilité de la lumière et leurs optimisations peuvent également tomber dans un minimum local, ce qui entraîne un enregistrement non optimal.

preview

L'approche traditionnelle de l'enregistrement d'images multispectrales consiste de plus à désigner un canal de référence et à déplacer tous les autres vers le canal sélectionné. Actuellement, seule un article [Dantas Dias Junior 2019] propose une méthode de sélection de la meilleure référence, mais aucune étude n'a été menée pour déterminer exactement la quel est la meilleure référence spectrale dans une scène agronomique. Dans tous les cas, le proche infrarouge (850 nm) ou la référence spectrale de moyenne gamme sont utilisés de manière conventionnelle sans étudier les autres (particulièrement en agriculture de précision). En outre, ces études proposent principalement des méthodes basé sur la mises en correspondances de points clé sans grande comparaison des algorithmes de détection de ces points clé (moins de 4). Ces études ne propose pas non plus d'informations sur les performances (temps/précision). Et ne montre pas non plus l'importance de la référence spectrale à utiliser, tout comme l'intérêt de travailler dans le domaines des gradients (comme dans les méthodes basées sur l'intensité). Tout cela seras donc l'objectif de ce billet.

Objectif

La méthode proposer repose sur un alignement affiné en deux étapes, avec :

  1. l'enregistrement affine approximativement estimé
  2. l'enregistrement perspective pour l'affinement et la précision.

À titre d'exemple, la figure suivante montre chaque étape de correction, où la première ligne est pour la (1) correction affine, la seconde pour la (2) correction en perspective. Plus précisément, la deuxième étape est un prétraitement par canal où des algorithmes détection de points clés sont utilisés. Les points clés de chaque canal sont associés pour calculer la correction de perspective en cherchent une homographie vers la bande spectrale de référence. Ces étapes sont expliquées dans les sections suivantes.

Ainsi, cette étude propose un benchmark des algorithmes de détection de points populaire appliqué au domaine des gradients. De plus la meilleure référence spectrale a été définie pour chacun d'entre eux. Nous allons aussi définir dans un premier temps un enregistrement affine utilisé dans la seconde étapes pour filtrer la correspondance des points-clés, évaluées à différentes résolutions spatiales. Cette étude montre donc l'importance de la sélection de la référence et de  l'extracteur de points-clé sur des gradients.

Cette session à fait l'objet d'article présenter dans la conférence VISAPP à Malte