COULEUR NUMÉRIQUE
ET PSYCHOMÉTRIE

de Christine FERNANDEZ - MALOIGNE


Laboratoire IRCOM-SIC
(Signal, Image et Communications)
UMR CNRS 6615

Boulevard Marie et Pierre Curie
Téléport 2
86962 Futuroscope Cédex

Tél : 05 49 49 65 73
Fax : 05 49 49 65 70

fernandez@sic.univ-poitiers.fr
http://sic.sp2mi.univ-poitiers.fr/actiom/


 

 

Les images numériques couleur ont une nature particulière, étant donnée leur représentation numérique, qui n’est pas une représentation scalaire comme dans le cas des images en niveaux de gris, mais une représentation vectorielle, dans un espace couleur. Il est ainsi particulièrement difficile de trouver un ordre pour comparer 2 vecteurs. Un autre facteur qui donne cette nature particulière aux images couleur est leurs liens à la perception visuelle humaine. Il est bien connu que la perception d’une couleur est strictement liée au Système Visuel Humain (SVH), dépendant de chaque individu.

Or, dans nombre d’applications multimédia ou industrielles, il est nécessaire de juger de la qualité des images couleurs traitées ou produites et en particulier de maîtriser la qualité d'une image par rapport à l'image initiale dans une chaîne de traitements. Les problèmes rencontrés concernent à la fois la maîtrise de la chaîne de reproduction d'un document tout au long du cycle d'échange électronique. Ils concernent aussi, dans un contexte industriel, la maîtrise du contrôle qualité sur des produits pour lesquels des métriques classiques n'ont aucun sens comparés à la perception visuelle humaine.

Nous nous proposons donc dans cet article de détailler les mesures quantitatives et qualitatives permettant d’évaluer un traitement sur une image couleur.

1 Mesures quantitatives

 

Des nombreux efforts ont été entrepris ces dernières années dans la définition des méthodes d’évaluation pour mesurer la qualité subjective des images de télévision [CCI90] et des images militaires [Bes93], [DCK97]. Cependant, ces méthodes sont difficiles à mettre en œuvre, et de plus elles sont coûteuses en termes de temps de calcul. Ainsi, des mesures objectives (algorithmes mathématiques) sont couramment utilisées pour évaluer la qualité des images produites ou traitées par un ordinateur. Il existe une littérature très riche sur les critères de la qualité d’image, car chaque concepteur de système de traitement d’image, ou de sous-système (optique, détecteur, compression, restauration), a besoin de ses propres critères pour mesurer la qualité de l’image de sortie, correspondant à une version dégradée de la scène d’entrée. Chaque système implique d’une part, un ensemble de dégradations spécifiques (repliement de spectre, faux contours, effet de blocs, …) et d’autre part, toutes les combinaisons possibles de ces dégradations. Il est donc nécessaire de disposer d’un ensemble de critères, chacun représentant un aspect particulier de l’estimation de la qualité de l’image.

Les critères de qualité d’image sont décomposés en deux familles : les critères non pondérés et les critères pondérés. La première famille correspond aux critères dits mathématiques classiques, car ils sont issus de la géométrie (notion de distance) ou du traitement du signal (rapport signal à bruit) dans le domaine image. Ces critères ne donnent pas une estimation de la qualité visuelle de l’image. La deuxième famille de critères tentent de prendre en compte les caractéristiques du système visuel humain notamment par une pondération de l’image d’erreur.

1.1 Critères non pondérés

Afin de mesurer la fidélité de l’image de sortie par rapport à l’image d’entrée, on utilise en pratique des formules mathématiques simples qui permettent une mesure au premier ordre des dégradations introduites par le système dans l’espace de l’image. Ces critères sont présentés dans les ouvrages classiques de traitement d’image [RoK76], [GoW77], [Pra78], [Jai89], [Kun93].

A. Mesure de distance

Par la suite nous présentons quelques critères basés sur une mesure de distance entre l’image source et l’image dégradée, fondés sur une norme . Pour une valeur importante de p, les erreurs les plus importantes seront prises en compte. Les expériences psychophysiques [Lim79] ont montré que pour , on obtient une bonne corrélation avec l’observateur pour des distorsions homogènes (bruit).

A partir des différentes valeurs de p, on obtient :

avec F image source et image dégradée

(1)

C'est-à-dire la différence moyenne entre les images F et , (Average Difference - AD).

(2)

C'est-à-dire la racine de l’erreur quadratique moyenne, (Root Mean Square Error - RMSE).

En pratique, au lieu de on utilise souvent , qui est l’erreur quadratique moyenne ou MSE (Mean Square Error).

(3)

Ces deux mesures ont les mêmes propriétés en termes de minima et maxima. Cependant la MSE est plus sensible aux grandes différences que la RMSE. L’erreur quadratique moyenne peut être normalisée par l’image de référence, comme suit :

(4)

A l’aide de ces normalisations, les valeurs des mesures de distance sont moins dépendantes de l’image de référence. Le critère le plus couramment utilisé dans la littérature pour spécifier la qualité d’une image, est le PSNR (peak signal noise ratio), décrit par l’équation suivante :

(5)

Typiquement, chaque pixel d’une image monochrome est codé sur 8 bits, soit 255 niveaux de gris. Le PSNR peut être calculé aussi pour des images couleur, en le calculant pour chaque composante d’image. Il ne prend pas en compte les corrélations entre les composantes, ni le voisinage d’un pixel. Une couleur n’ayant de sens que dans un contexte, le PSNR n’est pas vraiment représentatif pour un traitement couleur.

B. Les critères de Linfoot [Lin56], [Lin58]

La première famille de ces critères est basée sur l’étude des propriétés de la Densité Spectrale de Puissance (DSP) des images de référence, d’image dégradée et d’erreur (différences des deux images) ; ces critères permettent de prendre en compte les propriétés spectrales des images. La deuxième famille correspond à des mesures de corrélation sur les DSP et les images.

Le premier critère présenté est le critère de fidélité d’image (F), calculé comme un rapport des densités spectrales de puissance (DSP) de l’image d’erreur et de référence. La fidélité est égale à un, lorsque l’image de sortie est égale à l’image d’entrée. Du fait de la mesure quadratique, les faibles erreurs seront minimisées.

Linfoot introduit deux autres mesures de qualité, le contenu structural (T) et la corrélation (Q). Le contenu structural est le rapport des DSP des deux images et le critère de corrélation est une corrélation des spectres normalisés par la DSP de l’image de référence. Le contenu structural est relié aux deux autres critères par :

(6)

Ces critères ont été utilisés pour évaluer la qualité des systèmes d’images infrarouge, tel que FLIR (forward looking infrared), [RPO92]. Huck et Fales, [FaH91], ont utilisé la notion de fidélité pour construire leur critère d’information mutuelle (H), qui est une mesure de l’entropie du rapport des DSP de l’image de référence. Puis dans [HFA93], ce critère est utilisé pour évaluer les paramètres limitatifs d’un système de vision.

D’autres critères basés sur le critère de Linfoot, présentés dans [EsF93], sont le Structural Content (SC) et le Normalized Cross-Correlation (NCC). Le SC est le rapport de l’image dégradée sur l’image de référence, et le NCC est le corrélation entre l’image de référence et l’image dégradée normalisée par l’image de référence. Cependant, l’interprétation des critères comme le SC et le NCC est plus difficile que des mesures de distances classiques.

 

1.2 Critères pondérés

La deuxième famille de critères de qualité d’image est basée sur une pondération de l’image d’erreur par une fonction modélisant la sensibilité du Système Visuel Humain (SVH). Il existe deux types de modélisation : les modèles simple canal et les modèles multi-canaux plus complexes.

A. Modèle simple canal

Les calculs de la norme , sont réalisés sur les images sources et dégradées après transformation par un modèle simple canal. Ce modèle est constitué par une suite de modules représentant les traitements dits de bas niveau du système visuel humain, mais on ne tient pas compte des propriétés du cortex. En général, le premier module est constitué d’une transformation non linéaire (lois du type logarithmique) modélisant la perception de l’intensité lumineuse. Le deuxième module correspond à un filtrage fréquentiel de l’image. Ce filtre passe bande représente la sensibilité au contraste du système visuel humain. Le dernier module correspond à la prise en compte de l’effet de masquage par la mesure d’une fonction d’activité. L’activité est une mesure des fortes variations au voisinage d’un pixel. Un certain nombre de critères sont basés sur ce modèle, critères que nous rappelons par la suite.

Le critère de mesure de la qualité de l’image de Mannos et Sakrison [Mas74], a été le premier à utiliser un modèle de vision pour l’évaluation des techniques de traitement d’images. Ce critère consiste à multiplier le spectre d’erreur par la CSF (fonction de sensitivité du contraste) et à calculer son énergie (fonction non linéaire, logarithmique). Hall et Hall [HaH77] ont proposé un modèle tenant compte de la non linéarité ainsi que de la réponse fréquentielle du SVH. A la différence du modèle de Mannos et Sakrison, on utilise un filtre passe bas suivi par un filtre passe haut. Le modèle est représenté à la Figure 1, une fonction non linéaire est placée entre les deux filtres. Ce modèle représente au mieux la physiologie du SVH : le filtre passe bas correspond à la formation de l’image sur la rétine, la non linéarité représente la sensibilité des cellules de la rétine, et le filtre passe haut correspond à la formation de l’image neuronale.

 

Figure 1 : Modèle de Hall et Hall

Dans son critère, Limb [Lim79] recherche une mesure objective de la qualité de l’image qui s’approche le plus possible du jugement de l’observateur. Pour trouver cette mesure, il fait évaluer par un ensemble d’observations cinq types d’images ayant subi 16 dégradations (codage DPCM, bruits, filtrage,…) de différentes intensités. Pour chaque famille d’images et de dégradations, Limb calcule une régression polynomiale entre les notes subjectives et les valeurs de la mesure objective. La variance entre les points expérimentaux et la courbe de régression est prise comme mesure de la performance du modèle objectif (une faible variance implique une meilleure performance). Finalement Limb propose un modèle complet de la vision humaine en incluant un filtrage de l’erreur par un filtre passe bas et une pondération par une fonction de masquage (figure 2).

 

Figure 2 : Modèle de Limb.

Limb a été l’un des premiers à prendre en compte l’effet de masquage dans une mesure de la qualité d’image et à étudier la corrélation entre des mesures objectives et subjectives pour différentes dégradations. Cependant, la modélisation simplifiée de l’effet de masquage et du filtrage ne permet pas d’obtenir des résultats satisfaisants. En effet, ce modèle ne donne pas une variance minimale pour tous les types de distorsions.

Miyahara et Algazi ([Miy88], [AKM92] et [MKA96]) proposent une nouvelle méthodologie de mesure de la qualité d’image, appelée PQS (picture quality scale). En fait, il s’agit d’une combinaison d’un ensemble de critères simple canal. Ils partent du principe que la sensibilité du SVH dépend du type de distorsion introduite dans l’image. Ils utilisent donc cinq critères objectifs où chaque critère est dédié à la détection d’un type particulier de distorsion. Ces critères pouvant être corrélés, une analyse en composantes principales (ACP) permet de projeter les critères dans un espace décorrélé. Puis, ils réalisent une analyse multivariable entre les composantes principales, résultant de l’ACP, et les mesures subjectives. La Figure 3 représente un graphe de construction des différents critères du PQS. Pour le calcul des quatre derniers critères, Miyahara et Algazi, utilisent une modélisation simplifiée du SVH.

 

Figure 3 : Les critères du PQS.

Les deux premiers critères et , sont des critères utilisé pour la mesure des distorsions aléatoires. Le critère correspond à la pondération de l’image d’erreur par un filtre passe bas et à une normalisation par l’énergie de l’image source. Le critère correspond à la pondération de l’image d’erreur par une fonction non linéaire et un filtre passe bande, puis à une normalisation par l’énergie de l’image source.

Les trois autres critères , et , sont utilisés pour la mesure des distorsions géométriques et localisées. Le critère est utilisé plus spécifiquement pour la mesure des effets de bloc, et il réalise une somme des erreurs entre deux blocs adjacents (8 pixels), dans les directions verticale et horizontale. Le quatrième critère , est une mesure de corrélation, réalisant une somme sur toute l’image d’erreur de la corrélation spatiale dans une fenêtre 5x5. Finalement, le cinquième critère , permet de mesurer l’erreur sur les contours, en faisant une pondération des contours de l’image d’erreur par une fonction de masquage exponentielle.

 

B. Modèles multi-canaux

Les études psychophysiques du SVH ont montré que la sensibilité au contraste pour un stimulus dépend de sa fréquence et de son orientation. Ainsi, il existe des modèles de perception constitués en bandes de fréquences et d’orientation, c’est la modélisation multi-canaux. Elle permet de mieux tenir compte des propriétés du cortex visuel.

Deux des modèles les plus connus pour la vision humaine, sont le VDP (The visible Difference Predictor) de S. Daly [Dal92], [Dal93], [Dal94] et le modèle de S. Karunasekera et N. Kingsbury [KaK93], [KaK94], [KaK95].

Le VDP a été utilisé au début pour mesurer la qualité des méthodes des codage [AvA96], [AAE97] et des images médicales [Mat96]. Il permet de mesurer la qualité entre une image originale et une image dégradée à l’aide d’une carte indiquant la probabilité de détection d’une différence visuelle entre les deux images.

Ce modèle VDP est constitué comme un ensemble de sous modèles prenant en compte les variations de sensibilité du SVH. Chaque sous-module correspond à la modélisation d’une variation de sensibilité qui limite la perception visuelle. De nombreux tests psychophysiques ont été réalisés, afin de mesurer la validité de cet algorithme [Dal94]. Le VDP modélise les trois principales variations de sensibilité du SVH : les variations en fonction de l’intensité lumineuse, du contenu fréquentiel et du contenu structurel de l’image. La figure suivante présente le schéma de ce modèle (Figure 4).

 

Figure 4 : le modèle VDP de S. Daly.

 

Le deuxième modèle, celui présenté par Karunasekera et Kingsbury [KaK93], [KaK94], [KaK95], est un modèle permettant une mesure de la qualité de l’image basée sur une étude de la sensibilité du SVH à différentes dégradations.

L’image d’erreur est décomposée en quatre orientations privilégiées (-45, 0, 45, 90 degrés) et une en bande de base (basses fréquences). Puis, chaque sous image est pondérée par une fonction de masquage et subit une transformation non linéaire. L’erreur dans chaque sous bande () est obtenue par une moyenne sur toute l’image. L’erreur finale est la somme des erreurs dans chaque sous bande. La figure suivante présente le schéma complet de ce modèle (figure 5).

Figure 5 : Modèle de Karunasekera et Kingsbury pour une mesure de la qualité d’image.

L’avantage de ce modèle est que tous les filtres utilisés sont définis dans le domaine spatial (filtres à réponse impulsionnelle finie), évitant ainsi le calcul de la transformée de Fourier rapide. Les coefficients de ces filtres, [KaK95], proviennent de mesures psychophysiques sur la détection de différentes distorsions (effets de bloc, rebondissement, image floue).

A partir du modèle de S. Daly, de nombreux autres modèles du SVH ont été développés. Les principaux changements sont :

  • Utilisation de nouvelles transformées pour la décomposition en multi-canaux : filtres Gaussiens [VDB96], en quadratures de phase [TeH94], [WLB96] et transformée en ondelette [LaJ97], permettant ainsi des temps de calcul plus faibles et une meilleure reconstruction de l’image lors du passage fréquentiel spatial.

  • Des expériences psychophysiques, [Hee92], [FoB94], [Fol94], ont montré que la modélisation de l’effet de masquage en considérant les canaux visuels indépendants (Intra-chanel masking) ne permet pas de prédire correctement la réponse du SVH. D. J. Heeger, [Hee92], [SiH97], propose de modéliser le masquage en pondérant le calcul du masquage, pour un canal, par la réponse des autres canaux visuels (inter-channel masking). Ainsi, une mesure de la qualité d’image basée sur ce modèle montre une meilleure corrélation avec l’observateur humain que le modèle classique [WBY96].

  • De plus, on peut citer les travaux récents de M. Nadenau et J. Reichel [NaR00] sur l’évaluation psychovisuelle de l’effet de masquage du contraste et l’effet de masquage produit par une activité ou une complexité locale de l’image, appelé masquage entropique, dans des images contenant des scènes naturelles.

Dans la première partie de cet article, nous avons présenté quelques mesures classiques de la qualité d’images numériques couleur, principalement basées sur une mesure de distance entre l’image originale et l’image traitée. Cependant, ces mesures ne correspondent pas bien à la perception visuelle des images. Pour cela nous avons ensuite présenté des mesures basées d’une part sur une représentation simplifiée du SVH, modèles simple canal, et d’autre part sur une modélisation du cortex visuel, modèles multi-canaux.

Malgré la complexité de ces méthodes, l’évaluation quantitative de la qualité d’une image n’est pas toujours en concordance avec l’évaluation d’un observateur humain. Ainsi, la qualité d’une image, pour être correctement jugée, doit être évaluée en tenant compte des mesures quantitatives, mais aussi des observations humaines, donc d’évaluations psychovisuelles (qualitatives). Ce type d’évaluations fait l'objet de la partie suivante.

 

 

2. Evaluations psychovisuelles

Dans ce paragraphe, nous expliquons comment il est possible de mesurer la qualité d’une image à partir d’observations effectuées par des êtres humains. Les observations nous permettent d’obtenir des seuils de sensibilité de l’œil humain et ainsi de dégager une mesure de qualité. Puis, nous montrons que, lorsque l’on recherche de tels seuils, il est nécessaire d’évoluer dans un environnement normalisé, pour éviter le biais des différentes expérimentations. Nous présentons, d’après [Cha98], les fonctions psychophysiques qui permettent de définir différentes échelles de qualité.

2.1. Eléments de base

D'une façon générale, la psychophysique [Fec60] étudie les relations quantitatives entre des évènements physiques identiques et mesurables, ou stimuli, et des réponses formulées selon une règle expérimentale. Elle permet la mise au point de modèles de fonctionnement du système visuel humain en déterminant des seuils de sensibilité.

Dans les expériences psychophysiques, il existe trois types de seuils, en fonction de la tâche effectuée, recensés par Charrier [Cha98] :

  • seuil de détection : "l'observateur répond à une question sur la présence ou non d'un stimulus. Généralement, ce stimulus varie selon une seule de ses dimensions (l'intensité d'une lumière par exemple). Ce seuil de détection est la limite entre la valeur, qui ne donne pas lieu à une perception, et la valeur qui permet de conclure à la présence du stimulus ";
  • seuil de discrimination : "l'observateur répond à une question portant sur la différence ou non entre deux stimuli. Ces seuils, appelés aussi seuils différentiels, peuvent être définis comme une limite entre des différences non perçues et des différences perçues. Ce type de seuil est utilisé selon un principe de base très simple : tout système physique ou biologique peut_être caractérisé par ses limites de fonctionnement, son pouvoir de résolution et par sa capacité à discriminer deux niveaux voisins des signaux qu'il traite" ;
  • seuil de reconnaissance et d'identification : "un processus d'identification consiste à établir une correspondance bijective entre un ensemble de stimuli et un ensemble de réponses qui sont, en général, les étiquettes, les noms des stimuli. Deux types de tâches sont alors envisageables :

    1. la dénomination : on demande au sujet le nom du stimulus dont il est en présence,
    2. la désignation : on donne au sujet le nom du stimulus qu'il doit retrouver par la suite."

La reconnaissance correspond à une situation où le sujet doit dire si le stimulus qui lui est présenté l'a déjà été; il s'agit d'un cas particulier de l'identification.

Charrier définit aussi la sensibilité comme "un concept général qui renvoie à plusieurs propriétés d'un système sensoriel. Deux propriétés principales sont étudiées en psychophysique : la sensibilité absolue et la sensibilité différentielle. La sensibilité est, dans l'ensemble, une grandeur hypothétique, qui n'est pas directement mesurable, et qui doit être appréciée à partir des relations observées entre des niveaux de stimulus et une distribution de jugements humains."

Pour mettre en place des évaluations psychovisuelles et mesurer correctement, de manière reproductible, les seuils évoqués ci-dessus, un environnement normalisé doit être mis en place.

2.2. L’environnement

Pour juger de la qualité d'une image par des tests psychosensoriels on doit utiliser un environnement dit normalisé, ne serait ce que pour pouvoir comparer les résultats issus d'expériences différentes.

La salle où se déroulent les expériences doit ainsi répondre à un certain nombre de caractéristiques techniques qui peuvent être obtenues auprès du CCETT (Centre Commun d'Etudes de Télédiffusion et de Télécommunications ) de Rennes.

D'après [BSB97], les éléments essentiels sont :

  • une distance entre le fond de la salle et la surface de l'écran de un mètre,
  • une luminance du fond de l'écran fixée à 22cd/m 2 ,
  • un éclairage artificiel pour que l'arrière de l'écran réfléchisse en moyenne un flux lumineux achromatique de 8cd/m 2, et de température de couleur de 6000 degrés Kelvin.
  • une distance de l'observateur à l'écran égale à six fois la hauteur de l'image visualisée.

L'écran doit lui aussi avoir été calibré. En ce qui concerne les écrans couleur à tube cathodique on parle de correction gamma de l'écran. Cette correction est nécessaire pour annuler les déviations colorimétriques dues à la technologie des canons à électrons. En effet, la réponse de l'écran étant non linéaire, la gamme de luminance des canaux couleur n'est pas uniformément répartie mais elle est décrite par une loi de type exponentielle.

A titre d'exemple, la figure 6 extraite de [Cha98] présente une image corrigée et non corrigée.

 

Figure 6a) sans correction gamma. b) avec correction gamma..

2.3. Les tests psychophysiques

Pour effectuer des tests en utilisant des observateurs humains, il faut s'assurer que ces observateurs possèdent une vision normale des couleurs (test de Ishihara) et une acuité visuelle normale (test de Snellen). On peut distinguer deux grands types de tests : les tests de comparaisons (deux ou plusieurs images sont présentées a l'observateur et il a un choix à faire) et les tests de mesure absolue (une seule image à noter par l'observateur en fonction de sa qualité).

Pour chacun de ces tests, il existe deux possibilités de présentation des images à l'observateur : la présentation flash (les images apparaissent et disparaissent brutalement), la présentation progressive (l'image apparaît petit à petit à l'écran, en terme de contraste).

Pour notre part, nous ne présentons ici essentiellement que des tests de comparaisons orientés vers le choix forcé. C'est-à-dire que l'observateur doit toujours choisir une seule des images qui lui sont proposées en fonction d'une question précise. Les conditions des expériences sont toujours basées sur l'observation attentive des images a contrario de la vision pré-attentive des scènes. L'observateur se voit donc proposer un temps d'observation important qui peut toutefois être limité pour éviter les problèmes d'accoutumance a certaines parties des images. Nous allons proposer trois types de tests : les tests d'ordonnancement, les tests dirigés par choix forcé et les tests comparatifs. Ces techniques permettent de ne jamais mettre l'observateur dans une situation de choix complexe. L'observateur devra soit choisir la meilleure des images dans un ensemble d'images, soit choisir la meilleure des images parmi deux.

2.3. 1. Les tests d'ordonnancement

Ces tests permettent de juger de la qualité de représentation de plusieurs images présentées simultanément [Cha98], [FLN01] comme l'illustre la figure 7. Neuf images sont affichées à l'écran, l'image originale étant placée au centre de la présentation, les huit images à étudier se situant autour. Leur placement est aléatoire et ne doit pas influencer le choix de l'observateur. Il est alors demandé à l'observateur d'indiquer l'image la plus éloignée qualitativement de l'image originale. Cette image est alors masquée. La même question est reposée jusqu'à ce que les huit images soient supprimées de la présentation.

Ce test peut se dérouler selon un ordonnancement individuel (l'observateur classe les images par ordre de qualité croissante ou décroissante)  ou un ordonnancement par classe (images regroupées par classe de même qualité).

Ces deux approches peuvent être complémentaires l'une de l'autre. L'ordonnancement individuel peut être validé par l'étape d'ordonnancement par classe qui semble proche de ce qu'effectue l'être humain lorsqu'il compare des images. En effet, si deux images présentent des dégradations visuelles de même nature, l'observateur préférera les affecter à une même classe.

Figure 7: Exemple de présentation pour juger de la qualité de représentation de plusieurs images, pour le test d’ordonnancement

Le classement obtenu par une telle technique, peut alors être interprété comme tel ou il peut servir de base à la mise en place de plusieurs tests comparatifs permettant d'affiner les résultats obtenus par les tests d'ordonnancement.

2.3. 2. Les tests du choix forcé

Ces tests permettent de comparer plusieurs images deux à deux, par rapport à l’image originale [Cha98], [FLN01]. Cela nous permet d'analyser plus facilement les corrélations des caractéristiques . La figure 8 montre comment se présentent les images lors du test du choix forcé, rapporté à l’image originale.

Le test que nous présentons ici, propose à l'évaluateur deux images, par rapport à l'originale située au centre. L’observateur doit alors choisir la meilleure des deux images qui se situent de part et d'autre de l’image originale

Figure 8 : Exemple de l’utilisation des tests de choix forcé.

Dans l'exemple ci-dessus, le choix se porte logiquement sur l'image de droite.

Programmé sur le même schéma que le test d’ordonnancement, le résultat de cette évaluation est enregistré dans une base de données à la fin du test. Ce résultat se compose de deux images : la meilleure et la moins bonne qui sont isolées grâce à un algorithme présenté par la suite [FLN01].

Description de l'algorithme

Les huit images (a,b,c,d,e,f,g,h) sont mises dans un tableau (figure 9) et subissent différents déplacements en fonction des choix de l'utilisateur. Quatre tests deux à deux sont effectués (1). Ensuite, il s'agit de séparer les meilleures images des autres puis de refaire un test deux à deux (2). Enfin, nous obtenons les deux meilleures images et les deux moins bonnes, il nous reste alors deux tests à faire (3) pour obtenir la meilleure et la plus mauvaise.

 

Figure 9 : Test du choix forcé

 

Remarquons cependant que, pour ce test, l'utilisateur doit faire une session de plusieurs tests consécutifs (le nombre des tests est fixé en préalable). Ces tests permettent de déterminer, sur la base des images de départ et par recoupement des résultats, quelle est la meilleure et quelle est la moins adaptée selon la caractéristique testée.

2.3. 3. Les tests comparatifs.

Dans ces tests, il n'est proposé que deux images côte à côte aux observateurs. La seule question posée est la suivante : "Quelle est la meilleure des deux images ?". La position des images l'une par rapport à l'autre est bien entendu aléatoire. Dans ce style de tests, il peut s'avérer nécessaire de limiter le temps d'affichage. Ces tests peuvent être utilisés de manière intrinsèque pour comparer des couples d'images entre eux. Mais cette expérience peut également être utilisée pour affiner un test d'ordonnancement au choix forcé. En effet, il peut être très intéressant de relativiser les résultats obtenus en redemandant a l'observateur de répondre à des tests comparatifs entre la première et la seconde image résultantes du test d'ordonnancement (ensuite la 2ème avec la 3ème ; la 3ème avec la 4ème etc ...). Si les résultats sont cohérents, on arrête les tests, sinon on réitère le procédé avec des classements plus éloignés (1ere et 3ème; 2ème et 4ème etc). Les résultats obtenus peuvent soit confirmer le test, soit apporter des corrections soit "invalider " l'observateur.

 

2.3. 4. Les tests de mesure absolue

Plutôt que comparer la qualité de deux images, nous avons la possibilité de donner une note de qualité à une image, en utilisant des tests de mesure absolue.

Le but de ces tests n'est pas de déterminer un seuil de sensibilité, mais de noter la qualité d'une image. On demande à l'observateur de quantifier numériquement la qualité de l'image affichée à l'écran. Cette approche permet de calculer une note moyenne de qualité. [CoM90], [MKA96]. On se reportera à [Cha98] pour les différentes fonctions psychométriques possibles.

 

Nous avons présenté, dans cette section, un exemple de ce que nous pouvons entreprendre avec des tests psychophysiques. Cependant, il faut savoir que la mise en place de tels tests n'est pas aussi simple qu'il y paraît. En effet, les chercheurs ont constaté que ce type de tests se déroule généralement sur plusieurs mois. Ils nécessitent de nombreuses manipulations, et une présence régulière de la part des observateurs. Ces observateurs sont obligatoirement de sexes, d’âges et de professions différentes.

Dans cette seconde partie de notre article, nous avons décrit des techniques permettant de mesurer la qualité des images en se basant sur l'observation humaine. En règle générale, les tests psychophysiques utilisés permettent de déterminer le seuil de sensibilité, en deçà duquel, les différences entre les stimuli ne sont pas perçues, et, au-delà duquel, elles le sont. Ce seuil permet donc d'attribuer une valeur numérique à ces différences. La mise en place de ces différents tests, est très contraignante du point de vue ressources humaines et matérielles. Ils sont néanmoins très utilisés dans la compréhension du système visuel humain dont ils permettent de mettre en exergue certaines caractéristiques.

 

  1. Conclusion …

 

Nous vivons à l'heure du numérique et particulièrement de l'image numérique. Dans de nombreuses applications multimédia ou industrielles, il devient indispensable de juger de la qualité de ces images couleurs traitées ou produites [FM01b][RIC00] [FM99]. La compression notamment, en fort développement avec l'explosion du multimedia, impose une garantie d'interprétation et de rendu des images après transfert ou stockage. De même, en synthèse d'image, se pose la question récurrente de savoir si les images produites sont suffisamment réalistes. Dans ce contexte, de nombreux travaux récents concernent l'utilisation optimale de la couleur en tant qu'information vectorielle, mais aussi psycho-visuelle, par la prise en compte des spécificités du Système Visuel Humain (SVH) pour l'appréciation de la qualité des traitements.

La compression des images numériques couleur est un domaine d'étude particulièrement adapté à la mesure de la qualité. En effet, il est nécessaire de quantifier la qualité des images reconstruites, pour connaître les performances de la compression. Ainsi, l'utilisation de ces tests y est très fréquente. On se reportera aux références suivantes pour quelques résultats d'évaluations significatives [NaR99][Nad00][BIB01][IyB01].

Cependant, il n’existe pas de mesure quantitative objective de la qualité d’une image reconstruite après compression qui puisse indiquer parfaitement l’impression subjective d’un observateur humain. Par exemple, le PSNR (peak signal-noise ratio) peut indiquer d’une manière grossière la qualité d’une image mais il ne peut pas être correctement modélisé, de manière vectorielle, pour des images couleur.

Donc quand la qualité du traitement appliqué à une image couleur doit être évaluée, il faut aussi réaliser des tests psychophysiques subjectifs à l’aide de plusieurs observateurs. La mise en place de ces différents tests est très complexe. Ils sont néanmoins indispensables dans la compréhension du système visuel humain. Ils permettent de déterminer les seuil de sensibilité, en deçà duquel, les différences entre les stimuli ne sont pas perçues, et, au-delà duquel, elles le sont. Ces seuils sont la base d'un schéma de compression sans perte visuelle et d'une façon générale de l'étude d'algorithmes de traitement d'images numériques couleur le plus satisfaisant possible pour l'œil humain.

Ces évaluations sont intégrées dans les travaux de normalisation du codage de l'image et du son, notamment pour les nouvelles normes de compression d'images statiques, JPEG 2000 et de vidéos, MPEG7. Ces travaux sont réalisés au sein de l'AFNOR et de l'ISO [FLR01][LFR01][FM00][FM01a]. Ils montrent comment il est possible d'utiliser l'aptitude humaine à qualifier le rendu visuel d'une image et a fortiori de classifier un ensemble d'images par rapport à des critères de qualité, pour améliorer les traitements tout en réduisant la complexité algorithmique. Ainsi les travaux engagés dans le cadre du projet RNRT EIRE (Etudes d'optImisations algoRithmiques de JPEG 2000 http://194.167.49.232/jpeg/) permettront d'assurer une utilisation optimale de JPEG 2000 pour la compression et la transmission d'images numériques couleur. Ces travaux permettront de fournir la meilleure qualité de service dans un contexte limité en ressources, et de démontrer la possibilité d'implémenter efficacement JPEG 2000 pour des images couleur. Les applications visées par le projet seront principalement l'imagerie de type scientifique et la télésurveillance. A terme, les techniques développées pourront être utilisées dans nombre de services tels que imagerie et vidéo sur mobiles et/ou IP (UMTS en particulier), compression d'image à bord de satellites, télémédecine, mobiles téléguidés, restauration et transcodage de banques d'images compressées et imagerie géographique.

 

 

Bibliographie

 

[AAE97] V. R. Algazi, N. Avadhanam and R. R. Estes, Quantififying Coding Performance for Preprocessed Images, Proceedings of the SPI, very High Resolution an Quality Imaging II, vol. 3025, pp. 123-133, 1997.

[AKM92] V. R. Algazi, Y. Kato, M. Miyahara and K. Kotani, Comparison of Image Coding Techniques with a Picture Quality Scale, Proceedings of the SPIE, Applications of Digital Image Processing XV, vol. 1771, pp. 396-405, 1992.

[Bes93] N. Beser, Image Data Compression Metrics, Proceedings AIAA, Computing in Aerospace 9, pp. 292-303, 1993.

[BIB01] A. P. Beegan, L. R. Iyer and A. E. Bell, Wavelet-based color and grayscale image compression using human visual system models, preprint, 2001.

[Bon86] C. Bonnet, Manuel pratique de psychophysique, Armand Colin, 1986.

[BSB97] L. Bédat, A. Saadane and D. Barba, Représentation et quantification psychovisuelles d’images couleur, GRETSI, Grenoble, pp. 197-204, 1997.

[CCI90] Recommandation CCIR 500-4, Méthode d’évaluation subjective de la qualité des images de télévision, ITU, 1990.

[Cha98] C. Charrier, Vers l’optimisation statistique et perceptuelle de la qualité pour la compression des images couleur par quantification vectorielle, Thèse de doctorat, Université Jean Monnet Saint-Etienne, 1998.

[CoM90] S. Comes and B. Macq, Human Visual Quality Criterion, SPIE Visual Communications and Image Processing, vol. 1360, pp. 2-13, 1990.

[Dal92] S. Daly, The Visible Differences Predictor : an Algorithm for the Assessmant of Image Fidelity, Proceedings of the SPIE, Human Vision, Visual Processing and Digital Display III, vol. 1666, pp 2-15, 1992.

[Dal93] S. Daly, The Visible Differences Predictor : an Algorithm for the Assessmant of Image Fidelity, in Digital Images and Human Vision, edited by A. B. Watson, MIT press ; pp. 197-206. 1993.

[Dal94] S. Daly, A Visual Model for Optimizing the Design of Image Processing Algorithms, International Conference on Image Processing, ICIP Part 3, pp. 16-20. 1994.

[DCK97] R. G. Diggers, P. Cox and M. Kelly, National Imagery Interpretation Rating System and the Probabilities of Detection, Recognition and Identification, Optical Engineering, vol. 36, No. 7, 1952-1959, 1997.

[EsF93] A. M. Eskicioglu, P. S. Fisher, A Survey of Quality Measures for Gray Scle Image Compression, Proceedings AIAA, Computing in Aerospace 9, vol _, No. 939, pp. 304-313, 1993.

[FaH91] C. L. Fales and F. O. Huck, An Information Theory of Image Ghatering, Information Sciences, Elsevier Science Publishing Co., vol. 57-58, pp. 245-285, 1991.

[Fec60] G. T. Fechner, Element der psychophysik, Liepzig, Breitkopf and Hartel, 1860.

[FLR01] C. Fernandez-Maloigne, M. C. Larabi and N. Richard, Core experiment result on color spaces, in ISO/IEC JTC1/SC29/WG1 N21, JPEG 2000, 24 mars 2001.

[FM01a]C. Fernandez-Maloigne. Évaluation psychovisuelle de la qualité d'un traitement numérique appliqué à une image couleur. Dans École de printemps sur la couleur. 19--23 mars 2001. Pau, France.

[FM01b]C. Fernandez-Maloigne. Modélisation et caractérisation des textures couleurs. Dans École Internationale de printemps Traitement et Analyse des signaux multidimensionnels : Méthodes, Algorithmes, Technologies, Applications. 1--31 mai 2001. Université Politehnica, Bucarest, Roumanie.

[FM00]C. Fernandez-Maloigne. Color spaces for compression in JPEG2000. Dans Comité de normalisation JPEG2000 pour l'AFNOR. 4--8 décembre 2000. New-Orleans, Louisiane, USA.

[FM99]C. Fernandez-Maloigne. Principes de base de l'analyse d'images couleur. Dans École Internationale de printemps Traitement et Analyse des signaux multidimensionnels : Méthodes, Algorithmes, Technologies, Applications. 28 mai--1 juin 1999. Université Politehnica, Bucarest, Roumanie.

[FoB94] J. M. Foley and G. M. Boynton, A New Model of Human Luminance Pattern Vision Mechanisms : Analysis of the Effects of Pattern Orientation, Spatial Phase and Temporal Frequency, Proceedings of the SPIE, Computational Vision Based on Neurobiology, vol. 2054, pp. 32-42, 1994.

[Fol94] J. M. Foley, Human Luminance Pattern — Vision Mechanisms : Masking Experiments Require a New Model, Journal of the Optical Society of America, vol. 11, No. 6, pp. 1710-1719, 1994.

[GoW77] R. C. Gonzalez and P. Wintz, Digital Image Processing, Addison-Wesley Publishing Company, 1997.

[HaH77] C. F. Hall and F. Hall, A Nonlinear Model for the Spatial Characteristics of the Human Visual System, IEEE Transaction oo Systems, Man and Cybernetics, vol. SMC-7, No. 3, pp. 161-170, 1977.

[Hee92] D. J. Heeger, Normalization of Cell Responses in Cat Striate Cortex, Visual Neuroscience, No. 9, pp. 181-198, 1992.

[HFA93] F. O. Huck, C. L. Fales, R. Alter-Gartenberg, Z. U. Rahman et S. E. Reichenbach, Visual Communication : Information and Foidelity, Journal of Visual Communication and Image Representation, vol. 4. No. 1, pp. 62-78, 1993.

[IyB01] L. R. Iyer and A. E. Bell, Image compression using balanced multiwavelets, preprint 2001.

[Jai89] A. K. Jain, Fundamentals of Digital Image Processing, Prentice-Hall Information and System Science Series, 1989.

[JFA97] R. E. Jacobson, A. M. Ford, and G. G. Attridge. Evaluation of the effects of compression on the quality of images on a soft display. In SPIE, Proceedings, volume 3016, pages 114-121, 1997.

[KaK93] S. A. Karunasekera and N. G. Kingsbury, A Distorsion Measure for Blocking Artifacts in Images based on Human Visual Sensitivity, Proceedings of the SPIE, Visual Communications and Image Processing, vol. 2094, pp. 474-486, 1993.

[KaK94] S. A. Karunasekera and N. G. Kingsbury, A Distorsion Measure for Image Artifacts based on Human Visual Sensitivity, Proceeding of ICASSP — IEEE, vol. 5, pp. 117-120, 1994.

[KaK95] S. A. Karunasekera and N. G. Kingsbury, A Distorsion Measure for Coding Artifacts in Images : Implementation Aspects, Internal Report, Signal Processing Group, Departament of Engineering, University of Cambridge, 1995.

[KFN96] T. Kaukoranta, P. Franti, and O. Nevalainen. Empirical study on subjective quality evaluation of compressed images. In SPIE Proceedings, volume, 2663, pages 88-99, 1996.

[Kun93] M.Kunt, Traitement numérique des images, Presses Politechniques et Universitaires Romandes, Traitement de l’information : vol 2, 1993.

[LaJ97] Y. K. Lai and C. C. Jay Kuo, New Image Compression Artifact Mesure Using Wavelets, Proceedings of the SPIE, Visual Communications and Image Processing, vol. 3024, pp. 897-908, 1997.

[Lim79] J. O. Limb, Distorsion Criteria of the Human Viewer, IEEE Transaction on Systems, Man and Cybernetics, vol. SMC-9, No. 12. Pp. 778-793, 1979.

[Lin56] E. H. Linfoot, Transmission Factors ans Optical Design, Journal of the Optical Society of America, vol. 46, No. 9, pp. 740-752, 1956.

[Lin58] E. H. Linfoot, Quality Evaluation of Optical Systems, Optica Acta, vol. 5, No. 1-2, pp. 1-13, 1958.

[LFR01]M. C. Larabi, C. Fernandez-Maloigne et N. Richard. Color coding a benchmark for compression. Dans Comité de normalisation JPEG2000 pour l'AFNOR. 5--9 mars 2001. Singapour.

[Mas74] J. L. Mannos and D. J. Sakrison, The Effects of Visual Fidelity Criterion on the Encoding of Images, IEEE Transactions on Information theory, vol. IT-20, No. 4, pp 525-536, 1974.

[Mat96] T. Matews, Objective Image Quality Measures for Magnetic Resonance Images, Master’s thessis, University of Calgary, 1996.

[Miy88] M. Miyahara, Quality Assessments for Visual Service, IEEE Communications Magazine, vol. 26, pp. 51-60, 1988.

[MKA96] M. Miyahara, K. Kotani and V. R. Algazi, Objective Picture Quality Scale (PQS) for Image Coding, IEEE Transactions on Communications, 1996.

[Nad00] M. J. Nadenau et al.: "Wavelet-based color image compression: Exploing the contrast sensitivity function," submitted to IEEE Transactions on Image Processing, 2000.

[NaR00] M. J. Nadenau and J. Reichel, Image compression related contrast masking measurements, in Proc. SPIE Human Vision and Electronic Imaging, vol. 3959, (San Jose, CA), SPIE, January 22-28, 2000.

[NaR99] M. J. Nadenau and J. Reichel, _Compression of color images with wavelets under consideration of the HVS,_ in Proc. SPIE Human Vision and Electronic Imaging, vol. 3644, (San Jose, CA), SPIE, January 24_29, 1999.

[Pra78] W. K. Pratt, Digital Image Processing, A Wiley-Interscience Publication, J. Wiley & Sons, 1978.

[RIC00]N. Richard. Les applications industrielles de l'imagerie couleur. Dans École Internationale de printemps Traitement et Analyse des signaux multidimensionnels : Méthodes, Algorithmes, Technologies, Applications. 1--31 mai 2000. Université Politehnica, Bucarest, Roumanie.

[RoK76] A. Rosenfeld and A. C. Kak, Digital Picture Processing, Academic Press, 1976.

[RPO92] S. E. Reichenbach, S. K. Park, G. F. O’Brien and J. D. Howe, Efficient High-Resolution Digital Filtres for FLIR Images, Proceedings of the SPIE, Visual Information Processing, vol. 1705, pp. 165-176. 1992

[SiH97] E.P. Simioncelli and D. J. Heeger, A Model of Neuronal Responses in Visual Area MT, Vision Research, 38(5), pp 743-761, 1998.

[Ste64] S. S. Stevens, On the psychophysical law, Psychological review 64 :153— 181, 1964.

[Ste69] S. S. Stevens, Le quantitatif et la perception, Bulletin de psychologie 22:696—715, 1969.

[Ste75] S. S. Stevens, Psychophysics: introduction to its perceptual, neural and social aspects, John Wiley and sons, New_York, 1975.

[TeH94] P ; C. Teo and D. J. Heeger, Perceptual Image Distorsion, Proceedings of the SPIE, Human Vision, Visual Processing and Digital Display, vol. 2179, pp. 127-141, 1994.

[TDF96] A. Trémeau, É. Dinet, and É. Favier, Measurement and display of color image differences based on visual attention, Journal of Imaging Science & Technology, 40(6):522-534, November 1996. IS&T/SID.

[VDB96] C. J. van den Branden Lambrecht and O. Verscheure, Perceptual Quality Measure using a Spatio-Temporal Model of the Human Visual System, Proceedings of the SPIE, Digital Video Compression Algorithms and Technologies, vol. 2668, pp. 450-461, 1996.

[WBY96] H ; R. Wu, C. J. van den Branden Lambrecht, M. Yuen and B. Qiu, Quantitative Quality and Impairement Metrics for Digitally Coded Images and Images Sequances, Proceedings of Australian Telecomunication Networks and Applications, 1996.

[WLB96] S. J. P. Westen, R. L. Lagendijk, Developement of a Large Scale Electro-Temporal Model of Human Vision for Digital Video Compression, Human Vision and Electronic Imaging II, vol. 3016, pp. 260-268, 1997.