De la complexité d'un moteur de recherche d'images performant
Créer un moteur de recherche d'images pertinent n'est pas tâche facile. Fotolia prend le pari de proposer un des meilleurs outils de recherche d'images.
Vous utilisez certainement des moteurs de recherche d'images dans votre quotidien. La pertinence de ceux-ci est souvent discutable car la conception de tels outils se heurte à deux obstacles majeurs :
Divergence entre le texte et l'image
Nous sommes habitués à effectuer une recherche à partir de données textuelles. Tous les outils de recherche qui sont à notre disposition dans le monde qui nous entoure utilisent le texte comme référence de recherche. Ainsi, que vous cherchiez une définition dans dictionnaire, une information dans une base de données, un numéro dans un annuaire, le texte sera toujours l'argument de recherche prépondérant.
Il existe bien d'autres mode de recherche tels la recherche par contenu visuel (ex : empreinte digitale) ou par contenu sonore ( ex : reconnaissance vocale) mais ces modes de recherches sont de types comparatifs (par similitude), la requête et de même nature que le résultat.
Un moteur de recherche d'images, quant à lui, se propose donc généralement de renvoyer à partir d'une requête textuelle des résultats visuels. Or une image ne contient pas de texte à priori. La solution est donc d'associer du texte sous forme de mots-clés à une image pour la définir. Trois solutions du genre existent :
- 1- Les informations sont contenues dans la photo elle-même (ex: métadonnées IPTC)
- 2- Les informations sont contenues dans l'environnement textuel de la photo ( ex : le nom du fichier photo ou la page textuelle dans laquelle elle est insérée)
- 3- Les informations sont contenues dans une base de données externe associée à la photo
Un moteur de recherche d'images classique comme Google Images va se satisfaire de la solution numéro 2. C'est donc le contenu textuel de la page dans laquelle est affichée la photo qui permettra de référencer celle-ci. Cette solution est pratique pour indexer un nombre conséquent de photos (plus de 1 milliard de photos pour Google Images) mais pose un problème évident de pertinence. Une photo n'est en effet pas toujours utilisée dans le contexte de ce qu'elle représente d'une part et l'utilisation du nom de fichier est, d'autre part, hasardeuse lorsque l'on sait que la plupart des images directement extraites des appareils photos numériques portent un nom de code défini par l'appareil lui-même.
La plupart des banques de données d'images (à différencier des moteurs de recherche d'images) utilisent la troisième solution. Chaque photo présente dans la base a été préalablement soumise à une personne (un éditeur) qui a saisi manuellement ou semi automatiquement des mots-clés associés à la photo. La liste de mot-clés définie pour la photo est alors une liste statique.
Chez fotolia, nous utilisons ces 3 solutions combinées en introduisant en plus une dimension collaborative. Chacun peut en effet contribuer à l'amélioration du référencement d'une image en ajoutant des mots-clés. Ces mots-clés seront pris en compte dans les futures recherches.
Perception instantanée de l'image et pertinence d'une recherche
Lorsque vous effectuez une requête sur votre moteur de recherche WEB préféré (Google, MSN, Yahoo ou autre) le principe est toujours le même. Vous entrez un ou plusieurs mots-clés et le moteur vous renvoie une liste de liens vers des pages supposées pertinentes par rapport à l'objet de votre recherche. Il faut toujours quelques secondes et une certaine habilité
(ou habitude) pour discerner la pertinence de telles ou telles réponses. Imaginez maintenant que vous puissez visualiser de manière graphique, la pertinence des liens retournés par votre moteur. Vous seriez immanquablement déçu !
Si vous avez compris le dilemme alors vous avez probablement saisi la difficulté de faire un moteur de recherche d'images pertinent.
Lorsque vous effectuez une requête sur un moteur de recherche d'images, il vous est en effet possible en quelques secondes de distinguer le pertinent du non pertinent rendant la tâche extrêmement compliquée et ingrate
.
Si vous faites par exemple une requête dans une banque d'images sur le mot-clé "Journal" et que vous obtenez 30 photos de journaux et la photo d'un canard, vous allez immédiatement remettre en question la qualité du moteur de recherche !
La solution consiste donc à classer les recherches par pertinence par rapport à l’objet de la requête. La pertinence est généralement déduite de plusieurs facteurs.
Pour résoudre ce problème sur Fotolia, nous utilisons un système de calcul de pertinence prenant en compte plus d’une vingtaine de critères ainsi que des filtres de pertinence visant à afficher seulement une partie des résultats (les meilleurs) tout en donnant la possibilité d'étendre la recherche à l'ensemble des résultats.
Nous avons introduit un facteur de complexité nouveau puisque la recherche peut-être effectuée de manière indifférente en français, anglais, espagnol ou allemand.
Nous cherchons chaque jour à améliorer notre moteur de recherche et nous préparons de nouvelles options à sortir très rapidement.
Crédits Photos : Carole Bourcheix
Technorati Tags : recherche image |
Innovations Envoyez à un ami Version Imprimable
Trackback Pings
TrackBack URL pour ce post:
http://blog.fotolia.com/mt-tb2.cgi/400
Liste des blogs qui font référence à cet article De la complexité d'un moteur de recherche d'images performant:
» tiki bar accessory de tiki bar accessory
[Lire la suite]
Traqué le décembre 5, 2006 05:20 AM
» cell kid plant de cell kid plant
[Lire la suite]
Traqué le décembre 6, 2006 05:21 AM
» cricket new phone de cricket new phone
[Lire la suite]
Traqué le décembre 7, 2006 06:30 AM
» online ativan de online ativan
[Lire la suite]
Traqué le décembre 17, 2006 05:56 PM
» discount broker ranking de discount broker ranking
[Lire la suite]
Traqué le janvier 20, 2007 01:29 AM
» ambien problem de ambien problem
[Lire la suite]
Traqué le janvier 21, 2007 06:23 AM
» party poker skin de party poker skin
[Lire la suite]
Traqué le janvier 22, 2007 08:49 PM
Commentaires
Quel article pertinent ! (et de 15).
A quand le moteur de recherche qui comprendra les photos en analysant l'image ?
Par contre je ne commprend pas pourquoi le moteur de recherche fotolia associe "nue" et "nuage". Fait t'il le lien entre nue->nu->nuage ?
Bonne journée à tous-toutes.
Posté par TOOMARU à 17:51, mai 27 2005
Poster un commentaire
Si c'est la première fois que vous commentez un article de ce blog, votre commentaire devra être validé par les responsables de Fotolia avant d'être affiché.
