lundi 14 janvier 2008

Projet Infom@gic : vers des recherches sémantiques plus constructives qu'avec Google !

« Les moteurs actuels sont incapables de saisir le sens d'une recherche »

Patrick Constant est le PDG de Pertimm, un éditeur qui vient de montrer le premier prototype d'un moteur de recherche sémantique.
Gilbert Kallenborn, 01net., le 14/01/2008 à 12h30

Dans le cadre du projet Infom@gic du pôle de compétitivité Cap Digital, le PDG de Pertimm a montré le premier prototype d'un moteur de recherche sémantique pour le web. Il nous explique son fonctionnement.
01net. : Pourquoi les internautes auraient-ils besoin d'un moteur de recherche sémantique ?

Patrick Constant : L'objectif des moteurs sémantiques est de livrer des résultats plus pertinents. Les moteurs actuels ne sont pas capables de saisir vraiment le sens ou le concept d'une recherche. En réalité, ils ne comprennent pas ce que l'internaute veut.
Par défaut, un moteur comme Google procède par opérations booléennes « ET », qui sont purement mathématiques. Plus le nombre de mots indiqués est important, plus le champ de la recherche est réduit. Au-delà d'un certain nombre de mots, le moteur rate généralement la cible. Les utilisateurs sont d'ailleurs plus ou moins conscients de cette limite, car ils n'utilisent que 2,7 mots en moyenne par recherche.
Cette limitation est contraire à notre façon naturelle de communiquer. Si, par exemple, je cherche un livre chez mon libraire, plus je lui donnerai d'informations, mieux il pourra saisir le sens de ma requête et me renseigner. Avec les moteurs de recherche actuels, c'est l'inverse qui se produit.
Dans ce cas, pourquoi ne pas faire des opérations booléennes « OU » ?

C'était le principe appliqué par Altavista. Mais il génère beaucoup de réponses et la difficulté, dans ce cas, est de trouver les meilleurs documents. Combiné avec un indice de popularité, comme le PageRank de Google, ce principe ne donne pas de réponses pertinentes. Il se résume alors à lister les pages les plus populaires.
En quoi la sémantique permet-elle de faire mieux ?

Pour schématiser, le moteur que nous développons dans le cadre d'Infom@gic applique d'abord une opération booléenne « OU » sur les termes de la recherche, avant de procéder à une sélection sémantique des réponses. Cette phase de filtrage s'appuie sur des procédés proches de l'analyse cognitive, comme la détection d'entités nommées (lieux, verbe, ...) ou la mise en place de marqueurs sémantiques.
Dans l'un des exemples que nous avons montrés publiquement, la différence est frappante. La recherche en sept mots sur les caractéristiques d'un certain type de montre mène, avec Google, sur des sites de ventes. C'est assez logique, car ces sites ont généralement un PageRank important. Avec notre prototype, nous accédons d'abord sur les sites de fabricants qui décrivent de manière précise leurs produits.
Est-ce que la recherche sémantique nécessite plus d'indexations ?

Oui, c'est un principe qui oblige à indexer beaucoup plus de choses que dans le cas d'une technologie de recherche classique. L'effort d'indexation est environ dix fois plus important. C'est pourquoi la recherche sémantique est, pour l'instant, limitée au monde de l'entreprise. L'un des challenges du projet Infom@gic est de pouvoir la porter à l'échelle du Web public.
Quand les internautes pourront-ils essayer ce nouveau type de moteur ?

Le moteur sera public d'ici 12 à 18 mois. Il sera limité aux noms de domaine en .fr, ce qui permettra de comparer ses performances avec les autres moteurs. Mais nous ne savons pas encore précisément sous quelle forme ce moteur sera présenté, ni quel sera son modèle économique sous-jacent.


Aucun commentaire: