Google a, en son temps, révolutionné le monde des moteurs de recherche: on est passé d'un monde où les créateurs de sites décidaient de comment ils seraient indexés à un monde où ce sont les utilisateurs des sites qui décident cela (en faisant des liens). Depuis, Google a été une entreprise innovante qui a développé ses services de recherches à beaucoup d'autres domaines (dont le très impressionant Google Maps), mais le domaine de la recherche de sites webs semble stagner.
Quelles améliorations serait-il possible d'apporter à court termes à un moteur de recherche ? N'étant pas spécialiste, je ne saurais pas me prononcer sur les changements fondamentaux, mais j'entrevois une possibilité intéressante. Admettons, par exemple, que je cherche le sens mathématique du mot « boule ». Une recherche sur ce simple mot ne sera pas suffisante, car il a beaucoup trop de sens différents. Actuellement, il faut jouer à deviner quels autres mots peuvent être présents sur la page qui m'intéresse. C'est parfois possible (« boule topologie » est plus satisfaisant), mais pas toujours. Ce qui manque, c'est la possibilité de spécifier un contexte sémantique. Malheureusement, pour qu'un moteur de recherche permette de spécifier un contexte sémantique, il faudrait d'abord qu'il comprenne le sens du texte... à moins que...
Google renouvelé le domaine de la recherche en introduisant le concept de PageRank: chaque site se voit attribué un score, et il transmet une partie de son score aux sites vers lesquels il fait des liens. Cela permet au moteur de recherche de juger (approximativement) de la popularité et de la pertinance des sites sans devoir en comprendre le contenu. Il serait tout à fait possible d'étendre ce concept, et d'autoriser en plus du score de transmettre des concepts. Par exemple, le site MathWorld aurait un score élevé pour des concepts comme « mathématiques » ou « glossaire », alors que Libération aurait un score élevé en « actualités » et « vulgarisation ». En transmettant une partie de leurs scores aux sites vers lesquels ils lient, chaque site marqué sémantiquement contribuerait à construire des catégories se superposant. Ainsi, je pourrais rechercher « Fermat » avec le contexte « mathématiques » et tomber sur la définition des théorèmes de fermat sur MathWorld, ou bien avec le contexte « actualités » et tomber sur les annonces concernant la preuve d'Andrew Wiles.
Une des propriétés du réseau Internet fait que ce genre de méthode est réellement applicable: le graphe correspondant aux liens hypertexte entre les sites Web est constitué d'un petit nombre de sommets très connectés (des hubs), et la plupart des autres sommets sont connectés par un court chemin à un de ces hubs. Par conséquent, en isolant les sommets les plus connectés et en leur attribuant des concepts à la main, on peut recouvrir une partie raisonnablement importante du Web.