Ainsi va Wikipédia: L'origine des moteurs de recherche

Publié par Hamelin de Guettelet le mardi 8 janvier 2008

Dès l'instant où les connections web se sont multipliées, il n'était plus question de faire comme en 1969 un petit schéma à la main pour connaître les quatre nœuds qui existaient alors ou même comme Tim Berners-Lee qui hébergeait sur le serveur du CERN une liste de serveurs dressée à la main et ce jusqu'en 1992.

La première automatisation d'un processus d'exploration est le résultat du travail de trois étudiants en science informatique de l'Université McGill de Montréal, Alan Emtage, Bill Heelan et J. Peter Deutsch qui créèrent Archie en 1990. C'était une BdD (base de données) de ressources consultable en ligne, alimentée par un programme, mais cette BdD, encore limitée par l'espace allouée, n'indexait pas de contenus. En 1991, avec la création du protocole Gopher mis au point principalement par Mark McCahill pour l'université du Minnesota, il devient possible de faire des recherches, de naviguer par mots-clés, de lire dans des textes en ligne et de télécharger des fichiers binaires. Il ne manquait plus que la fonction d'indexation qui est la création, en juin 1993, de Matthew Gray du MIT qui avec un robot écrit en Perl, Wenderer, générait un indice appelé Wandex.

Il y eu encore d'autres créations mais aucune ne combinait les trois principes d'un moteur de recherche : l'exploration, l'indexation et la recherche elle-même. Le premier moteur de recherche répondant à ses trois principes est Jumpstation, créé le 21 décembre 1993 par Jonathon Fletcher de l'Université de Stirling en Écosse. Un robot explorait et indexait les pages web qui étaient retournées sous forme de lien URL (localisateur universel de ressources) suite à une requête par mots-clés d'un formulaire web. Lors de sa fermeture, par manque de budget à la fin de 1994, Jumpstation comportait 275 000 entrées couvrant 1500 serveurs.

Le premier moteur de recherche à indexer les explorations en texte pleine page est WebCrawler, une création, datant du 20 avril 1994, de Brian Pinkerton, chercheur à l'université de Washington. En 1994 encore, c'est Lycos de Michael Mauldin de l'université Carnegie Mellon à Pittsburgh qui va progressivement développer la notion de portail, liste de sites web référencés, idée reprise en 1995 par Yahoo! et qui fera son succès grâce à David Filo et Jerry Yang de l'université Stanford. Le premier moteur de recherche populaire est l’œuvre des ingénieurs (certainement Louis Monier pour le crawler et Michael Burrows pour l'indexeur) du Western Research Laboratory de Digital Equipment Corporation qui le 15 décembre 1995 lance AltaVista. Ce moteur textuel multilingue permettait aussi des recherches son, photo ou vidéo, il ne sera détrôné par Google qu'au début des années 2000.

Formulaire de requêtes AltaVista, 2001

Google, jan. 2002 - 2 073 418 204 pages indexées

Google, fév. 2003 - 3 083 324 652 pages indexées

Google prend naissance en janvier 1996 de la rencontre de deux étudiants de l'université de Stanford, Sergueï Brin et Larry Page. PageRank est l'innovation qui leur permît de se différencier des autres moteurs de recherche et de prendre la première place parmi les moteurs de recherche. PageRank permet de retourner à chaque requête, les pages classées par ordre de pertinence. Aujourd'hui l'objectif de chaque webmaster est d'améliorer son pagerank pour apparaitre à la meilleure place possible dans un résultat de recherche à partir du moment où le constat fut fait que les utilisateurs dépassaient rarement la deuxième page de résultats. Comme Google, à juste raison, de donne pas les algorithmes de ranking, toutes les supputations de manipulation sont possibles ; le retour de pages de Wikipédia dans les 3/5 premiers résultats quelque soit la pertinence de l'article, laisse effectivement supposer d'une indexation bien trop favorable de Wikipédia, pour tenter de valoriser les retours de recherches, donc, en fait, la pertinence des résultats du moteur de recherches Google.

Le problème auquel se confrontent aujourd'hui les moteurs de recherche est de pouvoir indexer le « web noir », toutes ces pages qui pour de multiples raisons restent à l'écart des robots d'indexation. Ce blog-notes est inclus au plus profond du web noir, peut-être qu'un jour il verra la lumière en remontant à la surface de ce web inconnu.