RTFlash

Les impasses du Web

On le croyait organisé comme une toile d'araignée, le Web se dévoile sous une forme plus complexe, que les chercheurs décrivent comme un "noeud papillon". A force d'étudier les liens qui partent des pages et ceux qui y mènent, les scientifiques ont découvert dans le réseau quatre groupes de documents d'importance presque égale: un corps, deux ailes, et un ensemble de filaments. Quatre micro-univers dont la connaissance permettrait d'améliorer l'efficacité des recherches sur le Web. En principe, les moteurs de recherche sont censés permettre aux internautes de retrouver leur chemin sur la Toile. Les chercheurs ont détourné ces index au profit d'une discipline nouvelle, la cybertopologie, afin de comprendre la structure du Web. Un espace très mouvant, peuplé de plus d'un milliard de documents, qui connaît chaque jour des dizaines de millions de naissances mais aussi des déménagements et des disparitions. La photographie du noeud papillon publiée cette semaine nous vient d'un "robot" d'exploration baptisé Scooter, un logiciel qui parcourt inlassablement le Web depuis 1995 pour le compte du site Altavista.com. On le doit notamment au Français Louis Monier, qui travaillait à l'époque chez Digital, constructeur qui a rejoint depuis le giron de Compaq. Le champ de vision de Scooter concerne 200 à 300 millions de pages, qu'il a parcouru en simulant les clics sur tous les liens rencontrés. Puis, il a fallu plusieurs mois pour analyser les pages et repérer les milliards de liens qui se cachent dans les documents. Un travail de titan mené par les chercheurs d'Altavista et de Compaq avec le soutien de mathématiciens d'IBM. Leurs résultats seront communiqués lors du congrès international du Web, le WWW9, qui se tient cette semaine à Amsterdam. . Au coeur du Web se trouverait donc un cyberespace hyperconnecté. Un univers dans lequel il existe toujours un chemin reliant deux pages choisies au hasard, même s'il peut parfois passer par une trentaine d'intermédiaires. En moyenne, cette "distance" entre deux pages est évaluée à 16 clics dans le coeur. Mais à côté de son coeur hyperconnecté, le cyberespace comporte trois autres univers. Celui des "in", que les scientifiques décrivent comme l'aile gauche du "papillon", soit un petit quart du Web, permet d'accéder au corps de l'insecte mathématique. L'inverse est impossible. A droite, il y a l'aile des "out". Un espace visible au travers d'une glace sans tain. On y accède depuis le coeur, mais pas l'inverse. Il existe aussi un étroit tunnel à sens unique qui relie directement l'entrée à la sortie. Reste le plus mystérieux de la photographie du Web: les "filaments", une multitude de petits espaces représentant le quart du Web. Ces filaments sont connectés à l'une des ailes du papillon. Mais aucun ne permet d'accéder au coeur. Parfois, ces filaments forment des micro-univers totalement déconnectés du reste du Web. Hormis son intérêt mathématique, la topologie de la Toile ouvre de nouvelles perspectives pour la compréhension du réseau. "Ces études permettront d'améliorer les techniques de recherche d'informations dans le Web", assure le trio d'IBM. On sait aujourd'hui que la structure du Web oppose au simplisme des moteurs une complexité qui exclut toute exhaustivité. "Notre étude suggère qu'il faudrait développer des méthodes de collecte de pages plus sophistiquées, expliquent les chercheurs d'IBM. C'est indispensable pour atteindre l'aile d'entrée du papillon et les filaments." Faute de tels outils, la proportion de documents visités par les moteurs de recherche risque de diminuer, provoquant une surreprésentation des premiers sites arrivés.

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

Recommander cet article :

back-to-top