NADINE — Les liens entre pages web révèlent des caractéristiques de nos interactions

Comment est-il possible de prédire les actions des internautes à partir de liens Internet? Que nous enseigne la façon dont les utilisateurs exploitent Internet? Le projet de l'UE NADINE développe des algorithmes et des méthodes d'analyse de l'activité en ligne, qui dévoileront comment les personnes, les pays et même les échanges commerciaux sont liés.

Internet regroupe actuellement 50 milliards de pages reliées entre elles, et qui forment un immense environnement virtuel. Nos interactions fournissent des données qui, une fois analysées, peuvent nous aider à comprendre un large éventail de nos activités, d'activités culturelles jusqu'à des activités économiques.

Financé par l'initiative Technologies futures et émergentes du 7e PC de l'UE, le projet NADINE («New tools and Algorithms for DIrected NEtwork analysis») contribue au développement d'une nouvelle génération de moteurs de recherche et permet à l'Europe de se positionner à la pointe de ce domaine important.

«Nous tentons d'établir une carte d'Internet afin de découvrir de quelle façon les pages sont reliées et comment les internautes utilisent ces liens lorsqu'ils parcourent la toile», indique le coordinateur du projet NADINE, Dima Shepelyansky, directeur de recherche au laboratoire de physique théorique du CNRS à Toulouse.

Le projet repose sur l'utilisation, entre autres, d'outils mis à disposition par Google et qui permettent de voir comment les pages sont reliées entre elles. Ces observations peuvent, par exemple, amener à établir la probabilité que les internautes visitent certains sites, fassent certains choix, achètent des produits ou votent d'une certaine façon.

Perfectionner les moyens de suivi des transactions en ligne

Pour développer et tester leurs méthodologies, les chercheurs ont essayé de classer des personnalités selon leur influence, à partir de leurs biographies disponibles sur Wikipédia. Ils ont pris en compte les 24 langues principales et le nombre de pages qui pointent vers la biographie de chaque personnalité, grâce à l'outil PageRank de Google, qui mesure l'importance d'une page au nombre de liens qui pointent vers elle.

Les résultats obtenus posèrent pourtant problème à l'équipe: la personnalité déterminée comme étant la plus influente était le scientifique Carl Linnaeus. En effet, puisqu'il a proposé une classification des êtres vivants, toutes les pages Wikipédia sur les animaux et les plantes contiennent un lien vers sa biographie, ce qui a faussé les résultats.

Les chercheurs ont donc décidé d'utiliser également CheiRank, qui établit l'importance d'une page web en fonction des liens sortants qu'elle contient. En combinant les données obtenues avec ces deux outils, les chercheurs ont pu définir une méthode fiable de mesure de l'importance d'une page web. Les communautés auto-organisées, créées en ligne, peuvent également être détectées avec les outils développés par le projet.

L'information sur Internet circule de manière similaire aux échanges commerciaux

L'équipe a appliqué ses résultats à l'analyse des flux commerciaux, en se basant sur l'observation que les liens qui pointent vers une page web et les liens qui en sortent peuvent montrer comment se font les échanges d'information. Pour cela, les chercheurs ont exploité la base de données commerciale des Nations Unies qui contient des données sur les 50 dernières années. «Nous avons développé une nouvelle façon d'analyser les échanges commerciaux de 61 produits entre les pays des Nations Unies, et nous avons déterminé comment les variations de prix influencent la balance commerciale», explique le Professeur Shepelyansky.

NADINE est un partenariat entre des physiciens théoriciens, des mathématiciens et des informaticiens français, néerlandais, hongrois et italiens. «Un financement européen est indispensable afin de mettre sur pied une équipe qui regroupe des disciplines aussi variées», ajoute M. Shepelyansky.

Le projet dure depuis trois ans et se terminera en avril 2015. Il est financé par l'UE à hauteur de 1,223 million d'euros. Maintenant que la méthodologie est clairement définie, les chercheurs du projet NADINE comptent continuer leurs travaux en collaboration avec plusieurs partenaires, dont l'Organisation mondiale du commerce.

Lien vers le site web du projet

Autres liens
http://www.quantware.ups-tlse.fr/QWART/cheirank/cheirank.html
http://www.quantware.ups-tlse.fr/QWLIB/topwikipeople/
http://www.quantware.ups-tlse.fr/QWLIB/wtnmatrix/
http://en.wikipedia.org/wiki/CheiRank

publié: 2015-02-09
Commentaires


Privacy Policy