Internet regroupe actuellement 50 milliards de pages reliées entre
elles, et qui forment un immense environnement virtuel. Nos interactions
fournissent des données qui, une fois analysées, peuvent nous aider à
comprendre un large éventail de nos activités, d'activités culturelles
jusqu'à des activités économiques.
Financé par l'initiative
Technologies futures et émergentes du 7e PC de l'UE, le projet NADINE (
«New tools and Algorithms for DIrected NEtwork analysis»)
contribue au développement d'une nouvelle génération de moteurs de
recherche et permet à l'Europe de se positionner à la pointe de ce
domaine important.
«Nous tentons d'établir une carte d'Internet afin de découvrir de
quelle façon les pages sont reliées et comment les internautes utilisent
ces liens lorsqu'ils parcourent la toile», indique le coordinateur du
projet NADINE, Dima Shepelyansky, directeur de recherche au laboratoire
de physique théorique du CNRS à Toulouse.
Le projet repose sur l'utilisation, entre autres, d'outils mis à
disposition par Google et qui permettent de voir comment les pages sont
reliées entre elles. Ces observations peuvent, par exemple, amener à
établir la probabilité que les internautes visitent certains sites,
fassent certains choix, achètent des produits ou votent d'une certaine
façon.
Perfectionner les moyens de suivi des transactions en ligne
Pour développer et tester leurs méthodologies, les chercheurs ont
essayé de classer des personnalités selon leur influence, à partir de
leurs biographies disponibles sur Wikipédia. Ils ont pris en compte les
24 langues principales et le nombre de pages qui pointent vers la
biographie de chaque personnalité, grâce à
l'outil PageRank de Google, qui mesure l'importance d'une page au nombre de liens qui pointent vers elle.
Les résultats obtenus posèrent pourtant problème à l'équipe: la
personnalité déterminée comme étant la plus influente était le
scientifique Carl Linnaeus. En effet, puisqu'il a proposé une
classification des êtres vivants, toutes les pages Wikipédia sur les
animaux et les plantes contiennent un lien vers sa biographie, ce qui a
faussé les résultats.
Les chercheurs ont donc décidé d'utiliser également
CheiRank,
qui établit l'importance d'une page web en fonction des liens sortants
qu'elle contient. En combinant les données obtenues avec ces deux
outils, les chercheurs ont pu définir une
méthode fiable de mesure de l'importance d'une page web. Les communautés auto-organisées, créées en ligne, peuvent également être détectées avec les outils développés par le projet.
L'information sur Internet circule de manière similaire aux échanges commerciaux
L'équipe a appliqué ses résultats à l'analyse des flux commerciaux,
en se basant sur l'observation que les liens qui pointent vers une page
web et les liens qui en sortent peuvent montrer comment se font les
échanges d'information. Pour cela, les chercheurs ont exploité la
base de données commerciale des Nations Unies
qui contient des données sur les 50 dernières années. «Nous avons
développé une nouvelle façon d'analyser les échanges commerciaux de 61
produits entre les pays des Nations Unies, et nous avons déterminé
comment les variations de prix influencent la balance commerciale»,
explique le Professeur Shepelyansky.
NADINE est un
partenariat
entre des physiciens théoriciens, des mathématiciens et des
informaticiens français, néerlandais, hongrois et italiens. «Un
financement européen est indispensable afin de mettre sur pied une
équipe qui regroupe des disciplines aussi variées», ajoute M.
Shepelyansky.
Le projet dure depuis trois ans et se terminera en avril 2015. Il
est financé par l'UE à hauteur de 1,223 million d'euros. Maintenant que
la méthodologie est clairement définie, les chercheurs du projet NADINE
comptent continuer leurs travaux en collaboration avec plusieurs
partenaires, dont
l'Organisation mondiale du commerce.
Lien vers le site web du projet
Autres liens
http://www.quantware.ups-tlse.fr/QWART/cheirank/cheirank.htmlhttp://www.quantware.ups-tlse.fr/QWLIB/topwikipeople/http://www.quantware.ups-tlse.fr/QWLIB/wtnmatrix/http://en.wikipedia.org/wiki/CheiRank