Réseaux sociaux: le tracking des non-membres

Vous avez déjà remarqué dans de nombreux réseaux sociaux les propositions de connexions avec des contacts potentiels. Par exemple dans LinkedIn «people you may know» ou encore dans Goggle+ ou Facebook l’encart «You may know». {% pullquote %} Il est même possible en tant que non-membre que vous ayez reçu un e-mail citant des personnes de votre connaissance (déjà dans le réseau) vous incitant à vous inscrire. Il apparaît que {” même non-membre des réseaux sociaux, vous êtes connu de ceux-ci.”}

La polémique autour des «shadow profiles» déclenchée l’année dernière par le groupe Europe VS Facebook a déjà permis de lever le voile sur les nombreuses données personnelles collectées et sur leur utilisation par le réseau social.

Une équipe de l’université de Heidelberg a poussé l’analyse plus loin en cherchant à comprendre les algorithmes qui permettent d’exploiter ce type de donnée. Leurs résultats, publiés dernièrement sur PLoS One [1], démontrent que malgré la volonté de beaucoup d’individus de sauvegarder leur vie privée en restant à l’écart des réseaux sociaux, ceux-ci parviennent à extraire de nombreuses informations comme par exemple leurs liens avec d’autres personnes membres ou non-membres.

Principe

L’objectif de l’étude est de démontrer la possibilité de prédire un lien entre deux individus non-membres. Dans ce cadre, l’analyse se décompose en trois phases:

  1. Représentation du réseau social et des intéractions
  2. Extraction de caractéristiques pour construire le modèle
  3. Apprentissage du modèle et exploitation

Représentation du réseau social

Représentation du réseau social

Le réseau social peut diviser la société en deux ensembles:

  • L’ensemble des individus membres M
  • L’ensemble des individus non-membres NM

Nous pouvons ensuite distinguer parmis les individus non-membres:

  • Les non-membres connus (par exemple du fait du partage du carnet d’adresse)
  • Les non-membres inconnus

Extraction de caractéristiques

Dans l’étude [1], les caractéristiques utilisées sont uniquement des informations topologiques extraites du graphe d’interaction. Cette limitation existe car la base de donnée sur laquelle se base l’étude a été anonymisée. Ainsi pour chaque paire de non-membre dont les liens sont à prédire, un vecteur de 15 caractéristiques topologiques est extrait.

Apprentissage du modèle

A partir des caractéristiques extraites pour chaque paire de non-membres, plusieurs ensembles sont constitués afin de tester différentes techniques d’apprentissage et de validation. Le modèle utilisé dans [1] est basé sur les random forest (ensemble d’arbres de décision).

Conclusion

Le résultat le plus remarquable de cette étude est le score de prédiction des liens entre non-membres qui atteint 40% malgré des données anonymisées. Il est certain que les réseaux sociaux disposent de nombreuses informations sur chacun des noeuds du réseau (par exemple le genre, les intérêts, etc), ils doivent pouvoir prédire et extraire de manière plus efficace ce type de modèle.

Pour aller plus loin: