Data visualization : une cartographie des données Wikipedia

Big Data, Open Data, Data Mining, ces derniers temps, la donnée a pris énormément d’importance à la fois pour les organisations, mais aussi pour les collectivités et les utilisateurs. Pour mieux comprendre leur impact ou seulement pour en avoir une modélisation claire, on effectue de la data visualization. Parfois obscures, ces représentations ont souvent un seul but esthétique, mais couplée à la cartographie, elles deviennent plus concrètes.

Wikipedia a fait l’objet de beaucoup de ces modélisations, tant sa base de donnée conséquente. Un développeur quebecois s’est attelé à la tâche d’agréger tous les articles faisant référence à un lieu (ville, pays) et d’en modéliser les liens avec d’autres articles du même type sur une carte du monde. Dans l’esprit, on se rapproche notamment ce qui a été fait pour Tweetping par exemple.

Pour ce faire, après avoir téléchargé l’intégralité des articles de Wikipedia anglais (40 Go une fois l’archive décompressée), il en a retiré ceux contenant des données géocodées (environ 711 000) et s’est attelé à en recenser tous les liens hypertextes existant entre eux. Si cela vous intéresse, l’intégralité de ces données sont disponibles sur le site Geonames, avec une carte Google Maps géolocalisant tous les articles concernés.

À noter que tout type de page est pris en compte, pour peu qu’elle contiennent une information de géolocalisation la situant sur une map. Cela peut donc concerner des évènements, des personnalités publiques ou encore des produits culturels. La condition : la présence de données géocodées transposables sur une carte.

Afficher la carte dans une nouvelle fenêtre

La carte présente donc tous ces liens et permet d’identifier les zones de densité, correspondant souvent aux zones fortement peuplées. Pour mieux les identifier, il est possible de visualiser ces liens avec un calque Google Maps et ainsi mettre un nom sur ces lieux. Les articles Wikipedia concernés n’étant que les anglais, la France n’est pas la plus fournie. On peut recenser des villes/lieux/monuments liés notamment à des évènements historiques. Il est tout de même étonnant de remarquer que le moindre petit village à sa page Wikipedia, même en anglais. Le Royaume-Uni est quant à lui criblé de liens, tout comme les USA, sans surprise. 

Dans le même genre, Cocktail Web cite un autre outil puissant, cartographiant l’intégralité des articles Wikipedia géocodés et permettant à l’utilisateur d’ajouter des filtres selon différents critères : langage, nombre de contributeurs, nombre d’images, densité du contenu, etc. L’outil est assez lourd à l’utilisation mais peut permettre d’effectuer une multitude de requêtes selon la langue et la localisation.


 

Lien vers l'article d'Olivier H. Beauchesne

Via wwwhatsnew

2ème image via Cocktail Web

OFFRES D'EMPLOI WEB

Concepteur Développeur H/F

CMRE Logiciel, Société de Services du Numérique depuis plus de 40 ans, a 3 établissements situés respectivement à Ceyzériat dans l'Ain (15km de Bourg en Bresse), Arbent (01) et Saint ...

Développeur IOS – Android H/F

Acteur de l'ingénierie informatique depuis 2005, Philaë Technologies répond aux exigences de qualité et de performance des systèmes d'information et de communication autour de 4 pôles d'innovation : AMOA / ...

Alternant Développeur Web H/F

Le CESI recrute, pour le compte d'un de ses clients, un Développeur Web H/F en alternance. Vous intégrerez en alternance la formation diplômante de responsable en ingénierie des logiciels permettant ...

Commentaires

  1. Rico
    31 janvier 2013 - 10h33

    Bonjour,

    C’est vraiment impressionnant

    la France à première vu n’est pas en reste !

  2. ElleB
    5 février 2013 - 16h40

    Bonjour,
    Très bel article : c’est vrai que l’outil cartographique permet vraiment de bien voir les informations ! Bien documenté !

Laisser un commentaire

Il est possible d’utiliser ces balises HTML :
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>
Ce blog supporte le système Gravatar, pour obtenir le vôtre, inscrivez-vous sur Gravatar