Objectifs

OpenRefine est un logiciel libre et gratuit destiné à nettoyer, préparer, transformer et enrichir des données. Il est utilisable dans de nombreuses contextes scientifiques et dans les métiers de l’information et de la documentation. Son interface est proche d'un tableur et permet de réaliser des opérations au moyen de menus ou en écrivant des formules dans un langage spécifique. Au cours de la formation, les fonctionnalités simples et avancées d'OpenRefine seront présentées de manière progressive et dynamique, en s'appuyant sur des exemples et des exercices pratiques. Des supports et éléments de documentation en français seront fournis.

Programme

(l'ordre de traitement des sujets pourra varier)
 

  • Présentation du logiciel
  • Installation d'extensions
  • Import et export de données et de traitements
  • Repérage et harmonisation de variantes ou d'anomalies (tris, facettes, clusterisation)
  • Modification de l'organisation générale des données
  • Croisement de plusieurs fichiers
  • Extraction de motifs (introduction aux expressions régulières)
  • Scission de cellules contenant plusieurs valeurs, et regroupement de plusieurs valeurs dans une même cellule
  • Enrichissement par récupération automatique de données sur le web (API et web scraping)
  • Alignement de données avec des référentiels externes (Wikidata...)
  • Formules en langage GREL (spécifique d’OpenRefine)
  • Formules en langage Python
Prérequis
Bonnes connaissances informatiques