Objectifs

ATTENTION : 
Deux sessions possibles. Merci de ne vous inscrire qu'à l'une des deux :
1° le jeudi 5 décembre 2019 - attention, en raison du préavis de grève national déposé par certains syndicats de transport le 05/12, cette session est déplacée au jeudi 16 janvier
2° le jeudi 12 mars 2020

***

Introduction
La plateforme ISTEX propose un accès à une collection pluridisciplinaire de 22 millions de documents pour l’ensemble des établissements de l’enseignement supérieur et de la recherche (ESR) français. Les ressources sont réparties en 25 corpus éditeurs rassemblant plus de 250 éditeurs scientifiques et ont été acquises sans date limite d’accès et d’exploitation.
Le développement de modèles d’apprentissage automatique a permis d’enrichir et d’uniformiser l’ensemble des ressources afin d’interroger très finement l’intégralité de la base.

Les ressources se répartissent en 6 grands ensembles :

  • sciences de la vie et de la santé
  • sciences et techniques
  • sciences économiques et gestion
  • lettres et sciences humaines
  • sciences juridiques et politiques
  • axe pluridisciplinaire

À ce réservoir inégalé s’ajoute des services aux utilisateurs permettant d’en optimiser l’exploitation grâce à des outils de fouille de contenus (Text Mining) et de visualisation interactive.


Contexte
Les équipes ISTEX et leurs partenaires se sont déplacés dans une vingtaine de villes françaises en 2018 dans le cadre de l’événement ISTEX Tour pour réaliser des démonstrations sur le fonctionnement de la plateforme ISTEX et des services associés de fouille de textes. L’enquête de satisfaction diffusée auprès des participants a révélé une volonté d’aller plus loin dans l’usage des services et des outils présentés au cours d’ateliers pratiques.


Objectifs
Les équipes d’ISTEX s’associent cette année au réseau des URFIST pour proposer des « ateliers pratiques ISTEX ». Ces ateliers d’une journée permettront aux participants la prise en main des services et des outils de constitution, de visualisation et d’exploration d’un corpus thématique. Ils ont également pour objectifs de renforcer la communauté d’utilisateurs des ressources ISTEX et d’éveiller les pratiques documentaires vers la fouille de textes et de données (TDM).

 

ATTENTION : PRESENCE DE PRE-REQUIS (cf. ci-dessous)

Programme

MATIN : DECOUVRIR LA PLATEFORME ISTEX ET SERVICES INTEGRES

Atelier : Construire et valoriser un corpus spécialisé à partir du réservoir ISTEX [Sabine Barreaux et  Claude Niedelender, INIST]
30 min de présentation sur ISTEX et 2h30 de travaux pratiques

Les participants pourront découvrir  les outils et services ISTEX et s’approprier  les méthodes de constitution et d’exploration de corpus à travers des exemples de corpus réalisés par l’INIST.

Après une présentation d’ISTEX, cet atelier se déclinera en 3 modules :

  • Interrogation d’ISTEX pour constituer un corpus
    Construction d’une requête avec le démonstrateur
    Affiner la requête pour limiter les étapes de post-traitement des résultats
  • Extraction du corpus
    Utilisation du service de téléchargement ISTEX-DL
  • Exploration, analyse et partage d’un corpus
    Utilisation du service de visualisation Lodex

A l’issue de cet atelier, les participants sauront interroger la base ISTEX pour construire, télécharger et explorer leur propre corpus.

 

APRES-MIDI : VISUALISER ET ANALYSER LES METADONNEES D'UN CORPUS DOCUMENTAIRE

Atelier : Exploration d’un corpus documentaire ISTEX à l’aide de l’outil de cartographie Gargantext [Maxime Ragot, ISTEX]
30 min de présentation de Gargantext et 2h30 de travaux pratiques

L’outil Gargantext est conçu pour produire des cartes interactives qui évoluent au fur et à mesure que vous travaillez dessus. Ces cartes thématiques de mots peuvent être utilisées pour construire un état de l’art en cartographiant un ensemble de documents,  et mettant en place une représentation collective d’un questionnement, etc.

La carte n’est pas l’objectif final mais une étape intermédiaire qui se conçoit comme support pour créer une représentation adaptative d’une question ou d’un problème en permettant des allers/retours entre les différents niveaux de vos corpus (document, termes, cartes, etc.).

Cartographie Gargantext : expérimentation de Gargantext sur le corpus ISTEX
Tutoriel : réalisation de sa première carte

  • Le projet EasISTEX : expérimentation de Gargantext sur le corpus ISTEX
  • Présentation des bases de données
  • Manipulations basiques de l’interface
  • Usage avancé : Comment améliorer une carte
  • Présentation de la version 4 de Gargantext

 

RESSOURCES

En complément de ces formations, l’INIST a produit plusieurs tutoriels multimédia pour apprendre à interroger et interfacer l’API ISTEX (6 tutoriels).
Ces tutoriels permettront aux participants de se familiariser à la base ISTEX, comprendre les différents formats de documents et assimiler le vocabulaire en amont de l’atelier :

L’écosystème ISTEX expose également certains projets qui ont utilisé ISTEX et ses corpus plein texte pour effectuer des recherche de type fouille de texte.

Prérequis
Ce stage n'est pas une formation à la recherche d'information. En amont de la formation, les participants devront avoir pris connaissance de quelques tutoriels de l’Inist pour se familiariser avec ISTEX, comprendre les différents formats de documents, assimiler le vocabulaire et s’approprier les bases du langage d’interrogation de l’API : Module 1 : Comprendre ce qu'est l'API ISTEX : A quoi sert-elle ? Pour qui ? Module 2 : Apprendre à interroger l'API ISTEX Part 1 (jusqu’à la syntaxe Lucène de base)