Stage - Traiter des données textuelles en Python pour les SHS (en présentiel) | 02/02/2026

Formation terminée

Lundi 2 février 2026

Mode
Présentiel
Format
En salle de formation avec le formateur
Date limite des inscriptions
Dimanche 1 février 2026

Consulter sur Sygefor

Objectifs

Présentation générale

Cette formation couvre plusieurs usages de traitement de données en Python courants en sciences humaines et sociales avec une coloration spécifique sur les données textuelles. Pensée comme une journée « avancée », elle s’adresse à un public ayant déjà quelques notions de programmation.

Plus précisément, cette formation abordera la mise en place d’analyses statistiques classiques (descriptives et inférentielles, mais aussi mobilisant l’apprentissage automatique), les stratégies pour réaliser et améliorer des visualisations, et une présentation des différentes stratégies existantes de traitement de données textuelles.

Les notions seront abordées de manière pratique à travers l’analyse d’un corpus de données. Les participants sont par ailleurs encouragés à amener leur propre jeu de données, et un espace sera consacré à échanger sur les besoins futurs.

Objectifs de la formation

Se familiariser avec des bibliothèques centrales de l’écosystème Python pour le traitement de données (Pandas, Scikitlearn, Statsmodels…)
Réfléchir la construction de visualisations avancées (Matplotlib, Plotly, Seaborn…)
Avoir une vue d’ensemble des approches de traitement de données textuelles
Mettre en œuvre différents traitement de données textuelles & familiarisation avec les approches « IA » à partir de modèles

Cette formation peut être introduite notamment par la formation Introduction à Python pour les Sciences Humaines et Sociales (en présentiel), le lundi 19/01 (1 j.)

Programme

La formation est prévue sur une journée en présentiel.

Matin

Rappel (rapide) des bases du langage Python
Manipulation de données tabulaires et statistiques de base avec Pandas
Construire et améliorer des visualisations avec Matplotlib, Seaborn, Plotly & co
Aller vers des statistiques avancées avec Statsmodels, Scikitlearn et Prince

Après-midi

Les outils du Traitement Automatique du Langage en Python (TAL/NLP)
De l’expression régulière à l’apprentissage automatique
Usages des modèles de langage, du local à l’API

INTERVENANT

Émilien Schultz, ingénieur de recherche en sciences sociales computationnelles (CREST/ENSAE)

MATERIEL NECESSAIRE

Vous êtes invités à vous munir d’un ordinateur portable.

Si vous n'avez pas d'ordinateur portable, merci de nous le signaler lors de votre inscription, quelques machines seront disponibles sur place (nombre limité).

Pré-requis

La formation est pensée pour un public qui a déjà des notions de programmation en langage Python, notamment sa syntaxe et ses principales notions. Il est préférable d’avoir déjà une pratique de traitement de données, et des bases sur les approches statistiques en sciences humaines et sociales.

Partager cette page

Stages sur le même thème

Voir la liste complète

Ce module nécessite d'activer Javascript sur votre navigateur pour fonctionner correctement.

session REPORTÉE Construire et analyser un corpus avec l'infrastructure Istex [présentiel, Rennes]
Formateur(s)
- Valérie BONVALLOT
  ,
- Mathilde HUGUIN
- recherche documentaire,
  TDM,
  #ISTEX2026
- Mercredi 8 juillet 2026
- Présentiel
Wikidata et OpenRefine : nettoyer, explorer, exploiter des données libres ! [présentiel]
Formateur(s)
- Delphine MONTAGNE
- Wikimédia,
  logiciels
- Vendredi 10 juillet 2026
- Présentiel
Premiers pas dans les données de recherche
Formateur(s)
- Raphaëlle BATS
- données,
  traiter
- Mardi 13 octobre 2026
- Distanciel
Introduction aux données de la recherche (Formation à distance)
Formateur(s)
- Claire TIGNOLET
- Vendredi 13 novembre 2026
- Distanciel
Bibliothèque de santé : environnement et ressources documentaires (initiation) (stage BIU santé /URFIST ; 3 j., en présentiel)
- ressources documentaires santé
- Mardi 17 novembre 2026 - Jeudi 19 novembre 2026
- Présentiel
Les entrepôts de données de la recherche (à distance)
Formateur(s)
- Claire TIGNOLET
- données de la recherche (DR)
- Vendredi 27 novembre 2026
- Distanciel
Données de la recherche, codes, logiciels : introduction aux enjeux [à distance]
Formateur(s)
- Claire TIGNOLET
- Data Management Plan (DMP),
  Plan de Gestion de Données (PGD),
  codes sources,
  logiciels,
  données de la recherche (DR)
- Jeudi 10 décembre 2026
- Distanciel
Cartes heuristiques : éléments théoriques et usages en contexte universitaire (à distance)
Formateur(s)
- Aline BOUCHARD
- mind mapping,
  cartes heuristiques,
  cartes mentales
- Mardi 9 mars 2027
- Distanciel

Nous suivre

Nous suivre

Traiter des données textuelles en Python pour les SHS (en présentiel)

Formation terminée

Lundi 2 février 2026

Objectifs

Programme

Pré-requis

Partager cette page

Stages sur le même thème

session REPORTÉE Construire et analyser un corpus avec l'infrastructure Istex [présentiel, Rennes]

Wikidata et OpenRefine : nettoyer, explorer, exploiter des données libres ! [présentiel]

Premiers pas dans les données de recherche

Introduction aux données de la recherche (Formation à distance)

Bibliothèque de santé : environnement et ressources documentaires (initiation) (stage BIU santé /URFIST ; 3 j., en présentiel)

Les entrepôts de données de la recherche (à distance)

Données de la recherche, codes, logiciels : introduction aux enjeux [à distance]

Cartes heuristiques : éléments théoriques et usages en contexte universitaire (à distance)