Auteur: Sidonie Tosser CC-BY-NC 4.0

Préparer un jeu de données textuelles pour la modélisation

Public :


Événement dirigé par Thomas GaillatCyriel Mallart et Anatole Faugere.

Thomas Gaillat est enseignant-chercheur en linguistique et didactique au laboratoire LIDILE.


Programme

Le lien vers le Google Colab sur la page de l’évènement:

https://colab.research.google.com/drive/1MuP1LlCiWu9lSJJQIAIWTlolw6fEc96A#scrollTo=9BCzPJQ1kzFZ

Matinée  :

Les potentialités linguistiques d’un traitement automatique ;

Initiation aux concepts fondamentaux pour le traitement automatique des données en Python. Les variables, fonctions et boucles et quel est le lien avec la notion de texte ;

Manipulation de texte : enrichissement linguistique et extractions.

Après-midi :

Créer son jeu de données à partir de ses textes ;

Manipulation par lots : Pandas et les tableaux ;

Discussion : vers la modélisation.


Pré-Requis

• Compréhension des types de fichiers ;
• Savoir naviguer dans un système de fichiers.

Objectifs de la Formation

1) Savoir manipuler des données textuelles avec Python ;
2) Savoir enrichir linguistiquement les données textuelles ;
3) Comprendre les représentations conceptuelles des données textuelles en vue de la modélisation.