[Séminaire ATILF] Simon Gabay : Fabriquer et exploiter son corpus de littérature d'Ancien Régime : problèmes et solutions techniques

Duration: 01:15:26
Number of views 615
Addition in a playlist 1
Number of favorites 0

Simon Gabay (Université de Neuchâtel) : Fabriquer et exploiter son corpus de littérature d’Ancien Régime : problèmes et solutions techniques

 

Avec l’apparition des humanités numériques, le besoin de fabriquer rapidement et efficacement des corpus s’est considérablement accru. Si la littérature la plus récente (XIXe s.-XXe s.) est relativement facile à rétro convertir, il n’en va pas de même pour la littérature d’Ancien Régime à cause des particularités typographiques de l’imprimé ancien et de l’instabilité des systèmes graphiques. L’apparition récente de nouveaux outils open source change néanmoins la donne: ces tâches complexes sont de plus en plus simples à effectuer, et deviennent donc accessibles aux non TAListes. Nous nous proposons donc de revenir sur ces outils, et notamment trois d’entre eux (OCR, modernisation à la volée et lemmatisation) que nous avons entraînés sur des textes du Grand Siècle en vue de la création d’un corpus.

 

Tags: atilf

 Infos