Défiler vers le haut

Licence Creative Commons ETeRNAL - Barbaresi - Que recèlent les données textuelles issues du web ?

3 juin 2020
Durée : 00:20:00
Nombre de vues 56
Nombre d’ajouts dans une liste de lecture 1
Nombre de favoris 0

 

Éthique et TRaitemeNt Automatique des Langues 2020

Titre : Que recèlent les données textuelles issues du web ?

Auteurs : Adrien Barbaresi et Gaël Lejeune

Mots clés : Construction de corpus, Science du Web, Extraction de texte, Méthodes d'évaluation


Résumé : La collecte et l'usage opportunistes de données textuelles tirées du web sont sujets à une série de problèmes éthiques, méthodologiques et épistémologiques qui méritent l’attention de la communauté scientifique. Nous présentons des études empiriques de leur impact en linguistique et TAL centrées sur la forme (méthodes d’extraction des données) ainsi que sur le fond (contenu des corpus).

 Informations