Éthique et TRaitemeNt Automatique des Langues 2020
Titre : Que recèlent les données textuelles issues du web ?
Auteurs : Adrien Barbaresi et Gaël Lejeune
Mots clés : Construction de corpus, Science du Web, Extraction de texte, Méthodes d'évaluation
Résumé : La collecte et l'usage opportunistes de données textuelles tirées du web sont sujets à une série de problèmes éthiques, méthodologiques et épistémologiques qui méritent l’attention de la communauté scientifique. Nous présentons des études empiriques de leur impact en linguistique et TAL centrées sur la forme (méthodes d’extraction des données) ainsi que sur le fond (contenu des corpus).
Informations
- Maxime Amblard-Virollaud
- 5 juin 2020 00:00
- Colloques et Conférences
- Français