Issue |
SHS Web Conf.
Volume 78, 2020
7e Congrès Mondial de Linguistique Française
|
|
---|---|---|
Article Number | 11004 | |
Number of page(s) | 18 | |
Section | Ressources et outils pour l'analyse linguistique | |
DOI | https://doi.org/10.1051/shsconf/20207811004 | |
Published online | 04 September 2020 |
Annoter la parole spontanée en arbres de constituants pour les besoins de l’analyse temporelle : résultats et comparaison français parlé / français écrit
1 LIFAT, Université de Tours, 41000 Blois, France
2 LIFO, Université d’Orléans, 45000 Orléans , France
3 LLL, Université d’Orléans, 45000 Orléans , France
4 Institut für Sprache und Information, Heinrich-Heine-Universität, Düsseldorf , Allemagne
Résumé
Cet article présente les principaux résultats de la partie syntaxique du projet Temporal@ODIL, une initiative visant la construction d’un corpus de français parlé spontané annoté en temporalité. Nous présentons ici ODIL_Syntax, corpus arboré en constituants sur lequel s’appuie l’annotation temporelle et qui est diffusé librement sous licence Creative Commons. ODIL_Syntax a été créé à l’aide de Contemplata, une plateforme Web d’annotation développée spécifiquement dans le cadre du projet, diffusée elle aussi librement et qui présente l’intérêt de permettre une annotation semi-automatique utilisant un analyseur syntaxique. L’article décrit la procédure d’annotation avec cet outil, nos choix d’annotation ainsi que le corpus produit, en s’intéressant en particulier à une comparaison avec le corpus équivalent FTB (French Treebank) développé pour l’écrit.
Resumen
Constituency annotation of spontaneous speech for temporal analysis needs: results and comparison between spoken and written French. This paper presents the main results drawn from the syntactic part of Temporal@ODIL, a project whose objective is the construction of a temporally annotated corpus of spontaneous speech for French. We describe ODIL_Syntax, a freely distributed constituency treebank on which our temporal annotation is grounded. The syntactic annotation was performed on Contemplata, a Web-based annotation platform developed specifically for our project, which is also freely distributed and which integrates a syntactic parser, allowing a semiautomatic annotation. This paper gives a description of the annotation guidelines and the annotation procedure using Contemplata, as well as a statistical description of our corpus, compared with the French Treebank, the largest constituency-based resource for written French.
© The Authors, published by EDP Sciences 2020
This is an Open Access article distributed under the terms of the Creative Commons Attribution License 4.0, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.