Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire

Nathalie Gasiglia

doi:10.1051/shsconf/20162711004

Open Access

Issue		SHS Web of Conferences Volume 27, 2016 5^e Congrès Mondial de Linguistique Française


Article Number		11004
Number of page(s)		15
Section		Ressources et Outils pour l’analyse linguistique
DOI		https://doi.org/10.1051/shsconf/20162711004
Published online		04 July 2016

SHS Web of Conferences 27, 11004 (2016)

Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire¹

Nathalie Gasiglia

Univ. Lille, CNRS, UMR 8163 - STL - Savoirs Textes Langage, F-59000 Lille

This email address is being protected from spambots. You need JavaScript enabled to view it.

Résumé

La présente contribution ambitionne de revenir sur l’élaboration, durant la dernière décennie, de deux corpus de commentaires footballistiques – l’un d’oral transcrit et l’autre de sources écrites – de taille modeste mais constitués afin qu’ils présentent un haut rendement exploratoire. L’objectif de ce retour est de réexaminer les choix de balisage XML mis en œuvre au sein de chacun et d’étudier la pertinence d’une annotation plus fine de certains phénomènes non encore traités. Après avoir présenté le contexte qui a motivé l’élaboration de ces corpus puis leurs contenus, nous exposons les éléments majeurs du balisage de chacun, en valorisant ce qui les différencie, avant d’entrer plus finement dans leurs données et d’analyser l’impact des modalités ou des moments de production des énoncés sur leur forme, et conséquemment la pertinence d’une annotation de ces paramètres dans le balisage. Si les deux corpus ont à l’heure actuelle un haut rendement exploratoire du fait de leur thématisation et de la sélection de commentaires, donc de productions d’un ensemble de locuteurs spécialisés qui s’adressent à un large public, la spécificité des situations d’énonciation propres aux énoncés oraux ou écrits de chaque corpus a un impact sur la nature des données observables au sein de chacun. Ainsi, d’une certaine manière, selon le média de diffusion, les commentaires qui permettent au public de suivre les matchs qu’il ne voit pas ne l’informent pas de manière équivalente. Nous apprécierons comment le balisage XML peut faciliter les analyses des discours et les études lexicales au sein de ces corpus.

Abstract

This paper revisits the ten-year-long elaboration of two football commentary corpora, one transcribed from spoken language, the other based on written sources. The two corpora are of small size but with high exploratory efficiency. The goals of this new study are to reexamine the used XML markup choices of each corpus and to investigate the relevance of a more detailed tagging for certain phenomena not yet treated. After presenting the context motivating the elaboration of these corpora then their contents, the major markup elements of each are displayed, highlighting their differentiating features, then data is explored in more detail and the impact of utterances production modalities or moments on their form, and finally the relevance of such parameters’ tagging in the markup, are analyzed. Both corpora have a high exploratory efficiency due to their thematic character and commentaries selection, that is utterances of a certain number of specialized speakers addressing a large audience. However, the specificity of utterances production situations has an impact on the nature of observable data in each corpus: depending on the medium, the commentaries, allowing the audience to follow the matches without seeing them, do not inform in equivalent manner. I will estimate how XML markup may facilitate discourse analysis and lexical studies in these corpora.

Merci aux relecteurs d’une version préliminaire de cette contribution pour les suggestions formulées.

This is an Open Access article distributed under the terms of the Creative Commons Attribution License 4.0, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.

Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1

Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire¹