Issue |
SHS Web of Conferences
Volume 8, 2014
4e Congrès Mondial de Linguistique Française
|
|
---|---|---|
Page(s) | 2565 - 2581 | |
Section | Ressources et Outils pour l'analyse linguistique | |
DOI | https://doi.org/10.1051/shsconf/20140801273 | |
Published online | 24 July 2014 |
OOPS : une approche orientée objet pour l’interrogation et l’analyse linguistique de l’interface prosodie/syntaxe/discours
1
MoDyCo (Modèles, Dynamique, Corpus) - UMR 7114 - Université Paris Ouest Nanterre, 200 avenue de la République, 92001 Nanterre Cedex, France
2
LORIA-UMR7503 équipe Parole, Campus Scientifique, 615 Rue du Jardin Botanique, 54506 Vandoeuvre-Lès-Nancy, France
Contact : julie@beliao.fr
Dans cet article, nous nous intéressons à la problématique de l'étude de la langue parlée multi-annotée. Dans de tels corpus, un même échantillon de parole est associé à des informations inhérentes à différents niveaux linguistiques. Cela soulève des problématiques liées à la difficulté d’organisation, de stockage et d’accès à ces informations pour l'analyse conjointe de niveaux linguistiques : intonosyntaxe, discours-prosodie et syntaxe-pragmatique par exemple. La principale difficulté qui sous-tend l'exploitation d'un tel corpus multi-annoté de langue parlée est la mise en relation d’unités qui appartiennent à des niveaux linguistiques différents. Pour tous les niveaux linguistiques représentés, chaque annotation conduit en effet à une hiérarchie particulière. L’agrégation de toutes ces hiérarchies ou arborescences linguistiques est l’enjeu du formalisme proposé. Pour étudier l'interface entre différents niveaux linguistiques, nous proposons une approche orientée objet OOPS (Object-Oriented Processing of Speech) permettant de représenter une large variété d’annotations au sein d’une architecture globale. Une telle structure ne peut en effet pas être réalisée entièrement à partir de la seule transcription annotée, qui est au mieux exploitable par un humain. Elle nécessite au contraire une mise en relation du signal et des autres support d’annotation avec cette transcription pour l'étude conjointe d’unités linguistiques appartenant à des niveaux différents. La particularité de l’aproche que nous proposons est qu'elle repose entièrement sur un formalisme modulaire, ou objet. Une unité linguistique sera vue comme un objet (au sens informatique du terme) de la hiérarchie dépendant du niveau linguistique auquel elle appartient. Ces différentes hiérarchies sont reliées par les mots de la transcription, qui leurs sont communs. Ainsi, il devient possible de faire des requêtes mettant en jeu plusieurs niveaux linguistiques : syntaxe-prosodie, syntaxe-pragmatique ou encore prosodie-pragmatique, pour en extraire toute information jugée pertinente. L’approche que nous proposons repose sur le postulat que plus l'information sera modulaire, plus son traitement en sera simple et puissant. Cette hypothèse nous a conduit à envisager certaines structures sous un angle un peu différent de celui proposé par les membres du projet Rhapsodie dans un soucis de toujours plus modulariser l’information linguistique. D'un point de vue beaucoup plus pratique, le système que nous décrivons dans cet article a été développé sous la forme d'un module Python permettant l'analyse et l'exploitation de données annotées selon le système mis en place dans le cadre du projet Rhapsodie (Lacheret, Kahane & Pietrandrea (eds) à paraître). L'ensemble des outils présentés dans cette étude est diffusé sous licence libre GPLv3 et peut être téléchargé à l'adresse www.loria.fr/~aliutkus/oops
© aux auteurs, publié par EDP Sciences, 2014
Article en accès libre placé sous licence Creative Commons Attribution 4.0
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.