Annotations en chaînes de coréférences et anaphores dans un corpus de discours spontané en français

Judith Muzerelle; Emmanuel Schang; Jean-Yves Antoine; Iris Eshkol; Denis Maurel; Aurore Boyer; Damien Nouvel

doi:10.1051/shsconf/20120100252

Open Access

Issue		SHS Web of Conferences Volume 1, 2012 3^e Congrès Mondial de Linguistique Française


Page(s)		2497 - 2516
Section		Traitement automatique des langues
DOI		https://doi.org/10.1051/shsconf/20120100252
Published online		05 July 2012

SHS Web of Conferences 1, 2497-2516 (2012)

Annotations en chaînes de coréférences et anaphores dans un corpus de discours spontané en français

Judith Muzerelle¹^*, Emmanuel Schang¹, Jean-Yves Antoine², Iris Eshkol¹, Denis Maurel², Aurore Boyer¹ et Damien Nouvel²

¹ Laboratoire Ligérien de Linguistique, 3 Rue Des Tanneurs F-37041 Tours Cedex 1
² Laboratoire d'Informatique de l'Université de Tours,

^* contact : This email address is being protected from spambots. You need JavaScript enabled to view it.

Résumé

Cet article présente une analyse des relations anaphoriques d’un corpus de dialogue oral spontané en français. Au cours des deux dernières décennies, l’ingénierie des langues a connu des avancées spectaculaires qui ont permis l’émergence de nombreuses applications opérationnelles destinées aussi bien au grand public qu’aux professionnels. Parmi ces technologies langagières, la recherche d’information et l’indexation de documents constituent sans nul doute un des champs applicatifs promis à un bel avenir. En effet, la croissance exponentielle des ressources textuelles ou multimédias accessibles sur Internet nécessite la mise en place d’outils de structuration et d’interrogation automatique intelligents. Par exemple, la quasi-intégralité des articles publiés sur Internet par les quotidiens de la presse nationale ou régionale font l’objet d’une indexation automatique. L’importance de la résolution des anaphores pour les technologies langagières a conduit à l’émergence de nombreux travaux qui ont fait l’objet de campagnes d’évaluation internationales (MUC et SemEval) ou nationales (DEFT) au cours de la dernière décennie. Ces recherches ont toutefois porté majoritairement sur des documents ou des messages électroniques (langage écrit). A l’opposé, la communauté parole s’est surtout focalisée sur la problématique de l’anaphore pronominale, très présente en dialogue oral homme-machine (serveurs vocaux interactifs). La particularité de notre corpus se situe donc dans son caractère oral et dans le type des entités annotées (groupes nominaux et pronoms). Les avancées continues du traitement de la parole (reconnaissance vocale en particulier) amènent désormais les chercheurs à s’intéresser à une recherche d’information dans des flux oraux ou vidéos (émissions radio ou télédiffusées par exemple) équivalente à celle réalisée sur les documents électroniques. Dans cette perspective, il est essentiel de développer des techniques capables de traiter toutes les formes d’anaphores de l’oral spontané. Ainsi, cet article exposera plus particulièrement l’étude pilote CO2, qui a conduit à une procédure d’annotation de corpus, puis deux expériences issues du corpus annoté (l'accord en genre et en nombre, et la descriptions des définis en première mention), et enfin les travaux à venir du projet ANCOR. L’objectif de celui-ci est d’évaluer la pertinence et de modéliser les processus de résolution de ces anaphores complexes en discours spontané. Le corpus du projet ANCOR sera, à terme, le plus volumineux corpus de français parlé annoté en anaphores.

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.