Issue |
SHS Web of Conferences
Volume 1, 2012
3e Congrès Mondial de Linguistique Française
|
|
---|---|---|
Page(s) | 2497 - 2516 | |
Section | Traitement automatique des langues | |
DOI | https://doi.org/10.1051/shsconf/20120100252 | |
Published online | 05 July 2012 |
Annotations en chaînes de coréférences et anaphores dans un corpus de discours spontané en français
1
Laboratoire Ligérien de Linguistique, 3 Rue Des Tanneurs F-37041 Tours Cedex 1
2
Laboratoire d'Informatique de l'Université de Tours,
* contact : judith.muzerelle@etu.univ-tours.fr
Cet article présente une analyse des relations anaphoriques d’un corpus de dialogue oral spontané en français. Au cours des deux dernières décennies, l’ingénierie des langues a connu des avancées spectaculaires qui ont permis l’émergence de nombreuses applications opérationnelles destinées aussi bien au grand public qu’aux professionnels. Parmi ces technologies langagières, la recherche d’information et l’indexation de documents constituent sans nul doute un des champs applicatifs promis à un bel avenir. En effet, la croissance exponentielle des ressources textuelles ou multimédias accessibles sur Internet nécessite la mise en place d’outils de structuration et d’interrogation automatique intelligents. Par exemple, la quasi-intégralité des articles publiés sur Internet par les quotidiens de la presse nationale ou régionale font l’objet d’une indexation automatique. L’importance de la résolution des anaphores pour les technologies langagières a conduit à l’émergence de nombreux travaux qui ont fait l’objet de campagnes d’évaluation internationales (MUC et SemEval) ou nationales (DEFT) au cours de la dernière décennie. Ces recherches ont toutefois porté majoritairement sur des documents ou des messages électroniques (langage écrit). A l’opposé, la communauté parole s’est surtout focalisée sur la problématique de l’anaphore pronominale, très présente en dialogue oral homme-machine (serveurs vocaux interactifs). La particularité de notre corpus se situe donc dans son caractère oral et dans le type des entités annotées (groupes nominaux et pronoms). Les avancées continues du traitement de la parole (reconnaissance vocale en particulier) amènent désormais les chercheurs à s’intéresser à une recherche d’information dans des flux oraux ou vidéos (émissions radio ou télédiffusées par exemple) équivalente à celle réalisée sur les documents électroniques. Dans cette perspective, il est essentiel de développer des techniques capables de traiter toutes les formes d’anaphores de l’oral spontané. Ainsi, cet article exposera plus particulièrement l’étude pilote CO2, qui a conduit à une procédure d’annotation de corpus, puis deux expériences issues du corpus annoté (l'accord en genre et en nombre, et la descriptions des définis en première mention), et enfin les travaux à venir du projet ANCOR. L’objectif de celui-ci est d’évaluer la pertinence et de modéliser les processus de résolution de ces anaphores complexes en discours spontané. Le corpus du projet ANCOR sera, à terme, le plus volumineux corpus de français parlé annoté en anaphores.
© aux auteurs, publié par EDP Sciences, 2012
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.