Traitement de données issues d’un corpus écrit multilingue. Approche agile pour l’analyse du discours eurorégional

Marie-Hélène Hermand; Emmanuel Thouraud

doi:10.1051/shsconf/20152001009

Open Access

Issue		SHS Web of Conferences Volume 20, 2015 ICODOC 2015 : Colloque Jeunes Chercheurs du Laboratoire ICAR


Article Number		01009
Number of page(s)		12
Section		Articles issus des communications orales
DOI		https://doi.org/10.1051/shsconf/20152001009
Published online		30 November 2015

SHS Web of Conferences 20, 01009 (2015)

Traitement de données issues d’un corpus écrit multilingue. Approche agile pour l’analyse du discours eurorégional

Data processing model on a multilingual written corpus. Agile approach to analyze the euroregional discourse

Marie-Hélène Hermand¹^a et Emmanuel Thouraud^b

¹ Université Libre de Bruxelles, ReSIC

^a Auteur de correspondance : This email address is being protected from spambots. You need JavaScript enabled to view it.
^b This email address is being protected from spambots. You need JavaScript enabled to view it.

Résumé

L’article présente quelques éléments de la procédure mise en place pour traiter un corpus écrit comportant 617 textes (près de 500 000 mots) relatifs aux eurorégions. Complexe et hétérogène à plusieurs titres (technique, linguistique, éditorial, générique, énonciatif), le corpus pose la difficulté majeure de l’appréhension de données multilingues (français, italien, espagnol, anglais, allemand, néerlandais). Sa manipulation a nécessité une réflexion adaptée et une démarche de modélisation que nous qualifions d’«agile» en raison de son caractère souple et itératif. La plateforme d’analyse élaborée permet de disposer de résultats utiles à l’analyse qualitative ultérieure du discours eurorégional. Elle articule un logiciel d’analyse morphosyntaxique éprouvé (TreeTagger) à des programmes (Perl) et à une base de données (SQLite) développés pour optimiser les requêtes multilingues simultanées et l’exportation automatique des résultats. Les fonctionnalités liées à la localisation contextualisée de mots-pivots, au recueil de dénominations et à la détection de segments répétés nous servent ici de guides pour exprimer les besoins de la recherche, les problèmes rencontrés et les solutions proposées. L’analyse d’observables récurrents, à savoir les notions de décision et de responsabilité, illustre le propos.

Abstract

The article presents some aspects of the model applied to a written corpus of 617 texts (around 500 000 words) relative to the Euroregions. Complex and heterogeneous in several respects (technical, linguistic, editorial, generic, enunciative), the corpus raises the major challenge of the analysis of multilingual data (French, Italian, Spanish, English, German, Dutch). This analysis required a suitable reflection and modeling process which we call “agile” because of its flexible and iterative character. The analysis platform can provide useful results for subsequent qualitative analysis of Euroregional discourse. It combines a proven part-of-speech tagger software (TreeTagger) with Perl modules and SQLite database developed to optimize simultaneous multilingual queries and automatic export of the results. The features related to the location of contextualized words, the collection of own names and the detection of repeated segments serve as guides to express the needs of research, problems and proposed solutions. The analysis of the repeated expressions of decision and responsibility in the corpus illustrates the model.

This is an Open Access article distributed under the terms of the Creative Commons Attribution License 4.0, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.