TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

Antonio Balvet; Dejan Stosic; Aleksandra Miletic

doi:10.1051/shsconf/20140801035

Open Access

Issue		SHS Web of Conferences Volume 8, 2014 4^e Congrès Mondial de Linguistique Française


Page(s)		2551 - 2563
Section		Ressources et Outils pour l'analyse linguistique
DOI		https://doi.org/10.1051/shsconf/20140801035
Published online		24 July 2014

SHS Web of Conferences 8, 2551-2563 (2014)

TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

Antonio Balvet¹, Dejan Stosic² et Aleksandra Miletic³

¹ Université Lille Nord de France, 1 Rue Lefèvre, F-59000 Lille, France
² UMR CLLE-ERSS 5263, Université de Toulouse-Le Mirail, 5, allées Antonio Machado, 31058 Toulouse, France
³ Université Charles de Gaulle Lille 3, Domaine Universitaire, Pont de bois, 59653 Villeneuve D'Ascq, France

Contact : This email address is being protected from spambots. You need JavaScript enabled to view it.

Résumé

Le corpus TALC-sef (TAgged Literary Corpus in Serbian, English, French) est un corpus parallèle d'ouvrages littéraires en serbe, anglais et français, étiquetés en parties du discours et librement consultables via une interface en ligne. Il a été constitué par l'Université d'Arras, en collaboration avec l'Université Lille 3 et l'Université de Belgrade, dans une perspective d'études comparées en stylistique et linguistique. Le corpus TALC-sef représente au total plus de 2 millions de mots, il intègre notamment un corpus étiqueté, corrigé manuellement pour la langue serbe, de 150 000 mots. Dans cet article, nous présentons le mode de constitution du corpus parallèle dans son ensemble, puis nous nous attachons plus spécifiquement à l'élaboration du sous-corpus serbe étiqueté. Nous détaillons les choix linguistiques et techniques sous-jacents à la constitution de ce sous-corpus, qui vient compléter l'offre existante pour la linguistique sur corpus en serbe: à ce jour, le seul corpus librement disponible consiste en une traduction du roman 1984 de G. Orwell (100 000 mots), alors que nous proposons un corpus d'œuvres écrites à l'origine en Serbe, de 150 000 mots. La constitution de ce sous-corpus a permis l'élaboration de modèles d'étiquetage automatique pour trois étiqueteurs syntaxiques, dont Treetagger, TnT et BTagger, le plus efficace d'entre eux. Enfin, nous présentons les perspectives d'évolution du corpus existant, en termes d'enrichissement des annotations syntaxiques (analyses en dépendance en parallèle sur les trois langues), ainsi que les apports d'un tel corpus parallèle étiqueté pour la linguistique du français.

Article en accès libre placé sous licence Creative Commons Attribution 4.0

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.