Issue |
SHS Web of Conferences
Volume 27, 2016
5e Congrès Mondial de Linguistique Française
|
|
---|---|---|
Article Number | 11002 | |
Number of page(s) | 13 | |
Section | Ressources et Outils pour l’analyse linguistique | |
DOI | https://doi.org/10.1051/shsconf/20162711002 | |
Published online | 04 July 2016 |
Le Corpus de référence du français contemporain (CRFC), un corpus massif du français largement diversifié par genres
1 Universität Osnabrück, Institut für Anglistik/Amerikanistik
2 Universität Paderborn, Institut für Romanistik
3 Praxiling, UMR 5267, Université Paul-Valéry Montpellier 3
dirk.siepmann@uni-osnabrueck.de
christoph.buergel@upb.de
sascha.diwersy@univ-montp3.fr
Cet article porte sur le Corpus de référence du français contemporain (ci-après abrégé en CRFC), un nouveau corpus qui, tout en présentant une taille considérable, vise, dans sa conception, à un équilibre en termes de genres textuels. La première version du corpus, qui sera enrichi au fur et à mesure de la disponibilité de nouveaux documents, compte 310 millions de mots du français tel qu’il se parle et s’écrit en France pour une période comprise entre 1945 et 2014, avec plus de 90 % de textes remontant aux deux dernières décennies. Ce corpus est destiné à représenter la langue française de telle manière qu’il réponde aux besoins des apprenants, des enseignants et des chercheurs en français contemporain.
Abstract
The Corpus de référence du français contemporain (CRFC) is a new purpose-built genre-diverse corpus for investigating modern French. The 310-million-word corpus is the first collection of French to incorporate a substantial amount of spontaneous speech (approx. 30 m words) and ‘pseudo-spoken’ data (approx. 125 m words); it is evenly divided between spoken/pseudo-spoken and written sources. The present article discusses major issues relating to the design of the corpus and the sources used in compiling it.
© Owned by the authors, published by EDP Sciences, 2016
This is an Open Access article distributed under the terms of the Creative Commons Attribution License 4.0, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.