Issue |
SHS Web of Conferences
Volume 1, 2012
3e Congrès Mondial de Linguistique Française
|
|
---|---|---|
Page(s) | 2517 - 2528 | |
Section | Traitement automatique des langues | |
DOI | https://doi.org/10.1051/shsconf/20120100324 | |
Published online | 05 July 2012 |
Constitution automatique d'une ressource morphologique : VerbAgent
1
Labo de Linguistique Formelle, Case Postale 7031, 5, rue Thomas Mann, 75205 Paris Cedex 13, France
2
LIMSI-CNRS, B.P. 133, 91403 Orsay Cedex, France
3
Linguistique, langues et parole, Université de Strasbourg, 4 rue Blaise Pascal, 67081 Strasbourg Cedex 2009, France
* contact : dtribout@linguist.jussieu.fr
Dans cet article, nous présentons une méthode de constitution automatique d'une ressource morphologique de noms d'agent déverbaux. A partir d'un échantillon validé manuellement, nous présentons ensuite différentes pistes envisagées pour mettre au point une méthode de validation automatique qui permettrait de réduire la validation manuelle. Pour constituer de façon automatique la ressource, nous utilisons deux méthodes, l'une consistant en des heuristiques fondées sur les propriétés formelles des noms et des verbes. Et la seconde consistant en l'exploitation des définitions d'un dictionnaire. Ces deux méthodes sont intéressantes car elles sont très rapides à implémenter, et la première semble en outre posséder une bonne couverture du phénomène de formation de noms d'agent déverbaux. Cependant la seconde méthode a une faible couverture du phénomène, et la validation manuelle d'un échantillon de la ressource montre que la première méthode engendre aussi beaucoup de bruit, et nécessite de ce fait une réelle validation, qu'elle soit manuelle, automatique ou semi-automatique. C'est pourquoi nous envisageons différentes méthodes de validation automatique de la ressource, afin de réduire la validation manuelle. Les différentes études de validation automatique de la ressource montrent des résultats décevants. Toutefois, ces résultats ne remettent pas en cause les méthodes essayées, mais semblent davantage révéler la difficulté à trouver des méthodes adaptées pour les mots peu fréquents.
© aux auteurs, publié par EDP Sciences, 2012
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.