Issue |
SHS Web Conf.
Volume 191, 2024
9e Congrès Mondial de Linguistique Française
|
|
---|---|---|
Article Number | 11001 | |
Number of page(s) | 20 | |
Section | Ressources et outils pour l’analyse linguistique | |
DOI | https://doi.org/10.1051/shsconf/202419111001 | |
Published online | 28 June 2024 |
Analyse qualitative et quantitative des « hallucinations » générées automatiquement dans un corpus de reformulations médicales
1 ATILF UMR 7118 (CNRS - Université de Lorraine)
2 MoDyCo UMR 7114 (Université Paris Nanterre)
3 LiLPa UR 1339 (Université de Strasbourg)
* ioana.buhnila@univ-lorraine.fr
Notre étude porte sur les « hallucinations », des productions langagières générées par des outils d’intelligence artificielle de type générateurs de textes, productions qui ne correspondent pas à ce qu’il est attendu de l’outil. Nous testons l’hypothèse selon laquelle il est possible de discerner des patrons langagiers dans ces générations inadéquates. Nous menons des analyses quantitatives et qualitatives des données, selon plusieurs entrées : le degré d’adéquation grammaticale et sémantique des séquences générées, les relations sémantiques, les fonctions sémantico-pragmatiques et les discrépances combinatoires. Nos analyses montrent que les outils de génération textuelle procèdent à de généralisations abusives en mettant en exergue des patrons dont la portée n’est pas validée par l’usage. D’un point de vue informatique, les « hallucinations » soulèvent des questions quant au paramétrage des modèles langagiers exploités par les réseaux neuronaux et la génération statistique. D’un point de vue linguistique, nos observations soulèvent la question de l’interface entre les usages purement linguistiques et leurs différents contextes sur le terrain des pratiques langagières qui ancrent ces patterns dans l’usage.
© The Authors, published by EDP Sciences, 2024
This is an Open Access article distributed under the terms of the Creative Commons Attribution License 4.0, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.