Analyse automatique du discours

Des recherches récentes dans le cadre du projet Lelie (Barcellini et al., 2012[1] ; Kang et Saint-Dizier, 2013[2] ; 2015[3]) se sont intéressées à l'analyse du discours dans des domaines ciblés tels que la rédaction de procédures (documents techniques) ou d'exigences (cahiers des charges, spécifications, etc.). En effet, « [ces documents] forment un genre conceptuel particulier qui suit des contraintes linguistiques fortes en termes de choix lexical (...), de syntaxe (...), typographique, de style et de contraintes métier variées » (Kang et Saint-Dizier, 2015[3]). Typiquement, les termes flous ou ambigus doivent être évités, de même que les doubles négations (par exemple : "cette manipulation n'est pas sans danger") ou encore l'utilisation du passif, les phrases trop longues, etc.. Les auteurs soulignent que le respect de ces principes est souvent contraignant pour les rédacteurs techniques, et occasionne une relecture fastidieuse (ibid.[3]). Pour faciliter cette relecture, ils proposent un système d'alertes basé sur une analyse automatique du discours. Cette analyse s'appuie notamment sur la théorie des structures rhétoriques, et est instrumentée via deux briques technologiques :

  • Dislog (Saint-Dizier, 2012[4]), un langage combinant la programmation logique et les expressions régulières, et permettant de formaliser un ensemble de règles via des templates.

  • Le méta-interpréteur <TextCoop> (ibid.[4]), parcourant le texte et confrontant les phrases aux différents templates.

Un template décrit une structure discursive valide ou non-valide. Dans le second cas, le template comporte une règle de réécriture insérant l'alerte (balise XML) qui sera signalée au rédacteur. Un exemple simplifié de template est donné dans (Kang et Saint-Dizier, 2015[3]) :

1
[pro(it), modal, aux(be), gap, verb(past participle)] → [pro(it), modal, <passif>, aux(be), gap, verb(past participle), </passif>], {diff(verb,[liste de verbes non concernés par l'alerte])}.

Ce template permet de détecter l'utilisation du passif dans les phrases du type "it shall be demonstrated..." (partie gauche) et de réécrire la phrase détectée avec l'alerte (partie droite). La partie entre accolades est un filtre permettant d'exempter les phrases avec certains verbes : par exemple, "it must be done" ne générera pas d'alerte si le verbe "do" appartient au filtre.

Ces recherches ont été appliquées au niveau industriel avec le logiciel Lelie for requirements. Ce logiciel peut s'intégrer à MS Word mais également à une chaîne éditoriale Scenari.

Résultats de Lelie sur un document Word (Kang et Saint-Dizier, 2015)