Approche probabiliste

N-grammes

L'approche probabiliste s'appuie sur les fréquences d'apparition de N-grammes dans un corpus. Soit par exemple le corpus très simple "de la rigueur de la science". Le tableau suivant donne la fréquence des différents unigrammes, autrement dit des mots rencontrés dans ce corpus :

Fréquence des unigrammes

Unigramme

Fréquence

de

2

la

2

rigueur

1

science

1

Un bigramme est une suite de deux mots. La matrice suivante donne la fréquence des différents bigrammes possibles dans le corpus :

Fréquence des bigrammes

de

la

rigueur

science

de

0

2

0

0

la

0

0

1

1

rigueur

1

0

0

0

science

0

0

0

0

À partir de ces fréquences, on peut établir une probabilité d'apparence d'un mot en fonction du mot qui le précède. Par exemple :

  • la probabilité que "de" soit suivi de "la" est de 1 ;

  • la probabilité que "la" soit suivi de "rigueur" est de 0,5 ;

  • la probabilité que "la" soit suivi de "science" est de 0,5 ; etc.

Pour plus de précision, il est également possible de calculer la fréquence des trigrammes (suite de trois mots) et d'en déduire la probabilité d'apparence d'un mot en fonction des deux mots qui le précèdent. Par exemple, les probabilités que "de la" soit suivi de "rigueur" ou "science" sont toutes les deux de 0,5.

Calculée sur un corpus comportant plusieurs dizaines de milliers de mots distincts, une matrice de fréquence de bigrammes ou de trigrammes peut être utilisée comme modèle statistique de la langue par un correcteur automatique pour détecter et éventuellement corriger les faux positifs.

Mays et al. (1991[1]) ont expérimenté l'approche probabiliste à partir d'une matrice de trigrammes basée sur un lexique de 20 000 mots. Leur test est basé sur 100 phrases correctes utilisant les 20 000 mots du lexique. Pour chaque phrase correcte, un ensemble de nouvelles phrases est généré en dérivant cette phrase autant de fois qu'il qu'il est possible de remplacer un de ses mots par un faux positif (chaque phrase dérivée ne continent qu'un seul faux positif). Pour chaque ensemble ainsi constitué, la probabilité d'une phrase est calculée à partir des probabilités des différentes trigrammes qu'elle comporte (pour plus de détails sur le calcul de cette probabilité, voir (Kukich, 1992[2]) ou (Wilcox-O'Hearn et al., 2008[3])). Pour qu'une phrase soit détectée comme fautive, il faut que sa probabilité ne soit pas la plus forte dans son ensemble ; pour qu'elle puisse être corrigée, il faut que la phrase correcte ait la probabilité la plus forte dans son ensemble. Sur cette expérience, Mays et al. obtiennent des scores de 76% pour la détection et 47% pour la correction.