Signes diacritiques: perdus et retrouv?s
Abstract
Les conventions pour le codage restrictives, les appareils pour
l'inscription des donn?es, et les divers logiciels peuvent d?nuder d'accents
diacritiques dans le texte encod? par l'ordinateur. Il existe donc un besoin de
les restaurer dans le traitement automatique de texte. On peut ins?rer un tel
algorithme dans les applications de reconnaissance d'images de documents ou de
l'?crit comme ?tape de v?rification. Puisque les signes diacritiques portent
souvent sur la prononciation, leur restauration automatique est importante pour
les logiciels de transcription automatique de la parole. Cette communication
r?vise bri?vement les origines et la signification des signes diacritiques
dans les langues indo-europ?ennes. Ensuite, nous d?crivons et comparons quatre
m?thodes pour restaurer automatiquement les signes diacritiques dans un texte
qui les a perdus. Il s'av?re qu'une s?rie d'algorithmes de complexit?
croissante peut bien restaurer les signes diacritiques manquants pour atteindre
un niveau de plus de 97% des mots corrects (plus de 99% caract?res corrects).
Ces m?thodes comparent des cha?nes de caract?res sans tenir compte des
r?gles particuli?res syntaxiques ou phonologiques. Bien que nos donn?es
soient des donn?es fran?aises, nos m?thodes peuvent facilement ?tre
g?n?ralis?es en ajoutant seulement une grande base de donn?es de texte dans
un orthographe conforme avec les autres langues.
Translation of abstract
Restrictive conventions for text encoding, tools for data encoding, and
various computer programs can strip diacritical marks from text in
computer-readable form. There is a nead for an automatic method for restoring
these accents to the text. One can include such an algorithm in OCR programs for
text and images to verify processed text. Since diacritical signs often affect
pronunciation, their automatic restoration is also important for automatic
speech transcription programs. This paper briefly reviews the origins and
significance of diacritical marks in Indo-European languages. Then, we describe
and compare 4 methods for autmatic restoration of diacritics in a text which has
been stripped of them. It is shown that a series of algorithms of increasing
complexity can restore missing diacritics at an accuracy rate of better than 97%
words correct (more than 99% characters correct). These methods compare strings
of characters within need for language particular syntactic or phonological
rules. Although our data are from French, the method can be easily generalized
simply by adding a large database of text from any other language.
Return to Naomi's home page.