Naomi Nagy

Linguistics at U of T

Signes diacritiques: perdus et retrouv?s

by George Nagy, Naomi Nagy, and Michael Sabourin

Abstract

Les conventions pour le codage restrictives, les appareils pour l'inscription des donn?es, et les divers logiciels peuvent d?nuder d'accents diacritiques dans le texte encod? par l'ordinateur. Il existe donc un besoin de les restaurer dans le traitement automatique de texte. On peut ins?rer un tel algorithme dans les applications de reconnaissance d'images de documents ou de l'?crit comme ?tape de v?rification. Puisque les signes diacritiques portent souvent sur la prononciation, leur restauration automatique est importante pour les logiciels de transcription automatique de la parole. Cette communication r?vise bri?vement les origines et la signification des signes diacritiques dans les langues indo-europ?ennes. Ensuite, nous d?crivons et comparons quatre m?thodes pour restaurer automatiquement les signes diacritiques dans un texte qui les a perdus. Il s'av?re qu'une s?rie d'algorithmes de complexit? croissante peut bien restaurer les signes diacritiques manquants pour atteindre un niveau de plus de 97% des mots corrects (plus de 99% caract?res corrects). Ces m?thodes comparent des cha?nes de caract?res sans tenir compte des r?gles particuli?res syntaxiques ou phonologiques. Bien que nos donn?es soient des donn?es fran?aises, nos m?thodes peuvent facilement ?tre g?n?ralis?es en ajoutant seulement une grande base de donn?es de texte dans un orthographe conforme avec les autres langues.

Translation of abstract

Restrictive conventions for text encoding, tools for data encoding, and various computer programs can strip diacritical marks from text in computer-readable form. There is a nead for an automatic method for restoring these accents to the text. One can include such an algorithm in OCR programs for text and images to verify processed text. Since diacritical signs often affect pronunciation, their automatic restoration is also important for automatic speech transcription programs. This paper briefly reviews the origins and significance of diacritical marks in Indo-European languages. Then, we describe and compare 4 methods for autmatic restoration of diacritics in a text which has been stripped of them. It is shown that a series of algorithms of increasing complexity can restore missing diacritics at an accuracy rate of better than 97% words correct (more than 99% characters correct). These methods compare strings of characters within need for language particular syntactic or phonological rules. Although our data are from French, the method can be easily generalized simply by adding a large database of text from any other language.

Return to Naomi's home page.