[ Home ] – [ Research ] – [ Teaching ] – [ Resources ] – [ Misc ]
 character encoding recognition (iso…) and conversion : to utf8 
 
 document format detection (text raw, 
HTML, pdf, 
XML-TEI…) and conversion : to a tagged format (which accept multi-annotations)
 
 
 language detection
 
 normalisation/homogénéisation du texte (selon ressources et traitements souhaités) : selon le niveau de traitement (du caractère au mot, de la syntaxe à la sémantique)
 casse des caractères (MAJUSCULE2minuscule), 
 
 caractères diacritiques (cédille, accent, …) en leur équivalent sans diacritique, 
 
 les signes de ponctuation en un même signe, 
 
 certains mots par leur catégorie grammaticale (déterminant, préposition), représentant de chaque chaîne lexicale
 
 
 pré-traitement
 
 word tokenization
 
 sentence tokenisation (splitter)
 
 analyse morpho-syntaxique 
 
 text classification
 
 désambiguïsation lexicale ; construction de chaînes lexicales
 
 reconnaissance d'entités nommés
 
 désambiguïsation lexicale
 
 résolution des anaphores
 
 découpage en segments discursifs “thématiques”/fonctionnels 
 
 étiqueteur sémantico-rhétorique des énoncés ; des relations entre énoncés
 
 
recognition
 le type 
MIME et l'encodage (CHARSET) du fichier
 
 
file -i <file> 
utrac -p <fichier>
conversion
 UTRAC stands for Universal Text Recognizer and Converter.  It is a command line tool and a library that recognize the encoding of an input file (ex: UTF-8, 
ISO-8859-1, CP437…) and its end-of-line type (CR, LF, CRLF). 
http://utrac.sourceforge.net/ 
 
utrac -f ISO-8859-1 -t UTF-8  fichier.iso.txt > fichier.utf.txt
Convertir un fichier vers l'UTF-8 et inversement
iconv -f iso-8859-1 -t utf-8 <in >out    # vers UTF-8
iconv -f utf-8 -t iso-8859-1 <in >out    # vers latin-1
 recode, A successor to iconv but with a somewhat peculiar command-line syntax.
 
 siconv, This is a stream-oriented counterpart to iconv, using libiconv, the same library that underlies iconv. It can handle larger amounts of data than iconv.
 
 
detection
 le type 
MIME et l'encodage (CHARSET) du fichier
 
 
file -i <file> 
conversion
- 
 
 Portable Document Format (
PDF) 
 
 to text/ps – PDFtotext extracts plain text from 
PDF files. It is part of the xpdf package, which also provides a 
PDF file viewer and some other tools. 
http://www.foolabs.com/xpdf/  
 
- 
 
 
- 
 
- 
 
- 
 
- 
 
 Microsoft Word – Antiword is able to convert Word documents to plain text, to PostScript, to 
PDF and to 
XML/DocBook. 
http://www.winfield.demon.nl/ 
 
 Manipulation 
 Tokenization 
SGML/
XML/
HTML one tag per line ; requirement perl, 
HTML::TagReader
 
 
cat input/sample.xml | sgml2token.pl 
References