[ Home ] – [ Research ] – [ Teaching ] – [ Resources ] – [ Misc ]
character encoding recognition (iso…) and conversion : to utf8
document format detection (text raw,
HTML, pdf,
XML-TEI…) and conversion : to a tagged format (which accept multi-annotations)
language detection
normalisation/homogénéisation du texte (selon ressources et traitements souhaités) : selon le niveau de traitement (du caractère au mot, de la syntaxe à la sémantique)
casse des caractères (MAJUSCULE2minuscule),
caractères diacritiques (cédille, accent, …) en leur équivalent sans diacritique,
les signes de ponctuation en un même signe,
certains mots par leur catégorie grammaticale (déterminant, préposition), représentant de chaque chaîne lexicale
pré-traitement
word tokenization
sentence tokenisation (splitter)
analyse morpho-syntaxique
text classification
désambiguïsation lexicale ; construction de chaînes lexicales
reconnaissance d'entités nommés
désambiguïsation lexicale
résolution des anaphores
découpage en segments discursifs “thématiques”/fonctionnels
étiqueteur sémantico-rhétorique des énoncés ; des relations entre énoncés
recognition
le type
MIME et l'encodage (CHARSET) du fichier
file -i <file>
utrac -p <fichier>
conversion
UTRAC stands for Universal Text Recognizer and Converter. It is a command line tool and a library that recognize the encoding of an input file (ex: UTF-8,
ISO-8859-1, CP437…) and its end-of-line type (CR, LF, CRLF).
http://utrac.sourceforge.net/
utrac -f ISO-8859-1 -t UTF-8 fichier.iso.txt > fichier.utf.txt
Convertir un fichier vers l'UTF-8 et inversement
iconv -f iso-8859-1 -t utf-8 <in >out # vers UTF-8
iconv -f utf-8 -t iso-8859-1 <in >out # vers latin-1
recode, A successor to iconv but with a somewhat peculiar command-line syntax.
siconv, This is a stream-oriented counterpart to iconv, using libiconv, the same library that underlies iconv. It can handle larger amounts of data than iconv.
detection
le type
MIME et l'encodage (CHARSET) du fichier
file -i <file>
conversion
-
Portable Document Format (
PDF)
to text/ps – PDFtotext extracts plain text from
PDF files. It is part of the xpdf package, which also provides a
PDF file viewer and some other tools.
http://www.foolabs.com/xpdf/
-
-
-
-
-
Microsoft Word – Antiword is able to convert Word documents to plain text, to PostScript, to
PDF and to
XML/DocBook.
http://www.winfield.demon.nl/
Manipulation
Tokenization
SGML/
XML/
HTML one tag per line ; requirement perl,
HTML::TagReader
cat input/sample.xml | sgml2token.pl
References