[ Home ] – [ Research ] – [ Teaching ] – [ Resources ] – [ Misc ]


Text Analysis Toolkit

Contenu de la boîte

  • character encoding recognition (iso…) and conversion : to utf8
  • document format detection (text raw, HTML, pdf, XML-TEI…) and conversion : to a tagged format (which accept multi-annotations)
    • internal anchor and external tag to describe features (name-value) of annotated units
  • language detection
  • normalisation/homogénéisation du texte (selon ressources et traitements souhaités) : selon le niveau de traitement (du caractère au mot, de la syntaxe à la sémantique)
    • casse des caractères (MAJUSCULE2minuscule),
    • caractères diacritiques (cédille, accent, …) en leur équivalent sans diacritique,
    • les signes de ponctuation en un même signe,
    • certains mots par leur catégorie grammaticale (déterminant, préposition), représentant de chaque chaîne lexicale
  • pré-traitement
    • les abréviations, les sigles, les acronymes (sigle prononcé comme un mot ordinaire) ;
    • les pronoms indéfinis
  • word tokenization
  • sentence tokenisation (splitter)
  • analyse morpho-syntaxique
    • lemmatizer
    • étiquetage catégorie grammaticale (tagger)
    • fonction syntaxique (chunker/parser)
  • text classification
  • désambiguïsation lexicale ; construction de chaînes lexicales
  • reconnaissance d'entités nommés
  • désambiguïsation lexicale
  • résolution des anaphores
  • découpage en segments discursifs “thématiques”/fonctionnels
  • étiqueteur sémantico-rhétorique des énoncés ; des relations entre énoncés

character encoding recognition (iso...) and conversion

recognition

  • le type MIME et l'encodage (CHARSET) du fichier
file -i <file> 
  • fournit l'encodage du fichier ; voir aussi utrac -P : liste les encodages candidats par ordre de pertinence
utrac -p <fichier>

conversion

  • UTRAC stands for Universal Text Recognizer and Converter. It is a command line tool and a library that recognize the encoding of an input file (ex: UTF-8, ISO-8859-1, CP437…) and its end-of-line type (CR, LF, CRLF). http://utrac.sourceforge.net/
utrac -f ISO-8859-1 -t UTF-8  fichier.iso.txt > fichier.utf.txt
  • iconv, The original GNU encoding conversion tool. It is a command-line tool based on libiconv.

Convertir un fichier vers l'UTF-8 et inversement

iconv -f iso-8859-1 -t utf-8 <in >out    # vers UTF-8
iconv -f utf-8 -t iso-8859-1 <in >out    # vers latin-1
  • recode, A successor to iconv but with a somewhat peculiar command-line syntax.
  • siconv, This is a stream-oriented counterpart to iconv, using libiconv, the same library that underlies iconv. It can handle larger amounts of data than iconv.

document format detection (text raw, HTML, pdf, XML-TEI...) and conversion

detection

  • le type MIME et l'encodage (CHARSET) du fichier
file -i <file> 

conversion

Manipulation

  • Tokenization SGML/XML/HTML one tag per line ; requirement perl, HTML::TagReader
cat input/sample.xml | sgml2token.pl 

References

 
misc/textanalysistoolkit.txt · Last modified: 2010/05/13 12:35 (external edit)
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki