research:plateforme:uima:081010_lipn_rencontre_uima [Nicolas Hernandez]

UIMA, la solution d'infrastructure logicielle la plus prometteuse actuellement en le TAL ?

L'analyse automatique de la langue consiste généralement à mélanger au sein d'une même chaîne de traitements différents modèles, ressources et algorithmes conduisant à d'importants problèmes d'interopérabilité et d'échanges de données.

Parmi les solutions possibles à ces problèmes, le framework Apache UIMA (Unstructured Information Management Architecture) est l'un des plus prometteurs. Son objectif est de permettre l'utilisation et la mise en place d'applications visant l'analyse de contenus multimodaux non structurés (tels que le texte, la vidéo ou l'audio) en dissociant clairement les considérations de l'utilisateur de chaînes de traitement, du développeur de composants métiers et de l'architecte logicielle de la plateforme.

Dans notre présentation, nous introduirons les concepts du “méta-modèle” de donnée UIMA pour le traitement de données non-structurés. Nous traiterons ensuite des questions de déploiement, d'interopérabilité, de persistence possibles avec UIMA ainsi que des composants et outils TAL disponibles actuellement. Nous concluerons par un rapide survol des travaux entrepris au LINA autour d'UIMA.

Cette présentation s'accompagnera de

démonstrations possibles d'outils et de l'exécution de chaînes de traitement
présentation de la proposition du LINA de Type System pour la représentation de l'information morpho-syntaxique,