Titre: RADIN (Récupération d'Analyses Diverses par allIgnement de traductioNs)

Encadrant(s): Nicolas.Hernandez(@univ-nantes.fr)

Thème: Traitement Automatique des Langues, Allignement de textes, Moteur de traduction automatique

Sujet:

L'enjeu de ce travail est de réussir à exploiter les outils d'analyse de textes qui existent dans certaines langues (comme l'anglais) et non dans d'autres (comme le français). Ces analyses peuvent aussi bien consister en un découpage en paragraphes thématiques des textes, qu'en une analyse en Sujet/Verbe/Objet des phrases… En général, le résultat des analyses est stockée sous forme d'un document XML. Travail à faire: La priorité sera donnée à la conception et au développement d'un outil de projection des analyses d'un texte vers autre “alligné” avec le premier. L'allignement consiste à dire que telle phrase ou tel mot d'un texte correspond à tel autre dans un texte traduit. Sachant qu'il existe déjà des outils de traduction, de traitement des langues et d'allignement gratuits et disponibles, la complexité du travail pourra varier en fonction de la motivation des étudiants à s'investir sur tel ou tel point (à discuter avec l'encadrant). Le sujet pourra ainsi se complexifier vers la conception d'une chaîne de traitement plus complète qui pourra comprendre les étapes suivantes :

L'application devra être paramétrable (sélection du moteur de traduction et de la technique d'allignement si plusieurs disponibles, ainsi que des éléments XML à alligner).

Par exemple à partir du texte :

"De plus en plus, avec l'essor d'Internet, le développement tend vers les technologies du Web" 

traduit par un moteur en

"More and more, with the rise of Internet, the development tends towards technologies of the Web"

et analysé par un analyseur syntaxique (fourni)

"<COMPLEMENT>More and more, with the rise of Internet,</COMPLEMENT> <SUBJECT>the development</SUBJECT> <VERB>tends</VERB> <OBJECT>towards technologies of the Web</OBJECT>"

l'outil produira

"<COMPLEMENT>De plus en plus, avec l'essor d'Internet,</COMPLEMENT> <SUBJECT>le développement</SUBJECT> <VERB>tend</VERB> <OBJECT>vers les technologies du Web</OBJECT>" 
 
teaching/projet/radin.txt · Last modified: 2010/05/13 12:35 (external edit)
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki