[ Home ] – [ Research ] – [ Teaching ] – [ Misc ]
[ Intitulé | jury | mots clefs | sommaire | résumé | bibliographie | publications ]
Description et Détection Automatique de Structures de Textes
Nicolas Hernandez
Thèse de doctorat informatique
Soutenue le 14 décembre 2004 à l’université Paris-Sud au laboratoire LIMSI/CNRS
Sous la direction de
Autres membres du jury
Traitement Automatique des Langues, Informatique linguistique, Accès au contenu du document (textuel), Analyse et modélisation du document, Acquisition (et structuration) de connaissances à partir de corpus, Approches hybrides, Méthodes statistiques combinées à des connaissances linguistiques, visualisation et navigation intra-documentaire, Recherche d'information, Résumé automatique, Web sémantique
1. L'accès à l'information textuelle 2. Cohérence et modélisation du discours 3. Indices discursifs et mécanismes de structuration 4. Descripteurs thématiques 5. Méta-descripteurs 6. Détection automatique de structures de texte
« Le web est en train de devenir un répertoire universel de connaissances et de cultures humaines lequel autorise un partage sans précédent d'idées et d'information à une échelle encore jamais vue. »
L'accès au contenu d'un document électronique est un enjeu partagé par de nombreuses applications ayant trait au Traitement Automatique des Langues telles que la recherche d'information, le résumé automatique, la fouille de données, la visualisation et la navigation intra-documentaire, l'aide à la lecture, les systèmes de question/réponse, etc.
Toutes ces applications sont confrontées à des problématiques communes : comment repérer des unités d'information homogènes dans les textes ? Comment étiqueter sémantiquement ou rhétoriquement ces unités afin de lui permettre de juger de la pertinence d'un passage relativement à un besoin utilisateur ? Comment détecter les différents niveaux d'organisation du texte pour soutenir une navigation à différents niveaux de granularité, des rapprochements entre informations ou une mise en contexte d'une information ?
Notre travail se situe dans une perspective de web sémantique. Notre objectif est d'enrichir les documents pour fournir aux systèmes, voire directement à l'utilisateur, des informations de description et d'organisation du contenu des documents.
Le genre de texte que nous avons étudié est de type scientifique ou technique, dits expositifs. Nous avons travaillé sur le français et sur l'anglais en fonction des ressources disponibles.
Le mémoire se compose de six chapitres regroupés selon deux grandes parties : une étude bibliographique (les trois premiers chapitres), et des propositions et expérimentations (les trois chapitres suivants).
L'accès à l'information textuelle
Le premier chapitre pose la problématique de l'accès à l'information pour des tâches orientées vers de la navigation libre à l'intérieur d'un document (lecture, recherche d'information par parcours, etc.). Nous nous intéressons plus particulièrement à identifier l'information utile à un utilisateur pour un traitement efficace des documents textuels. Pour cela, nous analysons d'une part les types d'information que peuvent fournir un document textuel au format numérique. D'autre part, nous consultons les différents modèles cognitifs décrivant un utilisateur et ses interactions avec un document. Enfin nous observons quelques stratégies d'approche que met en place un utilisateur pour accéder au contenu d'un document en fonction de ses buts et de ses connaissances. Le chapitre se termine en décrivant les principales approches automatiques (notamment en résumé automatique) qui fournissent des analyses de contenu de documents textuels. Nous concluons en présentant nos recommandations quant à la conception d'un système d'accès à l'information textuelle.
Cohérence et modélisation du discours
Le deuxième chapitre rentre plus précisément dans la problématique de la modélisation du discours. Nous discutons la notion de cohérence d'un texte. Nous nous fondons à la fois sur des modèles psycho-linguistiques qui nous renseignent sur les processus de compréhension et de mémorisation d'un lecteur, ainsi que sur des modèles linguistiques qui nous informent sur les différentes structures existantes au sein d'un texte (intentionnelle, informationnelle, visuelle, etc.), ainsi que leurs propriétés et leurs contraintes structurelles. Notre discussion aborde les questions d'interaction et d'intégration de ces différents plans d'organisation. Nous concluant en faisant émerger les principes génériques à ces modèles.
Indices discursifs et mécanismes de structuration
Ce chapitre présente une approche des textes en termes des indices et des mécanismes qui rendent compte de leur structuration. Notre étude est orientée vers la spécification de procédés automatiques fondés sur ces connaissances afin de détecter la structure thématique de textes. Nous présentons une étude descriptive préliminaire sur un mécanisme encore peu étudié, le parallélisme lexico-syntaxico-sémantique. De manière complémentaire, nous présentons une approche de la structuration du discours en terme d'identification des informations sémantico-rhétoriques qu'il contient. Enfin, nous proposons un survol des approches du discours qui couvre aussi bien les techniques robustes à gros grain que les techniques de détection de phénomènes discursifs locaux.
Les chapitres suivant traitent tour à tour des aspects majeurs que nous avons retenu des documents (la description thématique, la méta-description et la structuration) et proposent des solutions et leurs implémentations afin de les appréhender.
Descripteurs thématiques
Dans le quatrième chapitre, nous exposons les différentes définitions de la notion de « thèmes » considérées dans les approches automatiques, et présentons en détails celles orientées vers l'identification des entités thématiques du discours. Nous rapportons la description de deux mécanismes d'identification de thèmes entités complémentaires : le premier fondé sur une technique robuste de résolution d'anaphores (Mitkov 98; Boguraev Al 97), SRA (Système de Résolution d'Anaphores)[10], et le deuxième fondé sur la construction de chaînes lexicales (Barzilay Al 97; Hirst Al 98), CCL (Construction de Chaînes Lexicales). Pour ces deux systèmes, nous montrons leur performance en évaluant manuellement leurs analyses sur un texte. SRA réalise des performances similaires aux systèmes existants. CCL montre en plus que la considération des variantes morpho-syntaxiques permet un rappel plus important des entités du discours.
Méta-descripteurs
Dans ce chapitre nous nous intéressons aux marques linguistiques indicatrices d'énoncés saillants, et descriptives du statut sémantique ou rhétorique des énoncés qui les portent (e.g. « Pour résoudre cela », « cet article présente », « par exemple », etc.).
Ces marques sont sujettes à des variations syntagmatiques et paradigmatiques qui rendent difficiles l'application de techniques traditionnelles d'extraction terminologique (Teufel Al 02; Saggion Al 02; Minel Al 01). Notre apport consiste en la proposition de mécanismes de sélection et de filtrage pour une extraction automatiques adaptée à ce type de marques, système M-Ex (``Méta-'' Extraction) [7;8;13]. L'extraction est envisagée dans un corpus mono-genre mono-domaine. Nous abordons les questions d'extraction sur corpus mono-genre multi-domaines, de portabilité à d'autres genres, ainsi que les problèmes de combinaison automatique de marques pour obtenir des patrons plus complexes. Diverses évaluations ont été menées. Une évaluation comparative montre que les marques que nous extrayons sont plus variées que celles qu'une extraction manuelle ou semi-automatique peut produire. Nous montrons d'autre part que notre critère de sélection sur la fréquence inter-documentaire offre un meilleur rappel et précision qu'une sélection sur une fréquence absolue traditionnelle.
L'article [5] constitue un effort de rassemblement des aspects descriptifs thématiques et sémantico-rhétoriques (à l'aide des méta-descripteurs) et ce dans une perspective de visualisation et de navigation intra-documentaire.
Détection automatique de structures de texte
Dans le dernier chapitre, nous présentons deux approches distinctes de l'analyse de la structure du discours. La première, développée au sein du projet RÉGAL (RÉsumé Guidé par les Attentes du Lecteur – projet Cognitique) [2;14], décrit un travail de structuration thématique du discours où l'enjeu a consisté à combiner une segmentation par cohésion lexicale de nature robuste et globale (Hearst 97) [9] avec des marques linguistiques fines et locales que sont les introducteurs de cadres (e.g. “En ce qui concerne X, En Corée, D'abord etc.”) (Charolles 97). Une étude en corpus nous permet de discuter certaines limites de cette approche [4]. La deuxième approche, DST (Détection de Structures de Texte), repose sur une modélisation plus fine du discours (Marcu 99; Choi 02) [3] (avec [6] en travail préliminaire). L'enjeu a consisté à repérer à l'aide d'un algorithme d'apprentissage les relations sémantico-rhétoriques de subordination et de coordination existantes entre les différentes unités informationnelles du discours (phrase). Trois types d'indices discursifs ont été considérés (parallélisme lexico-syntaxico-sémantique [12], suivi thématique et méta-descripteurs (dont des connecteurs)) ; leur repérage repose sur des heuristiques. Nous montrons que malgré cela, notre système se classe parmi les plus performants.
L'intérêt principal de cette thèse est qu'elle constitue une étude globale présentant différents aspects d'analyse d'un document textuel.
Thèse de doctorat
[1] Nicolas Hernandez, Description et Détection Automatique de Structures de Texte, Université Paris-Sud XI, 14 décembre 2004
Revues avec comité de lecture
[2] Javier Couto, Olivier Ferret, Brigitte Grau, Nicolas Hernandez, Agata Jackiewicz, Jean-Luc Minel, Sylvie Porhiel. REGAL, un système pour la visualisation sélective de documents. La présentation d'information sur mesure, Numero Special de RIA (Revue d'Intelligence Artificielle); Paris, C. et Colineau, N. (éditeurs invites). Vol 18 (4) 2004. pp.481-514. Septembre 2004
Conférences internationales avec actes et comité de lecture
[4] Denis Vigier, Nicolas Hernandez, Michel Charolles, Jean-Pierre Descles, «Text organization by combining fine-grained linguistic markers with global statistical measures », DOCUMENT DESIGN Conference, Tilburg University, The Netherlands, 22nd-24th January 2004
[5] Nicolas Hernandez et Brigitte Grau, “Combining topic and meta descriptors for text structure presentation”, International Conference on Web Intelligence (IEEE-WIC), Halifax, Canada, 13-17 October, 2003
[6] Nicolas Hernandez et Brigitte Grau, “What Is This Text About?”, ACM SIGDOC, San Francisco, USA, 12-15 October, 2003 [Copyright]
[7] Nicolas Hernandez et Brigitte Grau, “Automatic extraction of meta-descriptors for text description”, International Conference on Recent Advances In Natural Language Processing (RANLP), Borovets, Bulgaria, 10-12 September, 2003
[8] Nicolas Hernandez et Brigitte Grau, “Finer-grained text analysis for a more accurate text description”, Pacific Association for Computational LINGuistics (PACLING), Halifax, Canada, 22-25 August, 2003 [Copyright]
Conférences francophones avec actes et comité de lecture
[3] Nicolas Hernandez et Brigitte Grau, « Détection automatique de Structures Fines du Discours », TALN, 6-10 juin, Dourdan, 2005
[10] Nicolas Hernandez et Brigitte Grau, “Extraction et typage de termes significatifs pour la description de textes”, In Congrès du chapitre français de l'ISKO (International society for knowledge organization), Grenoble, 3 et 4 juillet 2003
[9] Nicolas Hernandez et Brigitte Grau, “Analyse Thématique du Discours : segmentation, structuration, description et représentation”, Colloque International sur le Document Electronique (CIDE), Hammamet, Tunisie, 20-23 octobre 2002
Ateliers et journées d'étude nationales avec comité de lecture
[11] Michael Zock, Nicolas Hernandez, Aurélien Max, « L'ordinateur à la rescoursse du rédacteur : comment reconnaître automatiquement des liens entre les idées afin de construire un plan ? »,ATALA, ENST Paris, 11 décembre 2004
[12] Nicolas Hernandez, « Un Indice de Structuration de Texte Combinant Finesse et Disponibilité au Niveau Global et Local », Semaine du Document Numérique, Journée d’ATALA, La Rochelle, France, 22 juin 2004
[13] Nicolas Hernandez et Brigitte Grau, “Acquisition de méta-descripteurs pour structurer des documents”, Acquisition, apprentissage et exploitation de connaissances sémantiques pour l'accès au contenu textuel, Plateforme AFIA, Laval, 1-4 juillet 2003
[14] Nicolas Hernandez, “Résultats du projet REGAL”, Journée d'étude sur “le résumé automatique de texte : solutions et perspectives”, ATALA, ENST Paris, 14 déc. 2002
Conférences sans acte ou (comité de lecture) / Rapports internes
[15] Nicolas Hernandez, “Structuration Thématique du Discours : application à la navigation intra-texte”, séminaire du groupe LIR, mai 2002
[16] Nicolas Hernandez, “D’un texte non-formaté à une présentation interactive et structurée, sensible à l’utilisateur”, Journées scientifiques du département Communication Homme-Machine du LIMSI, St-Malo, octobre 2001
[17] Nicolas Hernandez, “Variation terminologique de type anaphorique”, Rapport de stage de DEA, Université Paris-Sud, septembre 2000