00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  AGILE - WATSON
lundi 12 décembre 2005


Web : Analyse des Textes, Sélection, et Outils Nouveaux

Thème de l'action : Ressources linguistiques

Contact
  José Coch, Lingway, jose.coch@lingway.com

Lingway,
18, rue Pasteur
94278 Le Kremlin Bicêtre cedex
Tél. : 01 58 46 12 42
Fax. : 01 58 46 12 41
 


Résumé
Watson a développé, adapté, intégré et/ou généralisé des outils logiciels linguistiques notamment de structuration logique de pages Web, de reconnaissance d'entités nommées, de marquage textuel, des taggeurs, des chunkeurs, des extracteurs, des catégoriseurs, des résolveurs de co-référence et des résumeurs, en mettant l'accent sur la robustesse et la performance dans le traitement de gros volumes de données. Il est possible d'utiliser ces outils soit de manière isolée, soit intégrés. Une attention particulière est portée à leur intégration dans une plate-forme de Web mining.
Presque un an après la fin officielle du projet, les conséquences concrètes du projet sont les suivantes :
  • le projet a permis à LINGWAY d'intégrer un certain nombre de ces nouvelles fonctions dans le produit Lingway KM,
  • Lingway et la BnF travaillent encore ensemble pour l'implémentation opérationnelle d'un système d'exploration de sites Web basé sur Watson et Lingway KM,
  • le logiciel Lingway KM est disponible à prix coûtant, à des fins d'enseignement et de recherche, par les Universités qui en font la demande auprès de Lingway,
  • la politique de dissémination des résultats menée par Lingway, s'est concrétisée par la mise en place de partenariats technologiques avec plusieurs sociétés françaises (Ever, Exalead, Questel-Orbit, Systran, Qwam Systems) leur donnant ainsi accès à certains résultats du projet.


Résultats
Description des résultats atteints

Les travaux menés par les partenaires, en excellente coopération, ont permis d'obtenir les résultats suivants.

Modules intégrés dans Lingway KM
  • Structuration logique et segmentation en phrases
  • Production d'une version XML du document d'entrée tenant compte de la structuration reconnue (titres, sous-titres, sections, paragraphes et phrases).
  • Reconnaissance d'entités nommées
  • Reconnaissance et marquage des personnes, organisations, lieux, et dates.
  • Segmentation en tokens
  • Segmentation des phrases en une suite de chaînes de caractères, des "tokens".
  • Analyse syntaxique de surface
  • Reconnaissance des composés 'non figés', c'est-à-dire admettant des variations morphologiques, syntaxiques, régulières. Analyse syntaxique de surface robuste et efficace.
  • Catégoriseur (en cours d'intégration)
  • Etant donné un plan de classement, classification automatique de tout nouveau document (page Web, site Web) par rapport à ce plan.

Modules réalisés, mais non intégrés dans Lingway KM
  • Analyse et désambiguïsation morphologique (disponible auprès du laboratoire TALANA)
  • Les formes sont analysées et associées à un ou plusieurs mots, et donc à une ou plusieurs catégories morpho-syntaxiques. Le résultat est un automate.
  • Résolution de co-référence (disponible auprès du laboratoire TALANA)
  • Mise en relation des unités co-référentes et résolution des liens anaphoriques.
  • Marquage textuel
  • Reconnaissance, effectuée par le biais de marqueurs linguistiques ou para-linguistiques, de séquences qui dénotent un certain type d'information (conclusions, annonces thématiques, souligné auteur, etc., mais également présentation et objectifs d'un site Web, etc.).
  • Détection de faits et évènements ("Wrapping")
  • Ce module permet de marquer des informations complexes (événements, faits, citations, opinions, etc.) contenant en général plusieurs entités nommées, pour les organiser ensuite sous forme de tables ou son équivalent XML.
  • Module de résumé de sites Web
  • Le but du module de résumé est de profiter des modules précédents pour proposer des résumés textuels d'un texte, page ou site Web.


Applications

Par ailleurs, des applications ont été réalisées à partir des modules précédents autour de la problématique de l'archivage du Web français :
  • Application : caractérisation de sites Web

  • Le marquage relativement fin des phrases des sites Web permet de répondre à la problématique de la caractérisation et exploration des sites impliquée par les activités d'archivage du Web.
    En effet le Web étant très large et très mouvant, se pose le problème de la sélection des sites à archiver, et la fréquence de cet archivage selon l'importance de chaque site.
    Pour aider à estimer l'importance de chaque site, Watson propose un filtrage automatique puis d'une station interactive dans laquelle sont présents un Résumé du site puis une fiche avec les éléments les plus importants relevés.
  • Application : exploration du contenu des sites Web

  • Une expérimentation a été faite dans le cadre de l'archivage par la BNF des sites des candidats aux élections présidentielles de 2002.
    Le typage de phrases d'opinion politique et de citation a permis l'extraction d'ensembles de phrases particulièrement pertinentes.
    Ces phrases sont classées dans les types : "Pour" (en faveur d'une idée ou d'une personne), "Contre" (contraire du précédent), "Citation" (toute citation indépendamment du contenu), "Projet" (énoncé de choses à réaliser), "Programme" (moins concret que le précédent, mention d'un programme).


Publications
  • Coch, J. ; Masanès, J. "Language engineering techniques for web archiving." In 4th International Web Archiving Workshop (IWAW'04). 2004. Bath (UK).
    Télécharger la version en ligne
  • Lupovici, C. - "Le traitement automatique du Web pour une bibliothèque". Contribution à l'Atelier BNP Paribas sur "le Web sémantique, mythe ou réalité?". Octobre 2004.
    Télécharger la version en ligne
  • Nasr, A.; Volanschi, A. "Couplage d'un analyseur morpho-syntaxique et d'un analyseur partiel représentés sous la forme d'automates finis pondérés". TALN 2004, Fès, Maroc, avril 2004.
    Télécharger la version en ligne


Partenaires du projet
  Société Lingway
CNRS - Laboratoire LATTICE-Talana
CNRS - Laboratoire LaLICC
Bibliothèque Nationale de France
 
Responsable du projet
  José Coch
Lingway
33-35, rue Ledru-Rollin
94200 Ivry-sur-Seine
Tél. 01 56 20 28 35
Fax. 01 56 20 28 31
jose.coch@lingway.com
 

Dates du projet
Date de début : 28 novembre 2002
Date de fin : 28 novembre 2004