00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  ATONANT
vendredi 8 avril 2005


Enrichissement semi-automatique d'ontologies

Fiche du 8 avril 2005



Thème de l'action
Ressources linguistiques et logicielles
Début du projet
1er septembre 2003
Durée du projet
27 mois
 
Résumé
Les entreprises cherchent à maintenir leur avance technique et leurs capacités d'innovation par une activité de veille d'une part, de gestion des connaissances au travers de la mémoire d'entreprise et des savoirs-faires internes d'autre part. Avec la mise sous forme électronique de la documentation interne et l'accès immédiat et continu, via Internet, à de nouveaux documents externes, elles doivent mieux gérer la masse d'information pour les mettre à disposition de manière intelligente auprès des utilisateurs. Dans ce cadre, des connaissances structurées sur le domaine de spécialité de l'entreprise sont indispensables : organisées en ontologies avec une composante terminologique, elles permettent de guider efficacement la sélection de documents, leur indexation et annotation en fonction du contenu, leur classification en fonction des profils et besoins des utilisateurs. Le projet ATONANT rassemble des chercheurs informaticiens (ingénierie des connaissances, traitement automatique des langues et intelligence artificielle) et linguistes (spécialisés dans la linguistique de corpus), ainsi que des utilisateurs de centres hospitaliers et de grands groupes. Les applications cibles sont des outils d'analyse, d'indexation, de recherche et à terme de traduction de textes techniques ou scientifiques. Les domaines d'activité typiques sont la veille économique & technologique sur le Web, la mémoire d'entreprise ou d'organisme de recherche, la gestion électronique d'information médicale, la détection d'activités illégales et de manière plus générale, la gestion électronique de documents techniques ou scientifiques.

Objectifs
L'objectif du projet ATONANT est de prototyper des outils d'aide à l'enrichissement semi-automatique d'ontologies, qui pourraient être à terme, intégrer au sein d'une plate-forme modulaire un ensemble de systèmes d'extraction et de fouille de textes associé à des fonction d'exploration de ces données lexicales puis de modélisation et de structuration conceptuelle. Les outils produisent des données sous des formes standardisées et facilement exportables dans différents systèmes d'information. Les outils prototypés sont les suivants :
  • Un outil de collecte et de formatage de données,
  • Un outil d'aide à la recherche d'information sur le Web,
  • Un éditeur d'ontologie terminologique,
  • Un outil de production de hiérarchie de termes,
  • Un outil de création de hiérarchie spécialisation/généralisation.

Mise en œuvre et état de l'art
Le projet s'appuie sur un certain nombre de travaux, outils et méthodes existants qui ont été réalisés par les partenaires du projet. Les partenaires du projet bénéficient à la fois d'une bonne maîtrise des travaux théoriques des domaines des ontologies et de la modélisation de la connaissance, et de plusieurs expériences acquises au cours de projets avec des entreprises qui ont permis d'utiliser ces logiciels pour construire des ressources ontologiques à échelle réelle.
  • TERMINAE, un environnement de construction d'ontologie (LIPN)
  • Un système de structuration du lexique guidé par la détermination automatique du contexte thématique réalisé dans le cadre d'une thèse soutenue au LIMSI (CEA)
  • Des outils et une plate-forme d'intégration (analyse morpho-systaxique multi-lingue, extraction d'entités nommées, indexation de documents sur de grands corpus, interface utilisateur de paramétrage, gestion des droits) mis en oeuvre dans le cadre de système opérationnels (filtrage, surveillance, veille technologique, protection de la propriété industrielle) (CEA)
  • La méthode OntoSpec qui consiste à introduire une ontologie conceptuelle spécifiée dans une langue naturelle contrôlée et fortement structurée (LARIA)
  • Des méthodes d'apprentissage basées sur les réseaux de neurones et les réseaux bayésiens (INSA et LIP6)
Les travaux en cours concernent la mise au point des outils cités à la section Objectifs.
Organisation
L'échéancier et les fournitures du projet sont indiqués dans le tableau ci-dessous :

Intitulé de la fourniture Echéance Responsable
F1.1.1 - Plan de management & qualité 30/09/04 EADS
F2.1.1 - Rapport d'expression du besoin 30/06/04 PSI
F2.2.1 - Corpus & ressources ontologiques V1 30/06/04 PSI
F2.2.2 - Corpus & ressources ontologiques V2 31/10/04 LaRIA
F2.3.1 - Rapport d'expérimentation 30/11/05 PSI
F3.1.1 Description de la méthodologie de travail 31/10/04 INSA
F3.2.1 - Plate-forme ontologique V1 31/10/04 LIPN
F3.2.2 - Plate-forme ontologique V2 30/06/05 LaRIA
F3.3.1 - Spécifications du module d'enrichissement ontologique 31/07/05 INSA
F4.1.1 - Outil de collecte et de normalisation documentaire 30/06/04 EADS
F4.1.2 - Outil d'aide à la recherche d'information sur le Web 31/12/04 INSA
F4.2.1 - Outil de production de hiérarchie de termes 31/07/05 CEA
F4.2.2 - Outil de création de hiérarchie spécialisation/généralisation 31/07/05 LIP6
F4.3.1 - Rapport d'évaluation 31/10/05 LIP6

Le planning du projet est disponible en ligne.

Retombées du projet
Ce projet vise à produire l'ébauche d'une plate-forme logicielle multi-composant, allant de la veille ciblée à l'analyse de contenu guidée par une ontologique métier évolutive. A l'issue du projet, le prototype démontrera l'intérêt des technologies appliquées. Les différents composants qui constitueront ce prototype pourront ensuite être réutilisés au travers des exemples suivants d'application :
  • En tant que progiciel générique pour la construction et l'enrichissement d'ontologies métiers, sur Internet, dans les réseaux d'entreprise ou les réseaux de professionnels.
  • En tant que composant de haute technologie pour la construction de systèmes d'information clé en main et de réseaux à valeur ajoutée (domaines de la santé, de la logistique, services administratifs pour le citoyen, de la détection d'activités illégales, de la veille économique et technique, et tout domaine où la définition de normes est indispensable tel les secteurs des travaux publiques et de la sécurité).
  • En tant que technologie de base pour la construction d'une offre de services sur le Web.

A l'issue du projet ATONANT, l'industrialisation et la commercialisation en tant que produit logiciel des outils prototypés peut être envisagée. En ce qui concerne le marché potentiel des systèmes et des services, quelques secteurs d'intérêts sont identifiés :
  • Le secteur de la veille stratégique au bénéfice des PME et des grands groupes, avec la vente d'outils, d'applications sectorielles clés en main, ou encore la vente de services.
  • Le secteur de la sécurité nationale, où la recherche et la structuration de la connaissance sont primordiales, passant par la corrélation d'informations proches découvertes dans les documents, tenant compte de terminologies variables.


Etat d'avancement

Le projet s'est terminé le 30 novembre 2005. La revue finale du projet aura lieu le 10 janvier 2006. Toutes les fournitures listées dans l'échéancier ci-dessus ont été produites. De même, tous les outils cités en 2.1 ont été prototypés.

Publications liées au projet

[1] S.Szulman et B. Biébow, « Owl et Terminae », Conférence Ingénierie des Connaissances 2004, Lyon, 4-6 mai 2004.

[2] S. BEN KHEDIJA. Intégration de la méthode OntoSpec dans TERMINAE. Rapport de stage de DEA, LaRIA, juillet 2004.

[3] S. BRUAUX & G. KASSEL. OntoKADS: a core ontology to develop expertise models of the CommonKADS methodology. In Proceedings of the EKAW 2004 Workshop on Core Ontologies in Ontology Engineering, October 2004, Whittlebury Hall (Northamptonshire, UK), p. 64-75.



Partenaires du projet
  EADS Defence & Security
Site de Val-Reuil (27), équipe SDRT/IPDF
http://www.eads.net

CEA
Site de Fontenay-aux-Roses (92), équipe DTSI/SRSI/LIST
http://www.cea.fr

Laboratoire Perception Systèmes Information (PSI)
Site du Madrillet à St Etienne-du-Rouvray (76)
http://psiserver.insa-rouen.fr/psi/

Laboratoire d'Informatique de Paris-Nord (LIPN)
Villetaneuse (93)
http://www-lipn.univ-paris13.fr/

Laboratoire de Recherche en Informatique d'Amiens (LaRIA)
Amiens (80)
http://www.laria.u-picardie.fr/

Laboratoire d'Informatique de Paris 6 (LIP6)
Paris XVe (75)
http://www.lip6.fr/


 
Contact
  Sylvie BRUNESSAUX
EADS Defence and Security Systems SA
Defense and Communications Systems
System Design Center / Research & Technology
Parc d'Affaires des Portes - BP 613
27106 Val-de-Reuil Cedex - France
téléphone : +33 2 32 63 40 56 - fax: +33 2 32 63 42 00
mél: sylvie.brunessaux@eads.com