00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Qu’est-ce que le traitement automatique des langues ?
jeudi 29 juin 2006


Entretien avec Marcel Cori, professeur de TAL (traitement automatique des langues) à l’Université Paris X et chercheur au Laboratoire Modèles, Dynamiques et Corpus.

Le Traitements Automatique des Langues (TAL) est une discipline qui associe étroitement linguistes et informaticiens. Il repose sur la linguistique, les formalismes (représentation de l’information et des connaissances dans des formats interprétables par des machines) et l’informatique.

Le TAL a pour objectif de développer des logiciels ou des programmes informatiques capables de traiter de façon automatique des données linguistiques.

Pour traiter automatiquement ces données, il faut d’abord expliciter les règles de la langue puis les représenter dans des formalismes opératoires et calculables et enfin les implémenter à l’aide de programmes informatiques.

Les principaux domaines du TAL sont :
• le traitement de la parole ;
• la traduction automatique ;
• la compréhension automatique des textes ;
• la génération automatique de textes ;
• la gestion électronique de l’information et des documents existants (GEIDE).


-  Comment définir le Traitement Automatique des Langues (TAL) ?

Le TAL est l’ensemble des méthodes et des programmes qui permettent un traitement par l’ordinateur des données langagières, mais quand ce traitement tient compte des spécificités du langage humain. Il y a des traitements de données langagières (écritures sur fichiers, sauvegardes ou autres) qui ne font pas partie du traitement automatique des langues.



-  Quels sont les acteurs du TAL ?

Je séparerais les acteurs en deux catégories bien distinctes. D’un côté, les chercheurs qui réfléchissent aux méthodes, et de l’autre côté, les industriels qui réalisent les produits.



-  Pour quel public ?

Si on a deux sortes d’acteurs, il y a deux sortes de publics différents. Les chercheurs s’adressent à leur propre communauté de chercheurs, à leurs étudiants et ils s’adressent aussi d’une certaine façon aux industriels. Quant aux industriels, ils visent des publics de consommateurs, qui sont soit directement le consommateur individuel, soit d’autres entreprises qui vont se servir des technologies mises en œuvre par les industriels du TAL.



-  Comment le dialogue s’opère-t-il entre les linguistes et les informaticiens ?

Je ne sais pas si, dans le domaine de la recherche, on peut séparer deux catégories bien nettes entre linguistes et informaticiens, parce qu’il n’y a pas dans ce domaine des purs linguistes et des purs informaticiens. Il y a des gens qui ont une formation initiale plutôt en informatique et qui se sont formés à la linguistique. Par ailleurs il y a d’autres personnes, dont la formation initiale est plutôt en linguistique ou en langues, qui se sont formés à l’informatique.

Je pense qu’il se produit un amalgame, que gênent un peu les structures universitaires dans le domaine de la recherche (on est obligé de se rattacher soit aux Sciences, soit aux Lettres et Sciences Humaines). En fait, il n’y a pas deux communautés vraiment distinctes chez les chercheurs. Dans les entreprises, que je connais moins, je pense qu’il y a une division du travail qui est peut-être plus stricte, mais il y a plus d’informaticiens que de linguistes. Et les linguistes ont du mal à trouver des emplois dans les entreprises.



-  Y a-t-il un domaine qui prédomine sur l’autre ?

Je ne pense pas dans le domaine de la recherche. Dans les entreprises, dans la mesure où il s’agit de réaliser des produits qui tournent, les informaticiens ont un rôle prépondérant.



-  Quelles sont les techniques mises en œuvre ?

Les techniques sont de deux sortes : D’un côté les techniques linguistiques ou à base de linguistique. Elles sont plutôt le fait des chercheurs et elles consistent à avoir une représentation, une modélisation des langues et des données langagières. Les techniques linguistiques permettent de développer d’ailleurs une recherche linguistique pure de modélisation des données langagières. C’est une recherche en linguistique et une recherche en informatique, puisqu’il s’agit de définir des modèles et des algorithmes sur ces modèles de données langagières. D’un autre côté, il y a des techniques plus pragmatiques, parmi lesquelles les techniques dominantes sont des techniques à base de statistiques et de probabilités avec des apprentissages sur des corpus de données. À partir de ces apprentissages sur lesquels on fait des calculs de fréquence, on en déduit des probabilités qui permettent de donner des résultats avec un certain degré de fiabilité.



-  Quels sont les freins technologiques ?

Je ne sais pas si on peut appeler cela un frein technologique mais la linguistique est une science humaine. Il s’agit de modéliser le comportement humain. Il y a des freins épistémologiques plutôt que technologiques à la modélisation du comportement humain, parce que les êtres humains ont une liberté de se comporter. D’une certaine façon, on peut dire que le langage n’est pas réductible à une machine et qu’une machine n’est pas susceptible de résoudre complètement des problèmes de modélisation du comportement humain et en particulier du comportement langagier.



-  Quels sont les grands domaines d’application du TAL ?

La traduction automatique est le premier domaine à l’origine du TAL et qui se réalise plutôt en termes d’aide à la traduction. Il y aussi la reconnaissance et la synthèse de la parole, tout ce qui est correction, correcteurs orthographiques et correcteurs dits grammaticaux et ensuite, tout ce qui touche à l’extraction d’informations, le filtrage d’informations, la veille technologique. On peut mettre dans la même catégorie le résumé automatique : c’est en gros un traitement de l’information qui est lui-même de l’information textuelle ou de l’information sous forme langagière.



-  Quelle est la part de l’intervention humaine dans les systèmes semi-automatiques ?

Il m’est difficile de répondre parce que je suis du côté de la recherche. Je définis donc plutôt les méthodes et je réfléchis aux fondements linguistiques et informatiques des méthodes, alors que la question que vous posez porte directement sur les systèmes existants. Je ne connais pas la proportion de l’intervention humaine dans les systèmes existants.



-  L’enjeu industriel est important. Cette pression ne va-t-elle pas vers une simplification des logiciels ?

Je pense que c’est un degré d’exigence qui n’est pas du même ordre. Je ne sais pas si on va vers une simplification des logiciels : encore une fois ce n’est pas vraiment mon domaine de compétences, mais on peut aller justement au contraire vers une complexification des logiciels pour avoir des logiciels meilleurs que les autres, étant donné la concurrence. Le problème est qu’on veut aussi des logiciels qui donnent des résultats ; cela conduit à une certaine simplification puisqu’il faut sortir ces logiciels dans des temps déterminés.



-  Et le dialogue entre les industriels et les chercheurs est-il possible ?

Il est possible puisque les industriels ont intérêt à savoir ce qu’il se fait en recherche. Il y a un dialogue certain.



-  La qualité des nouveaux outils, en reconnaissance vocale par exemple, est souvent en deçà des attentes du public. Comment gérez-vous cette déception ?

En tant que chercheur, je suis heureux de cette déception parce qu’une de mes missions, c’est de mettre en évidence la complexité des langues naturelles, la complexité du langage humain et la difficulté de modéliser cette complexité. Je suis un peu dans une situation contradictoire parce que, en tant que chercheur en traitement automatique des langues, je vise à construire des systèmes qui modélisent le comportement humain, et en même temps à mettre en évidence les limites des systèmes qu’on construit.

Propos recueillis par Marie-Noëlle Rohart
Pour le laboratoire CRIS - Université Paris X
Printemps 2004


En savoir plus :

-  Bibliographie

• Abeille A., Les nouvelles syntaxes, Armand Colin, Paris, 1993.
• Allen J., Natural Language Understanding, Benjamins/Cummings, 1998.
• Dutoit R., Bourlard H. et al., Traitement de la parole, Presses universitaires romandes de Lausanne, 2000.
• Pierrel J.-M., Ingénierie des langues, Hermès, Paris, 2000.
• Mitkov R., The Oxford Handbook of Computational Linguistics, Oxford Univ. Press, 2002.
• Delsarte Philippe, Thayse André, Logique pour le traitement de la langue naturelle, Hemès, Paris, 2001.
• Habert B. et alii, Les linguistiques de corpus, A. Colin/Masson Paris, 1997.

-  Liens internet

Page de Marcel Cori
Association pour le Traitement Automatique des Langues
Association des Professionnels des Industries de la Langue
Agence pour l’évaluation et la distribution des ressources linguistiques