*ALEXIA : Un environnement d'aide à l'apprentissage lexical du françaislangue seconde* * 1. Introduction * 2. ALEXIA : PRéSENTATION o 2.1. Scénario type d'utilisation en compréhension o 2.2. Le scénario type d'utilisation en production * 3. Corpus et Données lexicales o Corpus o Extraction des mots et expressions du domaine o Études linguistiques * 4. Analyse * 5. Stratégies cognitives et apprentissage o Expérimentation o Lexique personnel et activités lexicales * Bibliographie ------------------------------------------------------------------------ ALEXIA : Un environnement d'aide à l'apprentissage lexical du français langue seconde *Thierry CHANIER* /LRL - Université Clermont 2 34 avenue Carnot F63037 Clermont-Ferrand/ *Christophe FOUQUERÉ, Fabrice ISSAC* /LIPN - URA 1507, Université Paris-Nord Av J.B. Clément F93430 Villetaneuse/ ------------------------------------------------------------------------ RESUME : L'acquisition lexicale, et plus précisémentl'acquisition des expressions lexicales, occupe une place importante enapprentissage de langue seconde. Nous présentons, dans cet article, unsystème d'apprentissage appelé ALEXIA. Celui-ci propose une aidelexicale personnalisée en production et en compréhension. Ilconsidère à la fois les stratégies d'accès lexicauxcouramment employées pour modéliser la base de donnéeslexicales, et celles employées par l'utilisateur. Le systèmepropose également des activités lexicales pour l'aide à larétention basées sur le lexique étudié parl'apprenant lors de ses travaux de compréhension ou/et de production. Ence qui concerne notre base de données lexicales, de nombreusesinformations linguistiques sont disponibles. De plus, une aide à lacorrection des erreurs lexicales en production est accessible qui permetà la fois d'indiquer qu'un mot est mal employé, et de proposerexpressions ou collocations mieux adaptées à ce qui estsupposé être produit. ------------------------------------------------------------------------ 1. Introduction L'acquisition lexicale, et plus précisément l'acquisition desexpressions lexicales, occupe une place importante en apprentissage de langueseconde (L2). En effet, le fait qu'un apprenant ne maîtrise pas un niveaude vocabulaire suffisant est considéré comme un facteur fortementpréjudiciable à la communication. Les études enlinguistique théorique et appliquée, ainsi qu'enpsycholinguistique montrent que le mot est une unité linguistiquecomplexe porteuse de connaissances morphologiques, syntaxiques,sémantiques et même pragmatiques. De plus, le choix d'un mot dans la production d'un énoncépeut imposer une structure sur tout l'énoncé. Connaître unmot c'est ainsi tout à la fois savoir dans quel contexte il estutilisé à l'oral ou à l'écrit (fréquenced'utilisation, collocations associées), appréhender leslimitations de son usage selon les variations de fonctions ou de situations,connaître ses comportements morphologiques, syntaxiques etsémantiques, et enfin pouvoir l'intégrer dans son propre lexiquemental et établir les relations nécessaires avec les autres motsdans le réseau associé [Richards 85]. Rappelons que le taux de l'acquisition du vocabulaire en langue seconde estétonnamment faible. Certains chercheurs estiment ainsi que l'acquisitionde 2000 mots en 5 ans est au-delà de la capacité de beaucoupd'apprenants[1] . L'apprentissage d'une L2 estdonc délicate à plus d'un titre : temps d'apprentissage court,non intensif, rendement faible, donc mauvaise utilisation des stratégiesadoptées en langue native. Il y a donc un défi majeur àrelever pour le domaine de l'apprentissage de langues assisté parordinateur (ALAO). Un certain nombre de systèmes d'apprentissage se sont orientésvers la mise à disposition des apprenants de ressources lexicales"traditionnelles" (dictionnaire électronique organiséalphabétiquement, concordanceurs et bases de textes plus ou moinshomogènes) autour desquelles ils construisent des exercices lexicaux etsurtout des activités où l'apprenant peut collecter et organiserses informations lexicales. Pour notre part, compte tenu de ce que l'onconnaît de l'organisation du lexique mental [Aitchison 87] et ladéfinition que l'on donne de l'acquisition d'un mot (cf. ci-dessus), ilnous est apparu important d'organiser ces activités lexicales autourd'une base de données "active" contenant toutes les informationsnécessaires (morphologiques, syntaxiques, sémantiques etpragmatiques). Par "active", nous entendons le fait que le système saitmettre en oeuvre ses connaissances pour : - en aide à la compréhension, offrir des accès multiplesà l'apprenant, visualiser sous formes de réseaux multiples lesassociations entre mots, - en aide à la production , diagnostiquer les énoncés del'apprenant de façon à savoir non seulement corriger certaineserreurs, mais également offrir des paraphrases. Enfin, nous avons également décidé de ne pas restreindrele lexique aux mots simples, mais d'y inclure également les collocationset expressions semi-figées (dont les expressions idiomatiques). Cesexpressions sont très peu considérées en ALAO. Pourtantces unités linguistiques sont numériquement beaucoup plusimportantes dans les dictionnaires électroniques de langues telles quele français ou l'anglais que les entrées lexicales simples[2]. Elles sont d'un usage fréquent par lesnatifs, mais sont difficiles à acquérir par les apprenantsnon-natifs. Aux yeux des didacticiens en L2, les justifications pour lesenseigner sont multiples [Nattinger 88] : ces expressions fournissent unmatériel de base pour l'analyse et la segmentation du discours, leurmaîtrise doit permettre à l'apprenant de ne pas violer certainesrestrictions lexicales, lui éviter de commettre des erreurs de registredans la production de son discours, elles peuvent faciliter ses productionsécrites ou orales puisqu'elles lui évitent de porter uneattention soutenue à chaque mot pris individuellement, enfin ellesautorisent l'apprenant à porter son attention sur des structures pluslarges du discours et sur les aspects sociaux de l'interaction. Un certain nombre d'environnements d'aide à l'apprentissage lexicalcherchent à remédier à cet état de fait. L'aideapportée est toutefois orientée production, ou orientéecompréhension, mais pas aux deux [Fontana & al 93, Goodfellow 93].Cette aide sera parfois très "imposée" : la démarche del'apprenant n'y est pas prise en compte. Si les stratégies cognitivesd'accès et de rétention de vocabulaire sontconsidérées, elles le seront lors de la construction de la basede données du système et non pas lors de son utilisation [Agirre& al 90]. Notre système adopte une approche différente. En ce qui concernel'utilisateur, il propose une aide lexicale personnalisée en productionet en compréhension. Il considère à la fois lesstratégies d'accès lexicaux couramment employées pourmodéliser la base de données lexicales, et cellesemployées par l'utilisateur. Celui-ci a la possibilité deconstruire une base de données lexicales suivant ses proprescritères. Le système propose également desactivités lexicales pour l'aide à la rétentionbasées sur le lexique étudié par l'apprenant lors de sestravaux de compréhension ou/et de production. En ce qui concerne notrebase de données lexicales, de nombreuses informations linguistiques sontdisponibles. De plus, une aide à la correction des erreurs lexicales enproduction est accessible qui permet à la fois d'indiquer qu'un mot estmal employé, et de proposer expressions ou collocations mieuxadaptées à ce qui est supposé être produit. Enfin,deux types de représentations lexicales sont adoptées permettantà l'utilisateur de visualiser les renseignements demandés :réseau et arbre. La modélisation des données lexicales etdes accès lexicaux devient dès lors le problème essentield'un tel environnement. La première partie présente succinctement notre systèmeALEXIA. Les deuxième, troisième et quatrième partiesexposent le formalisme des données accessibles et les traitementsafférents. La dernière partie expose les différentsaspects de l'accès et de l'apprentissage lexical dans notresystème et conclue sur les perspectives offertes par une telle approche. 2. ALEXIA : PRéSENTATION Ce système s'adresse à des apprenants avancés enfrançais langue seconde. Il a pour but d'aider celui-ci, demanière personnalisée, à la mémorisation et lastructuration de l'information lexicale, et plus spécifiquement en cequi concerne les expressions et collocations. Le système ALEXIA est composé de différents modules (cf.figure 1) : accès lexicaux, activités lexicales, modèle del'apprenant, et suppose deux bases de données : un corpus de textes etun réseau lexical. Nous allons décrire ce système autravers des scénarios types d'utilisation par l'apprenant. Notons d'oreset déjà que l'ensemble des tâches effectuées parl'apprenant sont enregistrées dans le module "modèle del'apprenant". Celui-ci regroupe à la fois les stratégiesemployées au niveau des accès lexicaux et la création dela base lexicale personnelle. Les données de ce module sontréutilisées afin de proposer à l'apprenant des/activités lexicales/ dont le but est de l'aider à retenirles nouveaux éléments lexicaux rencontrés etétudiés. La base lexicale est décrite plus amplement ensection 4. Celle-ci est implémentée sous forme de réseau.En effet, les apprenants effectuent fréquemment des associations entremots selon différents critères (même catégoriesyntaxique, même champ sémantique, etc.) améliorant ainsisensiblement la rétention des informations ; remarquons que nousappliquons en cela les théories actuelles concernant l'organisation dulexique mental [Aitchison 87, Singleton & Little 91]. /Architecturesimplifiée d'ALEXIA/ // // //Figure 1 Deux scénarios d'utilisation sont proposés àl'utilisateur. Le scénario de compréhension permet àl'utilisateur de consolider son vocabulaire, le scénario en productionpermet de le valider. 2.1. Scénario type d'utilisation en compréhension La `compréhension' correspond à deux tâchescomplémentaires : compréhension proprement dite d'un vocabulairede textes, mémorisation de ce vocabulaire (i.e. augmentation du lexiquede l'apprenant). L'apprenant travaille sur un des textes proposés dansle corpus de textes. Ce corpus est décrit plus avant en section 3,l'utilisateur a la possibilité de spécifier un type de texte,i.e. de spécifier le domaine lexical correspondant à son centred'intérêt. La démarche classique consiste alors àrelever tous les nouveaux mots et expressions qu'il n'a jamaisrencontrés ou tous ceux qu'il a déjà rencontrésmais dont la compréhension lui semble parcellaire. Le module d'accès lexicaux permet à l'apprenant de demanderdifférents types d'informations linguistiques sur les items lexicauxqu'il a relevés : définition, exemples d'utilisation, synonymes,antonymes, dérivés, ... A ce stade, il peut égalementfaire appel au système pour qu'il lui indique les expressions oucollocations correspondant à un sens particulier. Il peutégalement accéder aux représentations graphiques deportions du réseau sémantique, et aux représentationssyntaxiques (i.e. structure syntaxique dans laquelle le mot peut êtreutilisé) des mots et expressions lexicales qu'il étudie. Cesinformations lui apportent en outre des informations sur les variationslexicales et les transformations syntaxiques possibles. Après cette première phase de travail où l'apprenant ademandé un certain nombre d'aides lexicales, l'utilisateurcomplète sa propre base de données en utilisant une desméthodes ci-dessous : * Annotation : Il s'agit dans ce cas de "prendre des notes" sur chaque mot ou expression, surlesquels il a eu besoin d'avoir des renseignements. Parmi ceux-ci, notons : latraduction dans sa langue maternelle, certaines des informations extraites duréseau lors de ces précédents accès lexicaux. * Association : L'association personnelle de mots et/ou expressions entre eux est unedémarche féconde en apprentissage. Elle permet ainsi àl'utilisateur l'appropriation effective des renseignements obtenus exemple : création d'un groupe "tromperie", dans lequel on trouve leséléments "mener en bateau", "tromper", "berner". * Graphisme : L'utilisateur peut enfin "dessiner son propre réseau lexical", lesnoeuds représentant les mots qu'il a étudiés et les lienstraduisant, par exemple, les associations qu'il a faites auparavant, ou desportions du réseau de base. Les différents accès et travaux effectués par l'apprenantsont enregistrés et forment le modèle de l'apprenant. 2.2. Le scénario type d'utilisation en production L'apprenant peut soit faire le résumé d'un texte choisi dans lecorpus de base soit produire un texte sur un thème précis. Lasélection d'un texte ou d'un thème est un prérequisessentiel à l'analyseur grammatical (cf. section 5). Celui-ci proposeune correction des erreurs aux niveaux grammatical et lexical. Lesystème peut alors fournir à l'apprenant une formulation mieuxadaptée de ce qu'il a écrit, en particulier, lui indiquer lesexpressions qui correspondent plus exactement à ce qu'il a vouluexprimer. On retrouve dans ce cas les mêmes fonctionnalités desaccès lexicaux qu'au niveau de la compréhension. L'aide àla production est ainsi à la fois dynamique et statique. L'aidedynamique correspond à une utilisation orientée des bases dedonnées lexicales (lexique personnel ou fourni par le système).L'aide statique correspond à l'amélioration syntaxique etlexicale proposée par l'analyseur. 3. Corpus et Données lexicales Le choix de décrire finement les connaissances lexicalesnécessite de fixer un champ sémantique. De façon àne pas disperser nos recherches, nous nous sommes fixés sur les champstravail, emploi et chômage. Puisque l'expertise doit seréférer à la façon dont la langue estréellement utilisée, nous avons construit un corpusélectronique de textes de français courant, à partirduquel ont ensuite été menées des étudeslinguistiques, qui serviront à la création de la base dedonnées lexicales active. Corpus ** ** Afin de construire notre expertise lexical sur le champ sémantique de larecherche d'un emploi, nous avons commencé à construire un corpusélectronique, qui compte aujourd'hui 250 000 mots, du françaiscourant. Pour ce faire, nous avons sélectionné des articles dejournaux, revues, magazines de toutes natures : presse économique ousociale, quotidiens "populaires" ou non, périodiquesédités par les associations de chômeurs, etc. Ce corpus,composé de textes écrits, contient néanmoins desinterviews. Les raison de la constitution de ce corpus sont multiples, il doit : comme nousl'avons dit servir à construire un dictionnaire des termes du domaine ;fournir des exemples d'utilisation de ces termes en contexte, en associant itemlexical et phrases dans lesquelles il apparaît ; être une base detextes pour la constitution d'activités lexicales d'aide àl'acquisition lexicale en L2. Extraction des mots et expressions du domaine ** ** Pour exploiter les données de ce corpus, nous avons ensuiteélaboré une procédure d'extraction automatique des itemslexicaux (mots simples, collocations et expressions terminologiques)caractéristiques du domaine [Rabefitia 94]. Pour ce faire, nous avonschoisi les méthodes statistiques et probabilistes. Pour extraire lesmots de base nous avons calculé l'ordre lexicométrique enrelevant la liste de chaque forme du corpus associée à safréquence, par ordre décroissant. Les premières formes dela liste correspondaient, bien entendu, aux mots grammaticaux, mais on ytrouvait également des mots lexicaux, dont l'utilisationexceptionnellement fréquente était conditionnée par lathématique du corpus (pour les substantifs "travail", "embauche","emploi", etc.). Ces mots lexicaux, associés à quelques verbessupport ("faire", "mettre", etc.) souvent employés dans les expressions,ont constitué les mots de base. Cette liste des mots de base a servi de référence pourl'extraction des expressions, dont un des constituants devaient appartenirà cette liste. Cette façon de procéder éliminecertaines expressions, comme les expressions à caractèremétaphorique (puisqu'il se peut qu'aucun des mots d'une telle expressionn'appartienne au champ lexical étudié), mais présentel'avantage de réduire le bruit (les structures ne caractérisantpas le domaine, mais la langue française en général). Cescooccurrences ont été construites à partir des lemmes etnon des formes fléchies, de façon à observer lesvariations syntaxiques, le degré de figement, de ces expressions. A partir de cette liste de cooccurrences et de l'ordre lexicométrique ducorpus, nous avons pu appliqué un modèle probabiliste. Nous noussommes centrés sur les lemmes des mots de base et avonséliminé les mots grammaticaux présents dans lesassociations. Ayant obtenu les probabilités pour chaque collocation etfixé des seuils d'acceptabilité, nous sommes intervenus uneseconde fois manuellement pour éliminer (10 à 15% descollocations) les collocations qui ne présentent pasd'intérêt du point de vue de leur utilisation dans le champlexical de la recherche d'emploi. Ces deux interventions manuelles permettentde réduire la récolte trop large résultant d'approchespurement statistiques et probabilistes. Ensuite chaque expression retenue aété indexée avec les phrases dans lesquelles ellesapparaissaient, de façon à en étudier les variationssyntaxiques et à servir d'illustration pour les apprenants. Études linguistiques ** ** 150 unités lexicales ont été finalement retenues etdécrites, une à une, à partir d'un patron trèsproche de celui utilisé dans la théorie sens-texte de Mel'cuk[Mel'cuk 92]. Le dictionnaire explicatif et combinatoire offre sans doute ladescription (partielle) la plus fine du français, description en partieopératoire et orientée vers la génération et laparaphrase : 1) Les informations de bases - La désambiguisation du sens. Pour une unité lexicaledonnée plusieurs sens sont possibles. Une entrée lexicalecorrespond toutefois à un seul sens, les différentes acceptionsd'un mot ou expression étant indexées. exemple : travailler 1. X Avoir un métier 2. X Faire Y avec un certain effort 3. X Modifier Y par une action suivie - Les définitions. Elles sont soit calculées à partir desinformations disponibles dans le réseau, soit construites àpartir de primitives. exemple : 1. `bosser' a pour définition : Plus(travailler) <=> travaillerdur 2. `travailler' : faire une chose avec un certain effort - Les exemples d'utilisation en contexte. Un certain nombre d'exemplesd'utilisation en contexte du lexème d'entrée sont extraits destextes du corpus comme informations associées à l'entréelexicale de ce lexème. - Les registres de langue. Quatre registres ont été retenus :soigné, courant, familier, grossier. 2) Les informations syntaxiques On indique, catégorie syntaxique, genre et nombre pour chaqueentrée lexicale. On donne également des renseignements concernantles constructions syntaxiques et un certain nombre de transformationssyntaxiques possibles (passivation, pronominalisation, question, introductionsde modificateurs, variations lexicales, ...) pour l'entrée lexicaleconsidérée (cf. aussi section 4). 3) Les informations du réseau Le réseau est formé de noeuds représentant lesentrées lexicales, et de liens représentant différentesassociations. Les liens sémantiques calculables. Chaque item lexicalest relié à différents autres par plusieurs types de liensdéfinis ci-après. Les entrées lexicales étantgérées par le sens, les expressions et mots peuvent êtrereliés entre eux, ainsi que les expressions entre elles. Les expressions sont liées : * par le sens : expressions de même sens ou ayant des liens de typessémantiques entre elles, * par le mot : des expressions comportant un mot commun sontégalement reliées entre elles par ce mot. La liste des liens retenus, et de leur fonction, pour la modélisation duréseau se divise en quatre groupes : * Type sémantique : synonymie et antonymie, exactes, plus larges,plus étroites, ou intersection de sens. * Types dérivés, actantiels et circonstanciels. * Fonctions : trois fonctions ont été retenues pour leurcaractère très général leur permettant des'appliquer dans de nombreuses situations. exemple : Oper1(travail): dénicher [un travail] * Composants de sens : Moins, Plus, Très/Intense, Bon, ... 4. Analyse Nous avons choisi d'utiliser le formalisme des grammaires d'arbres adjoints[Abeillé 90] pour l'analyse de phrases dans ALEXIA. Ce formalisme, quise situe dans la lignée des grammaires d'unification, est basénon sur des règles de réécriture mais sur des structuresd'arbres élémentaires. L'analyse repose sur une opérationspécifique : l'adjonction, et comporte une contrainte importante : lalexicalisation des informations linguistiques. Tout arbreélémentaire doit ainsi avoir au niveau de ses feuilles au moinsune tête lexicale. Cette lexicalisation permet de rendre comptecorrectement des processus linguistiques en jeu dans les expressions lexicales,par la création des arbres élémentaires correspondant. L'analyse proprement dite se compose de deux phases : initialisation etregroupement, décrite dans [Issac 94]. Durant la phase d'initialisation,on parcourt la grammaire afin de créer une sous-grammaire minimale. Puison détermine pour chaque arbre les différentes positionsd'adjonction possibles. La phase de regroupement consiste à adjoindre ousubstituer selon les cas les arbres correspondant aux sous-chaînescontiguës de la chaîne à analyser. L'analyse estessentiellement montante afin d'obtenir, en cas de phrase incorrecte, le plusd'informations partielles. En cas d'échec, les arbres partiels sontprésentés simplifiés à l'apprenant afin quecelui-ci puisse rectifier la construction de sa phrase. L'apprenant a ainsisimultanément et la possibilité de corriger sa production, et decomprendre les contraintes inhérentes aux expressions ou mots qu'il achoisis. 5. Stratégies cognitives et apprentissage Compte tenu des objectifs de l'environnement ALEXIA, nous avons besoind'évaluer : - les stratégies adoptées par les apprenants dans destâches de compréhension d'un texte, celles adoptées dansdes tâches de production, - les moyens que les apprenants utilisent pour construire leur lexiquepersonnel, - dans quelle mesure les différents types d'accès lexical et lesressources lexicales disponibles aident à la compréhension,à la production et à la rétention de vocabulaire. Les travaux en psycholinguistique ou en linguistique appliquéen'apportent pas de réponses à ces questions pour les raisonssuivantes. Les expérimentations menées en psycholinguistique surle lexique (cf. par exemple [Taylor 90]) consistent généralementà inférer la structure du lexique mental à partir detâches de reconnaissances, conduites en temps très limité,de mots ou segments de phrases dans des contextes très restreints. Lesréponses des sujets sont limitées à des sélectionsde choix prédéfinis. Même si nous prenons enconsidération les résultats de ces expériences, laméthodologie expérimentale utilisée ne permet pratiquementjamais de mesurer les performances des sujets en situation de productionlexicale. Le contexte trop restreint ne prend pas en compte la combinatoirelinguistique rencontrée dans les textes et oblitère donc leschoix de hauts niveaux que doivent accomplir ces sujets. Enfin la vitesse deréponse des sujets aux stimuli ne donne aucune information sur lesstratégies de choix mises en oeuvre sur des durées plus longues,c'est à dire lorsque les sujets ont à intégrer un ensembled'informations provenant du contexte textuel et à opérer unesélection sur ces informations. Quant aux expériences, en nombre limité, menées par leschercheurs de linguistique appliquée s'intéressant au lexique,elles ont pour support unique les dictionnaires papiers [Bogaards 91] ets'intéressent à des tâches de traduction. Lesrésultats de ces expériences sont difficilement transposablespuisque les tâches données aux sujets ne sont pas cellesgénéralement rencontrées en situation de communication enlangue seconde. De plus, ces expériences ignorent les environnementsinformatiques, ainsi que toutes les stratégies spécifiquesinduites par ces environnements sur les apprenants. Nous préparons donc une expérimentation qui constitue uneévaluation a priori des hypothèses sous-jacentes dans ALEXIA etpourrait ainsi nous amener à réorienter le développementde notre environnement informatique si nécessaire. Souvent, pour lesenvironnements informatiques, ce type d'évaluation estréalisée a posteriori (après le développement dulogiciel). Il sert alors généralement plus à justifier letravail réalisé qu'à le modifier. Expérimentation ** ** L'environnement ALEXIA étant basé sur un réseau lexical,il est nécessaire de pouvoir mener une expérimentation sur cetype de support. Il existe déjà deux dictionnairesélectronique qui permettent une recherche lexicale fondée sur lesliens sémantiques entre items lexicaux : l'un en anglais, WORDNET, etl'autre en français, DICOLOGIQUE [Dutoit 92]. A notre connaissance iln'y a pas eu d'expériences, répondant à nos objectifs,menées sur ces deux environnements. Notre système estorienté vers l'apprentissage lexical du français, justifiantainsi le choix de DICOLOGIQUE comme cadre d'expérimentation. Mener uneexpérimentation doit nous permettre d'observer comment les sujetsexploitent ce type de réseau au cours des tâches qu'ils ontà réaliser et de répondre aux question suivantes : - Comment les apprenants procèdent-ils pour accéder à unitem lexical? (Accès) - Quelles stratégies emploient-ils pour comprendre le sens d'un motnouveau? (Compréhension) - Quelles sont les stratégies employées lors de l'utilisationd'un nouveau mot ? (Production) - Quelles sont les méthodes employées par les apprenants pourretenir le vocabulaire, l'utilisation d'un environnement informatiquebasé sur un réseau lexical favorise-t-elle cetterétention? (Apprentissage) - Un réseau lexical permet-il une meilleure approche des tâches deproduction et de compréhension a effectuer, quels sont les avantages etles désavantages de la représentation adoptée: est-ellemieux adaptée aux stratégies des apprenants et correspond-ellemieux à leurs représentations mentales ? (Apports d'informationspour la construction de notre réseau lexical). *- *Quelles sont les informations les plus demandées dans unerecherche lexicale (synonymies, antonymie, structures syntaxiques, exemples,définitions...) ? L'expérimentation se déroulera auprès d'un publicd'apprenants de français langue étrangère de niveauxdifférents en formation. Les sujets seront donc en phase d'acquisitionlexicale soutenue, mais auront sur le plan des champs sémantiques lesmêmes connaissances qu'un sujet natif du français. Le fait deprendre des sujets de niveaux différents nous permettra de comparerleurs stratégies utilisées, de façon à pouvoirensuite, dans ALEXIA, introduire un niveau réflexif permettant dedialoguer avec chaque apprenant sur sa façon de travailler. Lexique personnel et activités lexicales Le premier principe pédagogique défendu par Goodfellow[Goodfellow 93] est l'assistance à la construction d'un dictionnairepropre à l'apprenant. Trois critères, interdépendants,justifie l'appartenance d'un item lexical à ce dictionnairepersonnalisé : une expression pourra avoir étéabordée en compréhension, en production, ou introduite dans desregroupements d'expressions opérés directement par l'apprenant.Tout comme la présentation d'informations lexicales sous forme deréseaux favorise l'acquisition, Goodfellow a montré qu'unenvironnement informatique devait permettre à l'utilisateur d'effectuerses regroupements personnels. La question reste ouverte de savoir si les typesde liens entre les items lexicaux doivent être laissés au librearbitre de l'utilisateur ou, au contraire, être choisis parmi ceuxeffectivement utilisés par la base lexicale. Le statut d'un item lexicaldu dictionnaire peut donc être différent suivant le critèrequi a présidé à son mode d'introduction, et suivant qu'ilait, ou non, été validé par des activités lexicalesappropriées. MacWhinney suggère, à partir de ces travaux sur le Modèlede Compétition, quelques principes pédagogiques suivant lesstades d'acquisition lexicale d'un apprenant (nous omettons le stade derestructuration phonologique et de transfert initial) : - l'apprentissage par coeur d'items lexicaux joue un rôle important audébut, mais devra ensuite s'effacer, - lors de l'acquisition d'un nouvel item lexical, il est nécessaired'expliciter sa structure syntaxique et casuel et de le relier explicitementà d'autres items lexicaux. A ce stade, des erreurs dues à destransferts depuis la L1 devraient être corrigées explicitement, - même si l'application de simples procédures de transfertcontinue à être source d'erreurs, il vaut mieux ne pas chercherà détecter, ni corriger de telles erreurs en production. Lacompréhension, essentielle à ce stade, doit êtretravaillée à partir de matériaux riches et difficiles, - à un stade plus avancé, il est nécessaire dedétecter et corriger les erreurs de façon à éviterl'apparition de phénomènes de fossilisation et d'aider àla restructuration fonctionnelle des connaissances de l'apprenant. A partir de cette description générale, selon le niveau del'apprenant, il est possible de construire une série d'activitéslexicales traditionnelles en compréhension et production sur des mots ouexpressions : reconstitution d'une partie de réseau, groupements de motssuivant différents critères, exercices à trous, paraphrased'une expression, choix entre différentes paraphrases en contexte,détermination du sens d'un mot ou d'une expression à partir d'untexte dans lequel, il (elle) est introduite de façon redondante,retrouver le sens d'un mot ou d'une expression à partir à partird'informations fragmentaires (concept du "mot sur le bout de la langue"), etc.Ces activités nécessitent pour une grande part l'utilisation ducorpus de textes, de la base de données lexicales et de l'analyseur TAG,lorsqu'il sera nécessaire de diagnostiquer les productions del'apprenant. Au travail linguistique proprement dit, il convient d'ajouter lapossibilité d'un dialogue avec l'apprenant sur la tâche qu'il aà accomplir, c'est-à-dire de pouvoir discuter explicitement desstratégies qu'il emploie, en particulier pour l'accès lexical. Cette construction du dictionnaire personnalisé et l'introductiond'activités acquisitionnelles correspondant aux recommandations deschercheurs en psycholinguistique et linguistique appliquée ne peut avoirlieu sans la mise en place de ressources linguistiques importantes,organisées en fonction des besoins des apprenants. Les ressources quenous avons mentionnées à la section précédentefont, encore aujourd'hui, défaut aux systèmes lexicaux d'ALAO.C'est donc prioritairement sur ce point que portent nos efforts actuels. Bibliographie Abeillé A. [1990] : "Quand l'arbre ne cache pas la forêt, analysedu français à l'aide d'une grammaire d'arbres adjoints": in/T.A. Informations/, Vol. 31, ndeg.2, 1990, pp 51-70. Agirre E., Arregi X., Artola X., Diaz de Ilarraza A., Evrard F., Sarasola K.[1990] : "Dictionnaire intelligent d'aide à la compréhension",Proceedings of /EURALEX'90/, 1990, pp 45-57. Aitchison J. [1987]: /Words in the mind/. Oxford: Blackwell, 1987. Bogaards P. [1991] : "A propos de l'usage du dictionnaire de langueétrangère", in /Cahiers de lexicologie/, ndeg.52, vol.1,1991, pp 131-152. Dutoit D. [1992] : "A set theoretic approach to lexical semantics", Actes de/COLING 92/, Nantes, 1992. Fontana N.M., Caldeira S.M., Cristina M., De Oliveira F., Oliveira Jnr O. N.[1993] : "Computer Assisted Writing: Applications to English as a ForeignLanguage", in /Computed Assisted Language Learning/, vol 6, ndeg.2, 1993,pp 145-162. Goodfellow R. [1993] : "Call for vocabulary, requirements, theory and design",in /Computer Assisted Language Learning/, vol 6, ndeg. 2, 1993, pp99-122. Issac F. [1994] : "Un algorithme d'analyse pour les grammaires d'arbresadjoints", Colloque international sur les /Grammaires d'Arbres Adjoints/.Paris, 1994. Mel'cuk I. [1992] : "Introduction", in /Dictionnaire Explicatif etCombinatoire du français Contemporain. Recherchelexico-sémantiques III/. Les presses de l'université deMontréal, 1992, pp 9-58. Nattinger J. [1988] : "Some current trends in vocabulary teaching", in/Vocabulary and Language Teaching/. Carter R., McCarthy M. (Eds.) Longman,1988, pp 62-81. Rabefitia M. [1994]: /Extraction automatique des collocations et desexpressions terminologiques./ Mémoire de DEA MIASH,Université Paris 4 et Paris 5, 1994. Richards J.C. [1985] : "Chapter 13 : Lexical knowledge and the teaching ofvocabulary", in /The Context of Language Teaching/, Richards J.C. (Ed.),Cambridge University Press, 1985. Singleton D., Little D. [1991] : "Le lexique mental de l'apprenant d'une langueétrangère", in /Acquisition et enseignement/apprentissage deslangues/, Colloque "Acquisition d'une langue étrangère:perspectives et recherches", Grenoble, 1991, pp 395-402. Taylor I. [1990] : /Psycholinguistics: Learning and Using Language/.Prentice Hall, 1990. [1] En langue native, l'acquisition est de 3000mots par an durant la période scolaire. [2] Les travaux au LADL et ailleurs ontmontré leur forte proportion dans la langue (20000 expressions verbalesfigées contre 8000 ou 12000 verbes libres ; 6000 adverbes figéscontre 2000 libres ; 80 000 noms simples contre 300 000 ou 400 000 nomscomposés) et leur forte probabilité d'occurrences dans lestextes. Quand il y a ambiguïté potentielle, c'est presque toujoursl'interprétation idiomatique qui est la bonne, sauf en cas de jeux demots.