Charnois Thierry
GREYC -- CNRS UMR 6072 ; Université de Caen , France
- Article 104 : Motifs séquentiels pour l'extraction d'information : illustration sur le problème de la détection d'interactions entre gènes
- Auteurs :
Plantevit Marc (GREYC -- CNRS UMR 6072 ; Université de Caen , France)
Charnois Thierry (GREYC -- CNRS UMR 6072 ; Université de Caen , France)
- Conférence : TALN
- Type : Communication orale
- Résumé : Face à la prolifération des publications en biologie et médecine (plus de 18 millions de publications actuellement recensées dans PubMed), l'extraction d'information automatique est devenue un enjeu crucial. Il existe de nombreux travaux dans le domaine du traitement de la langue appliquée à la biomédecine (BioNLP). Ces travaux se distribuent en deux grandes tendances. La première est fondée sur les méthodes d'apprentissage automatique de type numérique qui donnent de bons résultats mais ont un fonctionnement de type boite noire. La deuxième tendance est celle du TALN à base d'analyses (lexicales, syntaxiques, voire sémantiques ou discursives) coûteuses en temps de développement des ressources nécessaires (lexiques, grammaires...). Nous proposons dans cet article une approche basée sur la découverte de motifs séquentiels pour apprendre automatiquement les ressources linguistiques, en l'occurrence les patrons linguistiques qui permettent l'extraction de l'information dans les textes. Plusieurs aspects méritent d'être soulignés : cette approche permet de s'affranchir de l'analyse syntaxique de la phrase, elle ne nécessite pas de ressources en dehors du corpus d'apprentissage et elle ne demande que très peu d'intervention manuelle.
Nous illustrons l'approche sur le problème de la détection d'interactions entre gènes et donnons les résultats obtenus sur des corpus biologiques qui montrent l'intérêt de ce type d'approche.
- Format PDF
- Article 122 : Jugements d'évaluation et constituants périphériques
- Auteurs :
Jackiewicz Agata (LALIC -- Université Paris-Sorbonne, France)
Charnois Thierry (GREYC / CNRS UMR 6072 -- Université de Caen , France)
Ferrari Stéphane (GREYC / CNRS UMR 6072 -- Université de Caen , France)
- Conférence : TALN
- Type : Communication orale
- Résumé : Nous presentons un travail visant la mise en place d'outils automatiques d'analyse du discours evaluatif. La presente etude s'interesse aux jugements d'evaluation portes sur des individus, des groupes d'individus ou des institutions, denotes par des constituants detaches, exterieurs a la predication principale : Homme de convictions, XY... ; dote d'une hyperflexibilite et d'une endurance exceptionnelles, il... en sont quelques exemples.
Sur le plan de la modélisation linguistique, nous exploitons les travaux sur les constituants peripheriques (CP) et nous empruntons les categories de la theorie /Appraisal/ (Martin and White, 2005). La categorie de « Judgment » postulee par ce cadre theorique, et dans laquelle s'inscrivent les evaluations que nous etudions, est questionnee dans sa capacite a couvrir l'etendue des valeurs semantiques attestees. La notion de « Focus » permet la caracterisation fine des cibles des jugements. La prise en charge enonciative sert a caracteriser les sources enonciatives impliquees, les phenomenes d'accord et de desaccord, d'engagement et de desengagement. Sur le plan textuel, nous analysons les rapports entre le constituant detache a valeur axiologique et le reste de l'enonce du point de vue des relations rhetoriques (au sens de la RST) qui peuvent s'ancrer sur un jugement evaluatif (opposition, causalite et elaboration). Le corpus exploite pour l'analyse linguistique est constitue par l'ensemble des textes en ligne disponibles sur le site du journal les Echos.
Après un bref état de l'art, nous présentons une première mise en oeuvre appliquée à un corpus de 886 articles issus du journal Le Monde rubriques « Portrait » et « Biographie ». La visee principale de cette expérimentation est un outil d'aide a l'observation linguistique, pour permettre des retours sur le modele et sa validation, ainsi que l'enrichissement des lexiques et grammaires. Les patrons issus de l'etude linguistique ont ete implementes avec un lexique de quelques centaines de termes. L'outil prend en entree un texte brut et produit en sortie un texte contenant les CP annotes et enrichis d'informations semantiques produites par l'analyse locale de ces CP. L'experimentation en cours de l'outil sur un corpus de taille significatif permettra d'evaluer la faisabilite d'une veritable analyse automatique de l'opinion.
- Format PDF