Oratrice : Delphine Bernhard (LIMSI, Orsay)
Les connaissances sémantiques sont utiles à de nombreuses applications du traitement automatique des langues, telles que la recherche d’information, les systèmes de question-réponse ou la classification de documents. Ces connaissances sont explicitées dans des ressources lexico-sémantiques, mais peuvent également être acquises de manière automatique, à partir de divers types de données langagières.
Je présenterai dans cet exposé diverses approches, reposant soit sur une analyse morphologique préalable, soit sur des corpus comparables monolingues spécifiques.
Une première approche, qui utilise les résultats d’un système de segmentation morphologique non supervisé, vise à identifier des liens sémantiques typés entre mots issus d’un corpus de spécialité. La méthode se base sur des schémas définis à partir de segments morphologiques étiquetés, afin d’identifier des relations de spécialisation (neurotoxine - toxine) et de co-hyponymie (neurotoxine - cytotoxine).
La seconde approche vise à acquérir des informations utiles en question-réponse, notamment pour l’extraction de passages contenant les réponses. Des mesures de proximité sémantique entre termes, sous forme d’un modèle de traduction "monolingue", sont extraites automatiquement à partir d’un corpus de paires de définitions. Ces définitions sont issues de diverses ressources en anglais (WordNet, Wikipedia, Simple English Wikipedia, Wiktionary) et alignées automatiquement de manière à constituer un corpus parallèle.
Enfin, je présenterai une analyse des modifications locales disponibles dans le corpus WiCoPaCo, construit à partir de l’historique des révisions de la version française de Wikipédia. Je détaillerai les divers phénomènes identifiés dans ce corpus : corrections de surface, reformulations, corrections factuelles et vandalisme, en mettant l’accent sur les phénomènes de paraphrase.
![[LIPN]](/blog-themes/lipn-automne/img/logo_lipn.png)
![[CNRS]](/blog-themes/lipn-automne/img/logo_cnrs.png)
![[Université Paris 13]](/blog-themes/lipn-automne/img/logo_paris13.png)
About the ICS format