Apprentissage non supervisé de la segmentation lexicale automatique du chinois basé sur les réseaux bayésiens avec application aux textes des médias sociaux

Fu, Zhe (2018). « Apprentissage non supervisé de la segmentation lexicale automatique du chinois basé sur les réseaux bayésiens avec application aux textes des médias sociaux » Thèse. Montréal (Québec, Canada), Université du Québec à Montréal, Doctorat en informatique cognitive.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (10MB)

Résumé

La langue chinoise écrite présente une forme différente des langues alphabétiques latines. En chinois, une unité lexicale (un mot) peut contenir un ou plusieurs caractères et il n'existe pas d'espace entre les mots. Les lecteurs du chinois écrit doivent donc segmenter eux-mêmes la séquence de caractères et des segmentations différentes des caractères peuvent changer complètement la signification de la phrase. Il existe déjà plusieurs segmenteurs automatiques du chinois, mais ceux-ci, se basant sur un dictionnaire de mots connus, rencontrent souvent des difficultés lorsqu'ils sont confrontés à de nouveaux mots, à de nouvelles expressions et à de nouveaux symboles, ce qui peut réduire significativement leur performance. C'est en particulier le cas des textes tirés des médias sociaux (par exemple, Facebook, weibo, etc.), qui contiennent beaucoup de nouvelles expressions, de nouveaux mots, etc. Nous proposons une méthode utilisant la segmentation du pinyin et les réseaux bayésiens, afin d'améliorer la performance des segmenteurs automatiques existants pour le domaine général et celui des médias sociaux. Cette méthode permet de calculer, d'évaluer et de mettre à jour automatiquement la probabilité qu'une séquence de caractères forme un mot. Aussi, lorsque la probabilité d'un nouveau mot, d'une expression ou d'un symbole s'avère élevée, cette méthode permet d'ajouter ce nouveau mot à un dictionnaire existant; c'est-à-dire, d'apprendre de nouveaux mots et d'ajuster continuellement la probabilité de chaque mot, y compris les nouveaux. Appliquée de manière récursive, cette méthode peut améliorer la performance des segmenteurs en leur permettant d'apprendre de nouveaux mots et en mettant à jour automatiquement, et selon les différents corpus, les probabilités des mots de son dictionnaire. Cette méthode nous montre que la performance de la segmentation est meilleure que celle des autres méthodes de segmentation, par exemple, le segmenteur Stanford, le NLPIR et le LTP-Cloud sur le corpus des médias sociaux et des journaux. Ainsi, sur un petit corpus de texte de journaux, notre système obtient une F-Mesure de 0,864, ce qui est supérieur à celle du segmenteur de Stanford à 0.768, celle de NLPIR à 0.789 et celle de LTP-Cloud à 0.811. De plus, sur un petit corpus de textes des médias sociaux, notre système obtient une F-Mesure de 0.907, ce qui est plus élevé que Stanford (0.611), NLPIR (0.693) et LTP-Cloud (0.793). Sur un grand corpus de textes de journaux, notre système obtient une F-Mesure de 0.924, ce qui est plus élevé que celle du segmenteur de Stanford (0.805), du NLPIR (0.759) et du LTP-Cloud (0.833). Enfin, sur un grand corpus des médias sociaux, notre système obtient une F-Mesure de 0.779, ce qui est plus élevé que Stanford (0.390), NLPIR (0.486) et LTP-Cloud (0.548). ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Segmentation des mots chinois, Segmentation du pinyin, Réseau bayésien, Média social

Type: Thèse ou essai doctoral accepté ()
Informations complémentaires: La thèse a été numérisée telle que transmise par l'auteur.
Directeur de thèse: Poirier, Pierre
Mots-clés ou Sujets: Segmentation / Chinois (Langue) -- Mots et locutions / Pinyin / Réseaux bayésiens / Médias sociaux
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 07 nov. 2018 08:38
Dernière modification: 07 nov. 2018 08:38
Adresse URL : http://archipel.uqam.ca/id/eprint/11802

Statistiques

Voir les statistiques sur cinq ans...