Traitement de l'information visuelle pour l'extraction d'information à partir de documents visuellement riches

Potvin, Benoit (2019). « Traitement de l'information visuelle pour l'extraction d'information à partir de documents visuellement riches » Thèse. Montréal (Québec, Canada), Université du Québec à Montréal, Doctorat en informatique cognitive.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (32MB)

Résumé

Cette thèse traite du problème d'extraire d'une manière automatique l'information de documents Visuellement Riches Destinés à une Consommation Humaine (VRDCH), tels que les pages Web et les documents PDF. Plus précisément, nous avons été motivé par la possibilité de faciliter le traitement de l'information visuelle lors de tâches d'extraction. En effet, bien que l'information visuelle joue un rôle important dans la définition des documents VRDCH, les méthodes actuelles permettent un traitement limité de ce type cl 'information qui, à notre sens, ne rend pas compte de son importance réelle. Nous avons pour hypothèse que, dans des documents VRDCH, les entités homogènes partagent des caractéristiques visuelles similaires. Nous montrons qu'il est possible de faciliter le traitement de 1' information visuelle en exploitant cette idée. Pour ce faire, nous présentons trois articles de conférence qui traitent chacun d'une tâche d'extraction particulière fondée sur l'hypothèse énoncée. Les résultats obtenus tendent à valider notre hypothèse. Le premier article présente une méthode basée sur la position de l'information pour l'extraction de données financières dans des documents PDF. Nous montrons que, selon l'hypothèse susmentionnée, la position de l'information est un indicateur de relation sémantique. Ainsi, nous utilisons deux heuristiques concernant la proximité et la densité de l'information de manière à faciliter le processus d'extraction. Nous évaluons notre méthode sur un corpus de documents financiers fournis par un partenaire industriel et montrons que les résultats d'extraction obtenus sont excellents et satisfont les besoins de l'industrie. Le deuxième article introduit la validation visuelle non supervisée, une méthode de validation pour le traitement de l'information visuelle. La méthode proposée permet de distinguer, d'une manière non supervisée, les entités visuellement aberrantes des entités qui partagent des caractéristiques visuelles communes. Nous montrons que dans le contexte de l'extraction d'information à partir de documents VRDCH, les entités visuellement aberrantes correspondent majoritairement à des faux positifs. Conséquemment, l'élimination de ces entités permet d'améliorer les résultats d'extraction. Nous évaluons notre méthode sur une tâche d'extraction du contenu principal de pages Web à partir d'un corpus de documents d'articles de nouvelles. Pour ce faire, nous utilisons Boilerpipe, un algorithme bien connu dans la littérature, et montrons que la validation visuelle permet d'en améliorer les résultats d'extraction. Le troisième article évalue la performance de la validation visuelle non supervisée pour une tâche d'extraction de données effectuée sur un ensemble de documents visuellement hétérogènes. L'objectif est d'évaluer la robustesse de la méthode proposée, c'est-à-dire la possibilité d'améliorer les résultats d'extraction nonobstant les variations à travers l'information visuelle des différents documents. En effet, les méthodes d'extraction basées sur l'information visuelle ont généralement un impact négatif sur la robustesse des extracteurs puisqu'elles exploitent des régularités visuelles qui peuvent devenir incohérentes lorsque les documents sont modifiés ou lorsqu'elles sont appliquées à de nouveaux corpus. Ainsi, nous évaluons notre méthode sur la tâche d'extraire des informations de produits à partir d'un ensemble visuellement hétérogène de pages Web. Nous montrons que la validation visuelle non supervisée est une méthode robuste qui peut être utilisée pour l'extraction d'information sur de nouveaux documents. Enfin, la validation visuelle non supervisée offre la possibilité d'exploiter l'information visuelle des documents à un degré qui n'avait pas été atteint jusqu'à présent. Notre méthode se distingue des méthodes d'extraction existantes quant à sa portée d'application, sa robustesse et sa facilité d'utilisation. Dans certains cas, le temps d'exécution nécessaire au traitement de l'information visuelle peut aussi être amélioré. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Validation visuelle non supervisée, extraction d'information sur le web, détection d'anomalies visuelles

Type: Thèse ou essai doctoral accepté ()
Informations complémentaires: La thèse a été numérisée telle que transmise par l'auteur.
Directeur de thèse: Villemaire, Roger
Mots-clés ou Sujets: Exploration de données / Sites Web / PDF / Information visuelle
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 08 oct. 2019 14:07
Dernière modification: 08 oct. 2019 14:07
Adresse URL : http://archipel.uqam.ca/id/eprint/12831

Statistiques

Voir les statistiques sur cinq ans...