Inferring missing schema from linked data using formal concept analysis (FCA)

Mehri-Dehnavi, Razieh (2014). « Inferring missing schema from linked data using formal concept analysis (FCA) » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (8MB)

Résumé

Avec l'augmentation massive de la quantité de données disponibles sur le web, la détection et l'analyse d'information dans le contenu web deviennent très rentables. Le déploiement des données structurées fondé sur les technologies du Web sémantique a augmenté de façon significative en ligne au cours des deux dernières décennies. L'extraction d'information devient donc un problème majeur entre les chercheurs du Web sémantique. Pour publier des données structurées sur le Web, les sources de données sont décrites avec le Cadre de Description des Ressources (Resource Description Framework ou RDF). Dans cette mémoire, nous cherchons à extraire la structure conceptuelle du Web de données, c'est à dire, des données RDF dans le Web de documents. L'objectif principal est d'apprendre le niveau du schéma à partir du niveau d'instances, en d'autres termes, nous essayons de convertir les données RDF à RDF Schéma (RDFS) par apprentissage de la structure conceptuelle induite par des individus décrits en RDF. Pour construire le treillis de concepts à partir de données RDF, les concepts sont identifiés à l'aide de l'Analyse de concepts formels (FCA). Le nombre de concepts est basé sur le nombre de sous-ensembles possibles contenant ressources RDF similaires. Par ressources RDF similaires, on veut dire que l'on considère l'ensemble des ressources RDF qui partagent un ensemble commun d'attributs. Après la construction du treillis de concepts, nous allons tenir compte des propriétés et des propriétés de données déduites à partir de données RDF pour construire le schéma. Un autre défi pour construire le modèle RDFS est le fait de nommer les classes de RDFS. Pour cela, on utilise DBpedia. DBpedia contient l'information structurée de Wikipédia, qui contient des informations très utiles nous permettant d'apprendre le type d'instances de sortie dans les données RDF. La méthodologie présentée dans cette thèse extrait le schéma maximum possible à partir du niveau d'instance de données RDF. En adoptant les étapes mentionnées avant, on atteint la capacité d'exploiter la structure conceptuelle à partir du Web de données. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : RDF, RDFS, DBpedia, treillis de galois, données liées

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Valtchev, Petko
Mots-clés ou Sujets: Analyse formelle de concepts, Exploration de données, RDF (Langage de balisage), Treillis de Galois, Web sémantique, DBpedia
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 03 déc. 2014 21:03
Dernière modification: 03 déc. 2014 21:03
Adresse URL : http://archipel.uqam.ca/id/eprint/6398

Statistiques

Voir les statistiques sur cinq ans...