Ouellette, Simon
(2024).
« Approches centrées sur la planification pour résoudre des problèmes d'apprentissage par renforcement à récompenses éparses » Mémoire.
Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.
Fichier(s) associé(s) à ce document :
Résumé
Les avancées en apprentissage par renforcement profond ont mené à plusieurs succès, notamment avec les échecs, le jeu de Go et le jeu de stratégie Starcraft II. Ces problèmes sont constitués d’environnements virtuels dans lesquels il est possible de générer une quantité illimitée d’interactions en relativement peu de temps. Or, pour donner des résultats intéressants, l’apprentissage par renforcement profond requiert un nombre particulièrement élevé d’interactions avec l’environnement. Ceci n’est pas un problème pour les environnements virtuels ou simulés, comme pour les exemples de succès décrits précédemment. Toutefois, pour les environnements réels comme en robotique, où le nombre d’interactions est plus limité, il est difficile de bien appliquer l’apprentissage par renforcement. Lorsque le problème contient, en plus, des récompenses éparses (sparse rewards), cette complexité échantillonnale devient souvent inacceptable. En effet, lorsque les récompenses sont rares, il est difficile pour une exploration aléatoire de les atteindre. L’apprentissage par démonstrations atténue ce problème, en présentant à l’algorithme un bon nombre d’exemples complets de solutions. La vaste majorité des approches d’apprentissage par démonstrations sont basées sur un paradigme sans modèle, qui présentent souvent des difficultés significatives d’apprentissage lorsque la solution du problème requiert de la planification (actions devant être soigneusement séquencées). Dans ce mémoire, nous proposons deux nouvelles approches basées sur le paradigme avec modèle, afin d’atténuer le problème des récompenses éparses sans sacrifier la capacité de planifier. Les performances de ces deux nouvelles approches sont évaluées sur des problèmes nécessitant de la planification et pour lesquels les récompenses sont éparses. Plus spécifiquement, ces algorithmes sont évalués dans les environnements virtuels Minigrid et Sokoban. Nous démontrons que nos approches performent significativement mieux que les approches existantes.
_____________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : apprentissage par renforcement, apprentissage par démonstrations, récompenses éparses, planification.
Type: |
Mémoire accepté
|
Informations complémentaires: |
Fichier numérique reçu et enrichi en format PDF/A. |
Directeur de thèse: |
Beaudry, Éric |
Mots-clés ou Sujets: |
Apprentissage par renforcement / Apprentissage par démonstrations / Récompenses rares / Planification / Intelligence artificielle |
Unité d'appartenance: |
Faculté des sciences > Département d'informatique |
Déposé par: |
Service des bibliothèques
|
Date de dépôt: |
13 nov. 2024 14:07 |
Dernière modification: |
13 nov. 2024 14:07 |
Adresse URL : |
http://archipel.uqam.ca/id/eprint/18196 |