Utilisation de méthodes d'apprentissage profond pour la prédiction des effets cible et hors cible dans la technologie CRISPR-Cas9

Sherkatghanad, Zeinab (2026). « Utilisation de méthodes d'apprentissage profond pour la prédiction des effets cible et hors cible dans la technologie CRISPR-Cas9 » Thèse. Montréal (Québec), Université du Québec à Montréal, Doctorat en informatique.

Fichier(s) associé(s) à ce document :

Prévisualisation

PDF
Télécharger (9MB)

Résumé

La technologie CRISPR-Cas9 (Clustered Regularly Interspaced Short Palindromic Repeats) a révolutionné l’édition génomique en permettant des modifications précises et efficaces des séquences d’ADN. Dans ce contexte, une prédiction précise des effets cible et des activités hors cible est essentielle pour améliorer la sécurité et l’efficacité de l’édition génomique. Malheureusement, l’application étendue de CRISPR-Cas9 est remise en question par des effets hors cible non intentionnels, susceptibles de compromettre l’intégrité du génome et de limiter son utilisation clinique. Des modèles récents basés sur l’analyse des données et s’appuyant sur l’apprentissage profond montrent des résultats prometteurs avec le nombre croissant de données génomiques. En termes de prédiction des effets hors cible, ils surpassent généralement les méthodes existantes basées sur une fonction de score. De plus, des travaux récents ont démontré l’efficacité de l’encodage « one-hot » des séquences d’ARN guide et d’ADN ciblée, associée à l’enzyme Cas9, qui sont employées par CRISPR-Cas9. Ces données encodées peuvent ensuite être efficacement utilisées comme les données d’entrée des réseaux neuronaux convolutifs ou récurrents pour prédire des événements de clivage hors cible. L’amélioration des prédictions relatives aux effets cible et hors cible dans l’édition du génome reste l’une des principales préoccupations des chercheurs et des cliniciens, car elles impactent directement la fiabilité et la sécurité des applications basées sur la technologie CRISPR. Il est important de noter que les modèles d’apprentissage profond utilisent des milliers de paramètres, nécessitant un nombre important d’échantillons dans les jeux de données CRISPR-Cas9. Bien que ces modèles marquent une avancée importante, leur application pratique reste quand même limitée en raison de la pénurie de données, de l’indisponibilité de méthodes adaptées de quantification de l’incertitude et de leur faible généralisabilité à travers des ensembles de données hétérogènes. Cette thèse, organisée par article, vise à surmonter les défis mentionnés grâce à nos trois contributions principales. Le premier article, publié dans Briefings in Bioinformatics, propose une revue de littérature complète des modèles d’apprentissage automatique traditionnels et d’apprentissage profond existants pour une prédiction d’efficacité cible et d’activité hors cible en CRISPR-Cas9, soulignant leurs avantages et limites principaux. Nous examinons également les stratégies existantes de l’encodage des séquences et discutons de la disponibilité des données, mentionnant les défis à relever et les orientations de recherches futures. Le deuxième article, publié dans Knowledge-Based Systems, présente BayTTA - un cadre d’estimation de l’incertitude, qui exploite un modèle bayésien basé sur les moyennes (BMA - Bayesian Model Averaging) et une technique d’optimisation reliée (TTA - Test-Time Augmentation). Nous générons une liste de prédictions associée à différentes variations des données d’entrée créées par TTA. Ensuite, nous utilisons BMA pour combiner les prédictions pondérées par les probabilités a posteriori respectives. BayTTA permet de prendre en compte l’incertitude du modèle, améliorant ainsi la robustesse prédictive et fournissant des estimations d’incertitude interprétables. Nous évaluons les performances de BayTTA sur divers jeux de données publiques, dont trois jeux de données d’images médicales et deux jeux de données CRISPR/Cas9 bien connus, CRISPOR et GUIDE-seq. Le troisième article, soumis à PLOS Computational Biology (révisions mineures restantes), propose une nouvelle approche d’apprentissage par transfert basée sur la similarité pour prédire des effets hors cible dans la technologie CRISPR-Cas9. L’apprentissage par transfert s’est révélé un outil puissant pour améliorer la précision prédictive dans les tâches complexes, en particulier dans les scénarios où les données sont limitées ou déséquilibrées. Notre étude explore l’utilisation de la pré-évaluation basée sur la similarité entre les jeux de données comme méthodologie pour identifier les données sources optimales pour l’apprentissage par transfert. Nous répondons ainsi au double défi de l’appariement efficace des jeux de données source-cible lors de l’apprentissage par transfert et de la prédiction des effets hors cible dans CRISPR-Cas9. En intégrant des méthodes basées sur la similarité, notre approche améliore la généralisation et la précision prédictive pour des petits jeux de données d’édition génomique. Ensemble, ces contributions font progresser l’application de l’apprentissage automatique traditionnelle et de l’apprentissage profond dans l’édition du génome en améliorant la précision des prédictions des effets hors cible et en quantifiant efficacement l’incertitude de ces prédictions. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : CRISPR-Cas9, édition du génome, apprentissage automatique, apprentissage profond, sur cibles, hors cibles, estimation de l’incertitude, apprentissage par transfert

Type:	Thèse ou essai doctoral accepté
Informations complémentaires:	Fichier numérique reçu en format PDF.
Directeur de thèse:	Makarenkov, Vladimir
Mots-clés ou Sujets:	Édition génomique / CRISPR / Apprentissage automatique / Apprentissage profond / Apprentissage par transfert / CRISPR-Cas9
Unité d'appartenance:	Faculté des sciences > Département d'informatique
Déposé par:	Service des bibliothèques
Date de dépôt:	28 mai 2026 08:46
Dernière modification:	28 mai 2026 08:46
Adresse URL :	https://archipel.uqam.ca/secure/id/eprint/20034

Modifier les métadonnées (propriétaire du document)

Statistiques

Voir les statistiques sur cinq ans...

RECHERCHER

PARCOURIR

Année

Auteur

Unité d'appartenance

LIBRE ACCÈS