Un promoteur U6 (mU6) de souris élargit les sites de ciblage génomique
Une conception optimale de bibliothèque d’ARNg nécessite un grand nombre de sites cibles génomiques accessibles. La transcription de l’ARNg est généralement pilotée par le promoteur humain U6 (hU6), dont on pense qu’il nécessite la guanine (G) comme premier nucléotide de sa transcription1,2,3. Dans le cas où le premier nucléotide n’est pas un G, il est possible de remplacer le premier nucléotide par un G ou d’ajouter un G supplémentaire à l’extrémité 5′ de l’ARNg, ce qui entraîne un mismatch ARNg-ADN à l’extrémité 5′. WT-SpCas9 peut tolérer les mésappariements ARNg-ADN à l’extrémité 5′, il peut donc cibler toute séquence N20NGG avec le promoteur hU61,2,3. Cependant, les nucléases Cas9 hautement spécifiques telles que eSpCas9(1.1) et SpCas9-HF1 sont sensibles aux mésappariements ARNg-ADN à l’extrémité 5′29. Elles ne peuvent cibler la séquence GN19NGG que lorsque le promoteur hU6 est utilisé, ce qui limite la sélection du site cible.
Une étude précédente a montré que le promoteur U6 (mU6) de la souris peut initier une transcription en adénine (A) ou en G30, ce qui pourrait potentiellement élargir la sélection des cibles. Nous avons comparé l’activité du promoteur mU6 et du promoteur hU6 par l’expression transitoire de gRNA pour l’édition du génome dans des cellules HEK293T exprimant WT-SpCas9 (Fig. 1a). Le promoteur mU6 a montré une activité similaire à celle du promoteur hU6 pour 12 gRNA testés initiés par G (Fig. 1b, c, Tableau 1 ; Fig. 1a supplémentaire). Nous avons testé neuf ARNg initiés avec A mais sans G sur 1-4 nucléotides, évitant ainsi les ARNg tronqués fonctionnels transcrits à partir de G (Tableau 1). À notre grande surprise, les deux promoteurs pouvaient favoriser l’édition du génome avec des ARNg initiés par A (Fig. 1d, e ; Fig. 1b supplémentaire). Parmi les neuf ARNg testés, seul un ARNg (A8) piloté par hU6 a montré une faible efficacité. Nous avons testé neuf autres ARNg initiés par A, mais contenant G à 1-5 nucléotides. Dans ce cas, le promoteur mU6 a montré une activité généralement plus élevée que le promoteur hU6 (figures supplémentaires 2a-c). Ensuite, nous avons comparé l’activité du promoteur mU6 et du promoteur hU6 dans les cellules HeLa, et ils ont montré une activité similaire (figures supplémentaires 3a-f). De plus, nous avons comparé l’activité du promoteur mU6 et du promoteur hU6 dans un vecteur lentivirus, et ils ont montré une activité similaire à deux moments, le troisième et le cinquième jour, après la transduction (figures supplémentaires 4a, b). Nos résultats sont cohérents avec une étude très récente selon laquelle le promoteur hU6 peut transcrire des petits ARN initiés avec A31.
Puis, nous avons testé l’activité du promoteur mU6 pour l’édition du génome avec des gRNA initiés par C ou T, mais modifiés en A ou G (Tableau 1). Après 3 jours d’édition du génome, les ARNg initiés avec G ont montré une activité plus élevée pour trois des cinq ARNg testés (Fig. 1f ; Fig. 5a supplémentaire), mais la différence a été éliminée après 5 jours (Fig. 1g ; Fig. 5b supplémentaire). Le promoteur mU6 a été choisi dans l’étude suivante.
Une stratégie de test à haut débit de l’activité des ARNg
Une étude récente a montré qu’une stratégie de paire ARN guide-cible permet de tester à haut débit l’activité des ARNg pour Cpf132. Dans cette stratégie, les séquences guide-ARN-cible synthétisées sont délivrées dans des cellules exprimant Cas9 par des lentivirus (Fig. 2a). Après édition du génome, les séquences cibles sont amplifiées par PCR pour un séquençage profond, ce qui permet de mesurer directement les taux d’insertion/délétion (indel) induits par les nucléases Cas9. Un autre avantage est que les lentivirus s’intègrent préférentiellement dans les régions transcriptionnellement actives qui sont beaucoup plus accessibles pour la machinerie CRISPR/Cas932,33,34, minimisant l’influence de l’édition du génome par l’accessibilité de la chromatine. Par conséquent, l’ensemble des données obtenues par cette stratégie offre la possibilité d’élucider l’activité inhérente des ARNg en se basant exclusivement sur leurs caractéristiques de séquence.
Doench et al. ont développé un outil en ligne qui permet de concevoir des gRNA pour le knockout de gènes avec WT-SpCas925. Cet outil scanne une séquence codant pour un gène entier et classe tous les gRNA en fonction de leur activité et des effets hors cible. Nous avons utilisé cet outil pour concevoir des ARNg pour le criblage de la bibliothèque. Quatre ARNg les mieux classés, initiés par A ou G, ont été sélectionnés pour chaque gène (Fig. 2b). Nous avons également conçu des ARNg ciblant les microARN. Comme la longueur des séquences codantes des microARN est beaucoup plus courte que celle des régions codantes des gènes, nous avons généralement conçu trois ARNg pour chaque microARN. Un total de 80 263 oligonucléotides contenant des gRNA et les séquences cibles correspondantes (75 312 gRNA pour 19 037 gènes codants ; 4951 gRNA pour 1549 microARN) ont été synthétisés par microarray (Données supplémentaires 1). Les oligonucléotides ont été amplifiés par PCR et clonés dans les vecteurs lentivirus par assemblage de Gibson. L’analyse de la bibliothèque de plasmides par séquençage profond a révélé que le taux d’erreur (une lecture contenant une quelconque mutation était considérée comme une erreur) induit par la synthèse des oligonucléotides ou l’amplification par PCR au niveau de la région de la séquence cible de l’ARN guide était de 36,5 %. Cette bibliothèque de plasmides a été utilisée dans les expériences de criblage groupé suivantes pour profiler l’activité des ARNg pour WT-SpCas9, eSpCas9(1.1) et SpCas9-HF1.
La bibliothèque a été empaquetée dans des lentivirus et transduite dans des cellules HEK293T exprimant WT-SpCas9, eSpCas9(1.1) ou SpCas9-HF1 à une MOI de 0,3. Après 5 jours d’édition du génome, l’ADN génomique a été extrait, et les régions cibles intégrées ont été amplifiées par PCR pour un séquençage profond (Fig. 2b). Les mutations au niveau des régions de séquence cible de l’ARN guide peuvent être induites soit par les nucléases Cas9, soit par la construction de librairies. Si une mutation peut être trouvée dans la bibliothèque originale, elle a été considérée comme une mutation induite par la construction de la bibliothèque et exclue de l’analyse des indels. Les indels ont pu être détectés par séquençage profond sur les sites cibles intégrés (figure supplémentaire 6a). Nous avons obtenu des taux d’indels gRNA valides (nombre de lectures > 100) de 55 604 (couvrant 20 211 gènes), 58 167 (couvrant 20 315 gènes), et 56 888 (couvrant 20 270 gènes) pour WT-SpCas9, eSpCas9(1.1), et SpCas9-HF1, respectivement (Données supplémentaires 2). À notre connaissance, il s’agit des plus grands ensembles d’activité sur cible des gRNA rapportés jusqu’à présent dans les cellules de mammifères.
Le test de criblage a été répété expérimentalement deux fois, et deux répliques indépendantes ont montré un niveau élevé de corrélation pour le taux d’indel (R = 0,92 pour WT-SpCas9 ; R = 0,89 pour eSpCas9(1.1) ; R = 0,91 pour SpCas9-HF1, figure 2c). Le taux d’indel des gRNA individuels présente également une forte corrélation entre les trois nucléases Cas9 (Fig. 2c), ce qui indique que certaines caractéristiques de la séquence sont favorisées pour ces trois nucléases Cas9. La distribution des activités des gRNA varie remarquablement, de l’absence d’activité à un taux d’indel de 100 % pour ces trois nucléases Cas9 (Fig. 2d). WT-SpCas9 a montré une plus grande efficacité d’édition que eSpCas9(1.1) et SpCas9-HF1 dans notre criblage (Fig. 6b supplémentaire). Étant donné qu’il s’agissait de clones dérivés de cellules uniques pouvant influencer les efficacités, nous avons sélectionné cinq gRNA et les avons transfectés avec la nucléase Cas9 individuelle dans des cellules. WT-SpCas9 et SpCas9-HF1 ont montré une activité similaire, mais eSpCas9(1.1) a montré une activité plus faible au jour 3 (figure supplémentaire 6c), ce qui est cohérent avec les études précédentes15,16.
Il a été signalé que l’ADN plasmidique résiduel des procédures d’emballage viral peut contaminer les cellules transduites35, ce qui entraîne des inexactitudes potentielles dans la mesure de l’activité des gRNA. Nous avons conçu une paire d’amorces spécifiques du squelette des plasmides pour détecter les plasmides résiduels, et une paire d’amorces spécifiques de l’ADN génomique du lentivirus pour détecter à la fois les plasmides résiduels et les lentivirus intégrés dans le génome (figure supplémentaire 7a). Ces deux paires d’amorces ont montré une efficacité d’amplification similaire lorsque l’ADN plasmidique était utilisé comme modèle (figure supplémentaire 7b). L’ADN plasmidique résiduel a pu être détecté à la fois dans les virus non concentrés et dans les virus concentrés pendant le conditionnement du virus (figure supplémentaire 7b). Nous avons transduit des cellules HEK293T et extrait l’ADN génomique au jour 1 et au jour 5 après la transduction, respectivement. L’ADN plasmidique résiduel a pu être détecté dans les deux échantillons, mais les bandes PCR étaient très faibles au jour 5 avec l’amorce spécifique du squelette, ce qui indique que le plasmide résiduel s’est dégradé avec le temps (figure supplémentaire 7b). En revanche, des bandes très fortes ont pu être détectées avec les amorces spécifiques aux virus au jour 5, ce qui indique que de plus en plus de lentivirus se sont intégrés au génome. Ces résultats suggèrent que l’ADN plasmidique résiduel n’a eu qu’une influence minime sur le criblage de la bibliothèque.
Les caractéristiques de séquence associées à l’activité des gRNA
La caractérisation des caractéristiques de séquence associées à l’activité des gRNA est cruciale pour le développement d’outils de conception de gRNA. L’ensemble de données à grande échelle généré ici nous permet de mieux évaluer quelles caractéristiques ont le plus contribué à l’activité des gRNA. Des algorithmes tels que les arbres de régression boostés par gradient et la régression lasso ont été utilisés pour évaluer l’importance des caractéristiques36. Cependant, les arbres de régression boostés par gradient fournissent des scores d’importance de Gini qui ne reflètent que la valeur absolue de la contribution des caractéristiques, ce qui entraîne la perte d’informations concernant la direction de l’effet ; la régression lasso présente une faible capacité descriptive. Heureusement, un algorithme récemment développé SHAP (SHapley Additive exPlanation), une approche unifiée pour expliquer la sortie de tout modèle d’apprentissage automatique, peut potentiellement répondre à ces limitations37.
Nous avons connecté XGBoost avec SHAP (appelé Tree SHAP) pour évaluer l’importance de 1031 caractéristiques, y compris les caractéristiques identifiées par Doench et Wong et al.25,38, et toutes les accessibilités de position des caractéristiques de la structure secondaire des gRNA (Données supplémentaires 3, 4). Dans l’ensemble, les scores prédits ont été fortement influencés par la composition nucléotidique dépendant de la position pour trois nucléases Cas9 (Fig. 3a-c ; Données supplémentaires 4). Le nucléotide le plus favorisé était G en position 20 (G_20), le nucléotide immédiatement adjacent à la séquence PAM. D’autres caractéristiques importantes se chevauchent dans le top 20 pour trois nucléases : la température de fusion (Tm, favorisée), le nombre de dimères TT (défavorisé), C_18 (favorisé), l’énergie libre d’auto-pliement (favorisée) et G_14 (défavorisé).
Nous avons ensuite évalué la composition nucléotidique dépendante de la position des 25 % d’ARNg actifs les plus élevés par rapport aux 25 % d’ARNg actifs les plus bas. Les résultats ont révélé que G était généralement favorisé, et que T était généralement défavorisé (Fig. 4a-c ; Données supplémentaires 5). G_20 était fortement favorisé pour les trois nucléases Cas9, ce qui correspond à l’analyse SHAP de l’arbre. Les différences de préférence nucléotidique entre les variantes WT-SpCas9 et SpCas9 ont également été observées. Les différences de nucléotide favorisé en position 3 (C/G vs G), 9 (G vs C/G), 10 (A/G vs A/C), 14 (C vs A/T), 16 (A/C vs C), 17 (G vs A) et 18 (C/G vs C) ont été observées entre WT-SpCas9 et eSpCas9(1.1). Les différences de nucléotide favorisé en position 3 (C/G vs G), 5 (G vs C/T), 7 (C/G vs G), 9 (G vs C/G), 10 (A/G vs C), 12 (A/G vs A), 14 (C vs A/T), 17 (G vs A/C), et 18 (C/G vs C) ont été observées entre WT-SpCas9 et SpCas9-HF1. En outre, nous avons analysé la composition nucléotidique indépendante de la position avec les 20 % d’ARNg les plus actifs (Fig. 4d-f). Le contenu G (favorisé) et T (défavorisé) a fortement influencé l’activité des gRNA, tandis que le contenu A et C a légèrement influencé l’activité des gRNA pour trois nucléases Cas9, ce qui est cohérent avec les valeurs SHAP de l’arbre.
Performance des algorithmes conventionnels
En plus de générer des ensembles de données sur l’activité des gRNA, un autre objectif de ce travail était de développer des outils de prédiction pour la conception de gRNA. Nous avons évalué les performances de quatre algorithmes conventionnels de prédiction de l’activité des gRNA, notamment la régression linéaire, la régression linéaire régularisée L2 (régression Ridge), la régression XGBoost et les modèles de perceptron multicouche (MLP) avec les ensembles de données générés dans cette étude. Pour éviter un ajustement excessif, nous avons séparé aléatoirement l’ensemble de données en deux sous-groupes, 85 % des données étant utilisées comme ensemble de données de formation pour former les modèles, et les 15 % restants étant utilisés pour tester la capacité de généralisation des modèles formés (Fig. 5a). Pour obtenir des performances optimales, les caractéristiques présentant des valeurs élevées de Tree SHAP ont été modélisées dans les algorithmes (données supplémentaires 4).