Concepção RNA guia CRISPR optimizado para duas variantes Cas9 de alta fidelidade por aprendizagem profunda

Um promotor do rato U6 (mU6) expande os sítios alvo genómicos

Um desenho de biblioteca gRNA optimizado requer um grande número de sítios alvo genómicos acessíveis. A transcrição do gRNA é normalmente conduzida pelo promotor humano U6 (hU6) que se crê necessitar de guanina (G) como o primeiro nucleótido da sua transcrição1,2,3. No caso do primeiro nucleótido não ser um G, é possível substituir o primeiro nucleótido por um G ou adicionar um G extra ao final de gRNA 5′, resultando numa incompatibilidade gRNA-DNA no final de 5′. O WT-SpCas9 pode tolerar desajustes de gRNA-DNA no final de 5′, pelo que pode visar qualquer sequência N20NGG com o promotor hU61,2,3. Contudo, nucleases Cas9 altamente específicas como o eSpCas9(1.1) e SpCas9-HF1 são sensíveis a desajustes de gRNA-DNA no final de 5′ end29. Só podem visar a sequência GN19NGG quando o promotor hU6 é utilizado, limitando a selecção do local alvo.

Um estudo anterior mostrou que o promotor do rato U6 (mU6) pode iniciar ou adenine (A) ou G transcript30, o que poderia potencialmente expandir a selecção do alvo. Comparámos a actividade do promotor mU6 e do promotor hU6 por expressão transiente de gRNAs para edição de genoma em células WT-SpCas9-expressas HEK293T (Fig. 1a). O promotor mU6 mostrou actividade semelhante à do promotor hU6 para 12 gRNAs testados iniciados com G (Fig. 1b, c, Tabela 1; Suplementar Fig. 1a). Testamos nove gRNAs iniciados com A mas livres de G a 1-4 nucleótidos, evitando gRNAs truncados funcionais transcritos de G (Tabela 1). Para nossa surpresa, ambos os promotores puderam promover a edição do genoma com gRNAs iniciados com A (Fig. 1d, e; Suplemento Fig. 1b). Entre todos os nove gRNAs testados, apenas um gRNA (A8) impulsionado por hU6 mostrou baixa eficiência. Testamos nove gRNAs adicionais iniciados com A, mas continham G a 1-5 nucleótidos. Neste caso, o promotor mU6 mostrou uma actividade geralmente mais elevada do que o promotor hU6 (Suplemento Fig. 2a-c). A seguir, comparámos a actividade do promotor mU6 e do promotor hU6 em células de HeLa, e eles mostraram actividade semelhante (Suplemento Fig. 3a-f). Além disso, comparámos a actividade do promotor mU6 e do promotor hU6 num vector lentivírus, e eles mostraram actividade semelhante em dois pontos horários, dia 3 e dia 5, após a transdução (Suplementar Fig. 4a, b). Os nossos resultados são consistentes com um estudo muito recente de que o promotor hU6 pode transcrever pequenos RNAs iniciados com A31.

Fig. 1
figure1

Both mU6 promoter e hU6 promoter permitem transcrever gRNAs iniciados com A ou G para edição do genoma. um diagrama esquemático de comparação entre mU6 e hU6. Estes dois promotores foram usados para transcriptar gRNAs iniciados com A ou G nucleótido. b, c Comparação de promotores mU6 e hU6 para edição do genoma com gRNAs iniciados com G. Os dados são mostrados como média ± s.d. (n = 2). d, e Comparação do promotor mU6 para edição do genoma com gRNAs iniciados com A. Os dados são mostrados como média ± s.d. (n = 2). f Comparação do promotor mU6 para edição do genoma com gRNAs iniciados com A ou G 3 dias após a transfecção. g Comparação do promotor mU6 para edição do genoma com gRNAs iniciados com A ou G 5 dias após a transfecção. Os dados são mostrados como média ± s.d. P > 0,05; P < 0,05 por ANOVA bidireccional (n = 2). Os dados de origem são fornecidos como ficheiro de dados de origem

Table 1 gRNAs usado em Fig. 1

Next, testamos a actividade do promotor mU6 para a edição do genoma com gRNAs iniciados com C ou T, mas alterámo-los para A ou G (Tabela 1). Após 3 dias de edição de genoma, os gRNAs iniciados com G mostraram maior actividade para três dos cinco gRNAs testados (Fig. 1f; Suplementar Fig. 5a), mas a diferença foi eliminada após 5 dias (Fig. 1g; Suplementar Fig. 5b). O promotor mU6 foi escolhido no estudo seguinte.

Uma estratégia para o teste de alto rendimento da actividade de gRNA

Um estudo recente mostrou que uma estratégia guia de par RNA-alvo permite o teste de alto rendimento da actividade de gRNA para Cpf132. Nesta estratégia, as sequências de RNA-alvo-guia sintetizadas são entregues em células Cas9-expressoras por lentivírus (Fig. 2a). Após a edição do genoma, as sequências alvo são amplificadas por PCR para uma sequência profunda, permitindo a medição directa das taxas de inserção/delecção (indel) induzidas pelas nucleases Cas9. Uma vantagem adicional é que os lentivírus se integram preferencialmente em regiões transcritivamente activas que são muito mais acessíveis para a maquinaria CRISPR/Cas932,33,34, minimizando a influência da edição do genoma pela acessibilidade cromatina. Portanto, o conjunto de dados obtidos por esta estratégia proporciona a oportunidade de elucidar a actividade inerente dos gRNAs com base exclusivamente nas suas características de sequência.

Figcaption>Fig. 2
figure2
p>uma estratégia de par RNA-alvo-guia para o teste da actividade de gRNA em células humanas. um diagrama esquemático da estratégia de par RNA-alvo-guia para o teste da actividade de gRNA. Um vector lentiviral contém um promotor mU6, e um par RNA-alvo-guia guia. O vector foi utilizado para transduzir células que expressam nucleases Cas9. Os Indels seriam induzidos em alvos integrados pelos gRNAs correspondentes. b Diagrama esquemático de desenho e ecrã de alto rendimento de uma biblioteca de gRNA. Uma biblioteca de 80.263 pares guia de RNA-alvos foi concebida e sintetizada por microarranjo. Os oligonucleótidos foram amplificados por PCR e clonados em vectores lentivíricos pelo conjunto de Gibson. A biblioteca foi embalada em vírus e transduzida em células expressando nucleases Cas9 para edição do genoma. Os sítios alvo integrados foram amplificados por PCR para análise de sequenciamento profundo. c A correlação Pearson da frequência indel entre diferentes repetições de experiências. d A distribuição da actividade de gRNA para os três nucleases Cas9

Doench et al. desenvolveram uma ferramenta online que permite a concepção de gRNAs para a eliminação de genes com WT-SpCas925. Esta ferramenta digitaliza toda uma sequência de codificação de genes e classifica todos os gRNAs com base na actividade e efeitos fora do alvo. Utilizámos esta ferramenta para conceber os gRNAs para o rastreio da biblioteca. Para cada gene foram seleccionados quatro gRNAs de primeira ordem iniciados com A ou G (Fig. 2b). Também concebemos gRNAs visando microRNAs. Como os comprimentos das sequências de codificação dos microRNA são muito mais curtos do que as regiões de codificação dos genes, concebemos tipicamente três gRNAs para cada microRNA. Um total de 80.263 oligonucleótidos que contêm gRNAs e sequências alvo correspondentes (75.312 gRNAs para 19.037 genes codificadores; 4951 gRNAs para 1549 microRNAs) foram sintetizados por microarranjo (Dados Suplementares 1). Os oligonucleótidos foram amplificados por PCR e clonados nos vectores dos lentivírus através do conjunto de Gibson. A análise da biblioteca de plasmídeos por sequenciação profunda revelou que a taxa de erro (Uma leitura contém qualquer mutação foi considerada como um erro) induzida pela síntese de oligonucleótidos ou amplificação de PCR na região da sequência guia RNA-target foi de 36,5%. Esta biblioteca de plasmídeos foi utilizada nas seguintes experiências de rastreio agrupadas para perfilar a actividade do gRNA para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1.

A biblioteca foi embalada em lentivírus e transduzida em células HEK293T expressando WT-SpCas9, eSpCas9(1.1), ou SpCas9-HF1 a um MOI de 0.3. Após 5 dias de edição do genoma, o DNA genómico foi extraído, e as regiões alvo integradas foram amplificadas por PCR para sequenciação profunda (Fig. 2b). As mutações nas regiões-alvo da sequência guia RNA-target podem ser induzidas por nucleases Cas9 ou pela construção de bibliotecas. Se uma mutação pode ser encontrada na biblioteca original, foi considerada como uma mutação induzida pela construção de biblioteca e excluída da análise indel. Os indels podiam ser detectados por sequenciação profunda nos locais alvo integrados (Suplemento Fig. 6a). Obtivemos taxas válidas de gRNA indel (lê número > 100) de 55,604 (abrangendo 20,211 genes), 58,167 (abrangendo 20,315 genes), e 56,888 (abrangendo 20,270 genes) para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente (Dados Suplementares 2). Tanto quanto é do nosso conhecimento, este é o maior conjunto de gRNA em actividade alvo reportado até agora em células de mamíferos.

O ensaio de rastreio foi repetido experimentalmente duas vezes, e duas réplicas independentes mostraram um elevado nível de correlação para a taxa de indel (R = 0,92 para WT-SpCas9; R = 0,89 para eSpCas9(1,1); R = 0,91 para SpCas9-HF1, Fig. 2c). A taxa de indel dos gRNAs individuais também tem uma forte correlação entre três nucleases Cas9 (Fig. 2c), indicando que algumas características de sequência são favorecidas para estes três nucleases Cas9. A distribuição das actividades de gRNA variou notavelmente, desde a ausência de actividade até taxas de indel 100% para estes três nucleases Cas9 (Fig. 2d). O WT-SpCas9 mostrou maior eficiência de edição do que o eSpCas9(1.1) e SpCas9-HF1 na nossa triagem (Suplementar Fig. 6b). Uma vez que se tratava de clones derivados de células únicas que podiam influenciar a eficiência, seleccionámos cinco gRNAs e transformámo-los juntamente com a nuclease individual Cas9 em células. WT-SpCas9 e SpCas9-HF1 mostraram uma actividade semelhante, mas o eSpCas9(1.1) mostrou uma actividade inferior no dia 3 (Suplemento Fig. 6c), consistente com estudos anteriores15,16,

Foi relatado que o ADN plasmídeo residual de procedimentos de embalagem viral pode contaminar células transduzidas35, resultando em potenciais imprecisões na medição da actividade do gRNA. Concebemos um par de iniciadores específicos para a espinha dorsal dos plasmídeos para detectar plasmídeos residuais, e um par de iniciadores específicos para o ADN genómico do lentivírus para detectar tanto plasmídeos residuais como lentivírus integrados no genoma (Suplemento Fig. 7a). Estes dois pares de primers demonstraram uma eficiência de amplificação semelhante quando o ADN plasmídeo foi utilizado como modelo (Suplemento Fig. 7b). O ADN plasmídeo residual podia ser detectado tanto em vírus não concentrados como em vírus concentrados durante a embalagem do vírus (Suplemento Fig. 7b). Transduzimos células HEK293T e extraímos ADN genómico no 1º e 5º dia após a transdução, respectivamente. O ADN plasmídeo residual pôde ser detectado em ambas as amostras, mas as bandas PCR eram muito fracas no dia 5 com primer específico para a espinha dorsal, indicando que o plasmídeo residual se degradou com o tempo (Suplemento Fig. 7b). Em contraste, as bandas muito fortes puderam ser detectadas com primários específicos para os vírus no dia 5, indicando que quanto mais e mais lentivírus forem integrados no genoma, mais lentivírus serão integrados no genoma. Estes resultados sugerem que o ADN plasmídeo residual teve apenas uma influência mínima no ecrã da biblioteca.

Caracterização de características de sequência associadas à actividade do gRNA

Caracterização de características de sequência associadas à actividade do gRNA é crucial para o desenvolvimento de ferramentas de concepção do gRNA. Este conjunto de dados em grande escala aqui gerado permite-nos avaliar melhor quais as características que mais contribuíram para a actividade do gRNA. Algoritmos incluindo árvores de regressão de gradiente e regressão de laço têm sido utilizados para avaliar a importância das características36. No entanto, as árvores de regressão de gradiente estimulado fornecem pontuações de importância Gini que apenas reflectem o valor absoluto da contribuição das características, causando a perda de informação relativa à direcção do efeito; a regressão de laço apresenta uma fraca capacidade descritiva. Felizmente, um algoritmo recentemente desenvolvido SHAP (SHapley Additive exPlanation), uma abordagem unificada para explicar o resultado de qualquer modelo de aprendizagem da máquina, pode potencialmente abordar estas limitações37.

Conectamos XGBoost com SHAP (denominado Tree SHAP) para avaliar a importância de 1031 características, incluindo características identificadas por Doench e Wong et al.25,38, e todas as acessibilidades de posição das características da estrutura secundária do gRNA (Dados Suplementares 3, 4). Globalmente, as pontuações previstas foram fortemente influenciadas pela composição dos nucleótidos dependentes da posição para três nucleótidos Cas9 (Fig. 3a-c; Dados Suplementares 4). O nucleótido mais favorecido foi o G na posição 20 (G_20), o nucleótido imediatamente adjacente à sequência PAM. Outras características importantes sobrepostas no top 20 para três nucleótidos são temperatura de fusão (Tm, favorecida), número de dímeros TT (desfavorecida), C_18 (favorecida), energia livre auto-dobrável (favorecida), e G_14 (desfavorecida).

Fig. 3
figure3

Análise da importância das características associadas à actividade do gRNA por Tree SHAP. a-c Top 20% de características importantes identificadas por Tree SHAP para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente. Os nucleótidos, assim como a sua posição, foram mostrados à esquerda. GG_19 significa GG dimer start na posição 19. Tm significa temperatura de fusão

A seguir avaliamos a composição dos nucleótidos dependente da posição dos 25% mais altos gRNAs activos versus os 25% mais baixos gRNAs activos. Os resultados revelaram que G era geralmente favorecido, e T era geralmente desfavorecido (Fig. 4a-c; Dados Suplementares 5). G_20 foi fortemente favorecido para todos os três nucleases Cas9, consistente com a análise de Tree SHAP. As diferenças de preferência dos nucleótidos entre as variantes WT-SpCas9 e SpCas9 também foram observadas. As diferenças de nucleótidos favorecidos na posição 3 (C/G vs G), 9 (G vs C/G), 10 (A/G vs A/C), 14 (C vs A/T), 16 (A/C vs C), 17 (G vs A), e 18 (C/G vs C) foram observadas entre WT-SpCas9 e eSpCas9(1.1). As diferenças de nucleótidos favorecidos na posição 3 (C/G vs G), 5 (G vs C/T), 7 (C/G vs G), 9 (G vs C/G), 10 (A/G vs C), 12 (A/G vs A), 14 (C vs A/T), 17 (G vs A/C), e 18 (C/G vs C) foram observadas entre WT-SpCas9 e SpCas9-HF1. Além disso, analisámos a composição dos nucleótidos independente da posição com gRNAs 20% activos (Fig. 4d-f). Os conteúdos G (favorecido) e T (desfavorecido) influenciaram fortemente a actividade dos gRNA, enquanto que os conteúdos A e C influenciaram ligeiramente a actividade dos gRNA para três nucleótidos Cas9, consistente com os valores de Tree SHAP.

Fig. 4
figure4
p>Influência da composição dos nucleótidos na actividade do gRNA. a-c A composição dos nucleótidos dependente da posição dos 25% mais altos gRNA activos versus os 25% mais baixos gRNAs activos. As barras mostraram pontuações de log-odds da frequência dos nucleótidos para cada posição. Os números abaixo indicavam a posição dos nucleótidos no ADN alvo. d-f A associação de cada número de nucleótidos com a actividade dos gRNA. O tamanho dos círculos indicou a frequência indel

Desempenho dos algoritmos convencionais

Além de gerar conjuntos de dados de actividade de gRNA, outro objectivo deste trabalho foi o de desenvolver ferramentas de previsão para a concepção de gRNA. Avaliámos o desempenho de quatro algoritmos convencionais de previsão da actividade de gRNA, incluindo regressão linear, regressão linear regularizada L2 (Ridge regression), regressão XGBoost, e modelos de perceptron multicamadas (MLP) com conjuntos de dados gerados neste estudo. Para evitar o sobre-ajuste, separámos aleatoriamente o conjunto de dados em dois subgrupos com 85% dos dados utilizados como conjunto de dados de treino para treinar os modelos, e os restantes 15% utilizados para testar a capacidade de generalização dos modelos treinados (Fig. 5a). Para alcançar um desempenho óptimo, as características com altos valores de SHAP de árvores foram modeladas nos algoritmos (Dados Suplementares 4).

Fig. 5
figure5
p> desempenho de diferentes algoritmos para previsão de actividade gRNA. um Esquema de conjunto de dados e algoritmos convencionais. Foram construídos quatro algoritmos convencionais incluindo regressão linear, regressão de cristas, regressão XGBoost, e MLP, respectivamente. No total, 85% do conjunto de dados relevante foi utilizado como conjunto de treino, e os 15% reservados do conjunto de dados em cada conjunto como conjunto de teste para medir a capacidade de generalização de cada modelo para prever dados não vistos. b Esquema do conjunto de dados e algoritmos de aprendizagem profunda. Foram construídos algoritmos de aprendizagem profunda, incluindo CNN, RNN, e RNNN + biofeatureza, respectivamente. No total, 76,5% do conjunto de dados relevantes foi utilizado como conjunto de formação, 8,5% do conjunto de dados em cada conjunto foi utilizado como conjunto de validação, e os 15% reservados do conjunto de dados em cada conjunto foi utilizado como conjunto de teste para medir a capacidade de generalização de cada modelo para prever dados não vistos. c-e Desempenho de diferentes algoritmos para a previsão da actividade do gRNA revelada pela correlação Spearman para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente. O gráfico de barras mostra a média ± s.d. para o coeficiente de correlação de Spearman entre a pontuação de actividade de gRNA prevista e medida (n = 10)

De quatro algoritmos aqui testados, o MLP é o mais preditivo, com coeficientes de correlação de Spearman de 0.8416, 0,8457, e 0,8440 para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente (Fig. 5c-e; Dados Suplementares 6-8). XGBoost é o segundo mais preditivo, com coeficientes de correlação Spearman de 0,8454, 0,8310, e 0,8184 para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente. A regressão linear e a regressão de cristas também tiveram um bom desempenho, mas com uma pontuação de correlação relativamente mais baixa. Tentámos também a regressão de laço e a regressão SVM. Mas o coeficiente de penalização para a regressão do laço é quase zero, o que a tornou equivalente ao modelo linear. A regressão SVM não conseguiu terminar a avaliação comparativa na escala actual do conjunto de dados dentro de um prazo razoável (3 semanas). Foram abandonados na comparação final.

Desempenho dos algoritmos de aprendizagem profunda

Estudos recentes mostraram que dois algoritmos baseados na aprendizagem profunda, rede neural convolucional (CNN) e rede neural recorrente (RNNN), são ferramentas poderosas para análise relacionada com a sequência DNA/proteína39,40,41,42,43. Poderiam obter características úteis da sequência de ADN/proteína em bruto automaticamente sem necessidade de engenharia de características. A CNN tem sido utilizada para prever a actividade do gRNA para Cpf1 e WT-SpCas926,27, enquanto que o RNNN não tem sido utilizado para a previsão da actividade do gRNA até agora. Treinámos tanto a CNN como o RNN para a previsão da actividade de gRNA. Para evitar o excesso de ajuste, separámos aleatoriamente o conjunto de dados em três subgrupos com 76,5% dos dados utilizados como conjunto de dados de formação para treinar os modelos, 8,5% utilizados como conjunto de dados de validação, e os restantes 15% utilizados para testar a capacidade de generalização dos modelos formados (Fig. 5b).

RNN superou a CNN e outros algoritmos para previsão da actividade do gRNA com coeficientes de correlação Spearman de 0,8555, 0,8491, e 0,8512 para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente (Fig. 5c-e; Dados Suplementares 6-8). A CNN obteve desempenho semelhante ao XGBoost com coeficientes de correlação Spearman de 0,8455, 0,8313, e 0,8343 para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente.

Um modelo integrado melhora o poder preditivo

A espinha dorsal dos algoritmos de aprendizagem profunda (CNN ou RNNN) só pode explorar a composição k-mer ou as suas dependências39,44. Estudos recentes sobre a previsão relacionada com proteínas mostraram que a capacidade de previsão dos modelos de aprendizagem profunda poderia ser aumentada pela adição de outras características, tais como peso molecular, hidrofobicidade, e carga absoluta, que não poderiam ser obtidas automaticamente por modelos de aprendizagem profunda45,46. No nosso trabalho, as características de sequência indirecta, incluindo as acessibilidades de posição da estrutura secundária, o ciclo estaminal da estrutura secundária, a temperatura de fusão e o conteúdo de GC estão fortemente associados à actividade do gRNA (Dados Suplementares 4), mas não poderiam ser obtidos por aprendizagem profunda. Considerando que o modelo RNN alcançou o melhor desempenho de todos os algoritmos, combinámos assim estas características biológicas com o RNN para a previsão da actividade do gRNA. Curiosamente, a adição destas características ao RNN aumentou o poder de previsão, com coeficientes de correlação de Spearman de 0,8670, 0,8624, e 0,8603 para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente (Fig. 5c-e). Portanto, o RNN integrado com características biológicas (doravante referido como RNN + Biofeatureza) foi utilizado como modelo final para a previsão da actividade do gRNA (Fig. 6).

Fig. 6
figure6

modelo de previsão da actividade do gRNA. A sequência original do gRNA é primeiro codificada e depois incorporada para obter uma nova representação. Esta nova representação é posteriormente processada por um BiLSTM para obter a representação final que é depois concatenada com características artesanais para servir como entrada da camada totalmente ligada para ser transformada não-linearmente. Finalmente, é realizada uma transformação linear para obter a pontuação de previsão

Para testar ainda mais o desempenho de sete modelos utilizados neste estudo, gerámos uma lista de taxas de gRNA indel para sítios endógenos (85 sítios para WT-SpCas9, 81 sítios para eSpCas9(1.1), e 82 sítios para SpCas9-HF1) (Dados Suplementares 9). Todos os sete modelos funcionaram consideravelmente bem, mas a regressão linear e a regressão de cristas foram menos preditivas com base na métrica de correlação de Spearman (Dados Suplementares 8-10). Devido ao conjunto de dados limitado aqui, não pudemos concluir qual o algoritmo que era estatisticamente melhor do que outros algoritmos em locais endógenos. Também investigámos a correlação da frequência indel nos alvos sintéticos com a dos alvos endógenos correspondentes. A correlação Spearman é de 0,722, 0,767, e 0,730 para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente (Suplementar Fig. 11a-c).

Comparação do modelo RNN + Biofeatureza com modelos existentes

Existem vários conjuntos de dados de eficiência de gRNA disponíveis publicamente para WT-SpCas9, o que nos permite comparar o desempenho do modelo RNNN + Biofeatureza para WT-SpCas9 (daqui em diante referido como DeepWt) com modelos de previsão existentes. Testamos o DeepWt contra 18 conjuntos de dados endógenos recolhidos por Haeussler et al.47, e obtivemos coeficientes de correlação Spearman que variaram de 0,129 a 0,594 (Dados Suplementares 10). Foi relatado que o modelo de previsão depende fortemente de o gRNA ser expresso a partir de um promotor U6 em células ou a partir de um promotor T7 in vitro47,48. Por conseguinte, a estratégia de aprendizagem de transferência foi utilizada para melhorar a capacidade de previsão do nosso modelo sob diferentes condições de expressão. Para a expressão do promotor U6, o desempenho foi melhorado através da afinação da última camada oculta do DeepWt com o conjunto de dados XuKBM (Dados Suplementares 10). O nosso modelo final optimizado, denominado DeepWt_U6, superou outras sete ferramentas populares de design gRNA (Fig. 7a). Notavelmente, uma vez que a nossa biblioteca gRNA foi concebida, em parte, por RuleSet2 que foi desenvolvida por conjuntos de dados Doench, esta comparação pode ter um viés para o DeepWt_U6 nos conjuntos de dados Doench. Para a expressão promotora T7, desenvolvemos outro modelo chamado DeepWt_T7 através do ajustamento fino do algoritmo RNN + biofeatureza com o conjunto de dados Moreno-Mateos2015. Este modelo superou outros modelos de concepção de gRNAs expressos in vitro (Fig. 7b).

Fig. 7
figure7

Heatmap of Spearman rank correlation coefficients between efficiency scores and data sets. a gRNAs transribed in cells from a U6 promoter. b gRNAs transribed in vitro from a T7 promoter. Tipo de célula, o número de gRNAs, e espécies são mostrados à esquerda. As pontuações são mostradas ao longo do eixo horizontal, os conjuntos de dados na vertical. As correlações de um algoritmo em relação ao seu próprio conjunto de dados de treino são mostradas a cinzento, uma vez que é provável que sejam sobrestimadas devido a um ajuste excessivo. As pontuações mais altas estão em negrito

Foi relatado que a integração da métrica de acessibilidade do local alvo no modelo poderia melhorar o poder de previsão26,27. Para WT-SpCas9, afinámos o modelo DeepWt_U6 com dados DNase I da linha de células KBM-7 obtidos de ENCODE, resultando no modelo DeepWt_Chromatin. Os conjuntos de dados Wang/Xu HL60 e Hart Hct116-2 Lib 1, bem como os dados correspondentes do DNase I foram utilizados para testar o desempenho do DeepWt_Chromatin. Contudo, as pontuações de correlação Spearman não foram melhoradas (Dados Suplementares 11). Também recuperámos dados DNase I de células HEK293T da base de dados ENCODE e testámos se a integração de métricas nos modelos poderia melhorar o poder de previsão do eSpCas9(1.1) e SpCas9-HF1. Os dados DNase I foram processados seguindo o método descrito por Kim et al.26. Contudo, a incorporação destes dados não poderia aumentar significativamente a capacidade de previsão (dez vezes mais validação embaralhada) para o eSpCas9(1.1) e SpCas9-HF1 (Dados Suplementares 12).

Nucleótidos revelados por Deep SHAP

Além da precisão de previsão, estamos também interessados em compreender os mecanismos do modelo de aprendizagem profunda. Lundberg e Lee49 desenvolveram um algoritmo chamado Deep SHAP, que é um algoritmo de aproximação de alta velocidade para valores SHAP em modelos de aprendizagem profunda. Utilizámos SHAP profundo para estimar a contribuição dos nucleótidos dependentes da posição para o modelo de aprendizagem profunda. A contribuição de cada nucleótido dependente da posição para a actividade de gRNA foi calculada a partir do valor médio dessa posição em todos os gRNAs de formação. Para tornar a contribuição dos nucleótidos comparável entre WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, os valores de SHAP profundo foram redimensionados pelo Z-score (i.e., padronização). O nucleótido com um Z-score acima de 1 ou abaixo de -1 foi considerado como tendo uma contribuição significativa para a actividade do gRNA (Suplemento Fig. 12a).

Existiam 16, 21, e 26 nucleótidos significativos no WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1, respectivamente. O resultado revelou que G tipicamente tinha uma contribuição positiva e T tipicamente tinha uma contribuição negativa, de acordo com a observação anterior de que Cas9 liga preferencialmente gRNAs contendo purinas mas não pirimidinas50. Além disso, os múltiplos Ts no espaçador causaram uma baixa expressão de gRNA51. Verificámos que a maioria dos nucleótidos significativos tinham a mesma direcção de contribuição para a actividade do gRNA nos três nucleótidos Cas9. Consistente com vários relatórios anteriores38,52, o mais influente foram os nucleotídeos na posição 20, onde G_20 teve uma forte contribuição positiva e C_20/T_20 teve uma forte contribuição negativa. Em comparação com WT-SpCas9, eSpCas9(1.1) – os motivos específicos incluíram A_15 (favorecido), A_17 (favorecido), G_6-8 (favorecido), G_14 (desfavorecido), G_16 (desfavorecido), T_6 (desfavorecido), T_11-12 (desfavorecido); Os motivos específicos SpCas9-HF1 incluíram A_11 (favorecido), A_13 (desfavorecido), A_14-15 (favorecido), A_19-20 (desfavorecido), G_6-7 (favorecido), G_14 (desfavorecido), G_16 (desfavorecido), T_4 (desfavorecido), T_6 (desfavorecido), e T_11 (desfavorecido) (fig. suplementar). 12a).

Além disso, a diferença de pontuação Z entre as variantes Cas9 e WT-SpCas9 foi calculada para avaliar as alterações nas contribuições de nucleótidos. A diferença acima de 1 ou abaixo de -1 foi considerada como tendo uma alteração significativa (Suplemento Fig. 12b). Foram observadas várias diferenças na direcção da contribuição dos nucleótidos significativos. Especificamente, A_13 contribuiu negativamente para SpCas9-HF1 mas não para WT-SpCas9, G_17 contribuiu positivamente para WT-SpCas9 mas não para eSpCas9(1.1) e HF1-SpCas9, G_18 contribuiu positivamente para WT-SpCas9 mas contribuiu negativamente para eSpCas9(1).1) (também para HF1-SpCas9, mas não significativo).

A contribuição dos nucleótidos repetitivos para as actividades de gRNA também foi investigada com base na soma dos valores de SHAP profundo. Para WT-SpCas9, estudo anterior mostrou que um trecho de nucleotídeos adjacentes idênticos (nucleotídeos repetitivos, tais como GGGG ou TTTT) poderia estar associado à baixa eficiência de um sgRNA38. No entanto, não consideraram os efeitos de posição. Por conseguinte, calculámos os valores médios de SHAP profundo dos quatro nucleótidos repetitivos, incluindo AAAA, CCCC, GGGG, e TTTT da posição 1 a 18 (Dados Suplementares 13). Os nossos resultados demonstraram que os nucleótidos de repetição geralmente diminuíram a eficiência indel, de acordo com o estudo de Wong et al.’38. Contudo, foi observada a contribuição positiva dos nucleótidos repetitivos em algumas posições, incluindo GGGGG a partir da posição 1-5 e 16-18, AAAA a partir da posição 14, CCCC a partir da posição 1-2 e 15-18 (Dados Suplementares 13). A contribuição positiva dos nucleótidos de repetição em algumas posições também foi observada para eSpCas9 (1.1) e SpCas9-HF1. Por exemplo, AAAA a partir da posição 14-15 contribuiu positivamente para as actividades de gRNA para ambas as nucleases Cas9 (Dados Suplementares 13).

A correlação da frequência de indel com o fenótipo

Neste estudo, utilizámos a taxa de indel como rótulo da actividade de gRNA, que não é igual à eficiência real de eliminação de genes. Testamos a correlação entre a frequência de indel e a perturbação genética real com um ensaio baseado em proteínas. Concebemos um total de nove gRNAs visando SIRT1, SIRT2, e SIRT6 com três gRNAs para cada um. Os gRNAs e as nucleases Cas9 foram introduzidos em células HEK293T com um vector episomal que permitiu a edição do genoma a longo prazo5. A frequência indel e a expressão proteica foram analisadas no 9º dia após a transfecção. Os resultados revelaram que as frequências de indel tinham uma boa correlação com a expressão de proteínas (r = 0,82; Suplemento Fig. 13a, b). Além disso, a correlação entre a frequência do indel e a perturbação genética real foi testada por um ensaio de luciferase repórter. Concebemos um total de 11 gRNAs visando o gene da luciferase. Cinco dias após a edição do genoma, foi analisada a frequência de indel e a actividade luciferase. Os resultados revelaram que as frequências de indel tinham uma boa correlação com a actividade luciferase (r = 0,70, Suplemento Fig. 13c-e).

A correlação entre a eficiência on-target e off-target

O objectivo deste trabalho é conceber gRNAs com melhor actividade on-target, mas tais gRNAs podem ter uma maior tolerância a desajustes e assim induzir maiores mutações off-target. Para testar esta hipótese, seleccionámos três gRNAs com actividade diferente e concebemos pares de gRNAs com dupla descoordenação (Suplementar Fig. 14a). A clivagem fora do alvo ocorreu eficientemente com sequências alvo contendo desajustes na posição 1-8 para WT-SpCas9 (Suplemento Fig. 14b). Como esperado, uma maior actividade dentro do alvo levou geralmente a uma maior actividade fora do alvo. Para o eSpCas9(1.1) e SpCas9-HF1, no entanto, a clivagem fora do alvo foi ao nível de fundo, excepto os desajustes na posição 7-8, onde o site1-gRNA apresentou uma clivagem alta fora do alvo (Suplemento Fig. 14b). Tolerância de desencontro semelhante foi também observada por Slaymaker et al.15Site2-gRNA tinha actividade comparável ao site1-gRNA, mas a sua clivagem fora do alvo estava ao nível de fundo, indicando que a tolerância de desencontro depende de sequências de gRNA.

Online service

Finalmente desenvolvemos uma ferramenta online chamada DeepHF (Deep learning for High-Fidelity Cas9) baseada no RNN + modelo de biofeatureza para gRNA design para WT-SpCas9, eSpCas9(1.1), e SpCas9-HF1. A ferramenta online contém três módulos funcionais, nomeadamente módulo de previsão, módulo de gRNAs verificado, e módulo de design. O módulo de previsão permite aos utilizadores obter actividades de previsão para todos os gRNAs com uma sequência de ADN de entrada. O módulo de gRNAs verificados fornece todas as taxas de gRNA indel geradas neste estudo. O módulo de desenho fornece gRNAs que são adequados para a eliminação de genes com eSpCas9(1.1) e SpCas9-HF1 em células humanas. Neste módulo, os gRNAs foram escolhidos a partir de transcrições comuns de cada gene (Genome Reference Consortium Human Build 38). A informação off-target (1-3 mismatch considerados como off-target) e a localização do alvo (se na sequência de codificação de 5-65%) também foram anotadas. Os utilizadores podem obter os gRNAs pré-desenhados através da introdução de um ID de gene ou de um símbolo genético. O website está disponível gratuitamente em http://www.DeepHF.com/.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *