banner
Lar / Notícias / Análise de correspondência para redução de dimensão, integração em lote e visualização de
Notícias

Análise de correspondência para redução de dimensão, integração em lote e visualização de

May 16, 2023May 16, 2023

Scientific Reports volume 13, Número do artigo: 1197 (2023) Citar este artigo

3634 Acessos

1 Citações

20 Altmétrico

Detalhes das métricas

A redução efetiva da dimensão é essencial para a análise de RNA-seq (scRNAseq) de célula única. A análise de componentes principais (PCA) é amplamente utilizada, mas requer dados contínuos e normalmente distribuídos; portanto, é frequentemente associado à transformação de log em aplicativos scRNAseq, o que pode distorcer os dados e obscurecer a variação significativa. Descrevemos a análise de correspondência (CA), uma alternativa baseada em contagem ao PCA. A CA é baseada na decomposição de uma matriz residual qui-quadrada, evitando a transformação logarítmica distorcida. Para lidar com a superdispersão e a alta dispersão nos dados scRNAseq, propomos cinco adaptações de CA, que são rápidas, escaláveis ​​e superam CA e glmPCA padrão, para calcular incorporações de células com precisão de agrupamento comparável ou de melhor desempenho em 8 de 9 conjuntos de dados. Em particular, descobrimos que CA com resíduos de Freeman-Tukey tem um desempenho especialmente bom em diversos conjuntos de dados. Outras vantagens da estrutura CA incluem visualização de associações entre genes e populações de células em um "CA biplot" e extensão para análise multi-tabela; introduzimos o corralm para redução integrativa de dimensão multitabela de dados scRNAseq. Implementamos CA para dados scRNAseq em corral, um pacote R/Bioconductor que faz interface diretamente com classes de células únicas em Bioconductor. A mudança de PCA para CA é obtida por meio de uma simples substituição de pipeline e melhora a redução de dimensão dos conjuntos de dados scRNAseq.

O sequenciamento de mRNA de célula única (scRNAseq) mede simultaneamente os níveis de transcrição de genes em milhares de células individuais, fornecendo uma janela para a diversidade transcricional e funcional de células em um tecido ou experimento. Esses conjuntos de dados complexos são ordens de magnitude maiores do que aqueles encontrados ao analisar dados de RNAseq "em massa" de amostras de tecido. Embora esses dados de resolução fina tenham o potencial de revelar novos achados biológicos, os dados do scRNAseq exibem esparsidade, ruído e artefatos técnicos além daqueles observados para amostras de RNA em massa1,2, necessitando de pré-processamento e normalização específicos do scRNAseq3,4. Normalmente, a análise scRNAseq inclui o uso de redução de dimensão para atenuar o ruído e garantir a rastreabilidade computacional, mas a escolha do método influencia consideravelmente as análises, resultados e conclusões a jusante3,5.

Selecionar um método de redução de dimensão apropriado é importante; um método eficaz encontra uma representação dos dados que minimiza o ruído e a redundância, enquanto revela sinais significativos que revelam estruturas e padrões latentes nos dados6,7. Quando definidas a partir de dados scRNAseq, as representações de incorporação de dimensão reduzida são mais úteis quando preservam variação significativa e biologicamente relevante; são robustos, o que significa que a decomposição de observações novas, mas semelhantes, produz consistentemente um espaço de imersão semelhante; e generalizar e transferir para novos dados, permitindo que novas observações decorrentes de processos biológicos semelhantes sejam projetadas no mesmo espaço latente.

As contagens de ScRNAseq são geralmente modeladas como distribuídas multinomialmente e são frequentemente aproximadas como binomial negativa ou Poisson2, refletindo o fato de que os dados não são contínuos nem aproximadamente gaussianos. Como tal, o uso da análise de componentes principais (PCA) requer que os dados de contagem de scRNAseq discretos e esparsos sejam transformados antes da redução de dimensão com este método6. PCA é um método de redução de dimensão linear que obtém uma representação de dados de baixa dimensão ao longo de eixos lineares ortogonais de forma que a proporção de variância contabilizada em cada eixo seja maximizada no espaço euclidiano4,8,9,10,11. Como o PCA é mais adequado para dados contínuos com distribuição aproximadamente normal, ele pode exibir artefatos quando aplicado a dados com gradientes ou dados não contínuos (como contagens); um desses artefatos, chamado de efeito "arco" ou "ferradura", ocorre quando o PCA é aplicado aos dados scRNAseq sem transformação logarítmica4,6,12. Portanto, na prática, e apesar dos problemas conhecidos com a aplicação da transformação logarítmica aos dados de contagem scRNAseq2,13,14, a maioria dos fluxos de trabalho de célula única começa com uma transformação log(x + 1) da matriz de contagens e, em seguida, usa o PCA para decompor o resultado dados "logcounts"3. O uso de logcounts tem justificativa teórica pobre e, em alguns casos, pode obscurecer a variação significativa2,14, mas as incorporações de dimensão reduzida resultantes dos dados do PCA são, no entanto, usadas em cluster scRNAseq, análise de trajetória e classificação de tipo de célula3. Várias abordagens de redução de dimensão adaptadas para contagens de scRNAseq foram propostas, incluindo métodos como ZINB-WaVE, o primeiro método apropriado para uso com contagens que se baseia em um modelo binomial negativo inflado de zero para decomposição de contagens e análise de fator inflado de zero ( ZIFA)2,15,16,17. Ainda assim, o PCA continua sendo o método mais utilizado em grande parte devido à sua simplicidade, velocidade e eficiência computacional. Em uma comparação de 18 métodos de redução de dimensão, o PCA teve uma classificação alta quando a precisão e o desempenho na análise downstream foram considerados com escalabilidade computacional18.