banner

Nouvelles

Nov 19, 2023

Multi

Nature Biotechnology volume 40, pages 1458-1466 (2022)Citer cet article

58 000 accès

49 Citations

186 Altmétrique

Détails des métriques

Malgré l'émergence de méthodes expérimentales pour la mesure simultanée de plusieurs modalités omiques dans des cellules uniques, la plupart des ensembles de données monocellulaires n'incluent qu'une seule modalité. Un obstacle majeur à l’intégration de données omiques provenant de plusieurs modalités est que les différentes couches omiques ont généralement des espaces de fonctionnalités distincts. Nous proposons ici un cadre informatique appelé GLUE (graph-linked unified embedding), qui comble le fossé en modélisant explicitement les interactions réglementaires entre les couches omiques. Une analyse comparative systématique a démontré que GLUE est plus précis, robuste et évolutif que les outils de pointe pour les données multiomiques hétérogènes unicellulaires. Nous avons appliqué GLUE à diverses tâches difficiles, notamment l'intégration triple-omique, l'inférence réglementaire intégrative et la construction d'un atlas de cellules humaines multi-omiques sur des millions de cellules, où GLUE a pu corriger les annotations précédentes. GLUE présente une conception modulaire qui peut être étendue et améliorée de manière flexible pour de nouvelles tâches d'analyse. Le package complet est disponible en ligne sur https://github.com/gao-lab/GLUE.

Les progrès technologiques récents dans le séquençage unicellulaire ont permis de sonder les cartes de régulation à travers plusieurs couches omiques, telles que l'accessibilité de la chromatine (séquençage ATAC unicellulaire (scATAC-seq)1,2), la méthylation de l'ADN (snmC-seq3, sci- MET4) et le transcriptome (scRNA-seq5,6), offrant une opportunité unique de dévoiler les bases régulatrices sous-jacentes aux fonctionnalités de divers types de cellules7. Bien que des analyses simultanées soient récemment apparues8,9,10,11, différents omiques sont généralement mesurés indépendamment et produisent des données non appariées, ce qui nécessite une intégration multiomique efficace et efficiente in silico12,13.

Sur le plan informatique, l'un des obstacles majeurs rencontrés lors de l'intégration de données multi-omiques non appariées (également appelées intégration diagonale) réside dans les espaces de caractéristiques distincts de différentes modalités (par exemple, les régions de chromatine accessibles dans scATAC-seq par rapport aux gènes dans scRNA-seq)14. Une solution rapide consiste à convertir les données multimodales en un espace de fonctionnalités commun sur la base de connaissances préalables et à appliquer des méthodes d'intégration de données mono-omiques15,16,17,18. Une telle « conversion de caractéristiques » explicite est simple, mais il a été rapporté qu'elle entraîne une perte d'informations19. Les algorithmes basés sur la factorisation matricielle couplée contournent la conversion explicite mais gèrent à peine plus de deux couches omiques20,21. Une option alternative consiste à faire correspondre les cellules de différentes couches omiques via un alignement multiple non linéaire, ce qui supprime complètement l'exigence de connaissances préalables et pourrait réduire la perte d'informations inter-modalités en théorie22,23,24,25 ; cependant, cette technique a principalement été appliquée à des ensembles de données relativement petits avec un nombre limité de types de cellules.

Le volume toujours croissant de données constitue un autre défi de taille26. Les technologies récemment développées peuvent générer régulièrement des ensembles de données à l’échelle de millions de cellules27,28,29, alors que les méthodes d’intégration actuelles n’ont été appliquées qu’à des ensembles de données de volumes beaucoup plus petits15,17,20,21,22,23. Pour rattraper la croissance du débit de données, les méthodes d’intégration informatique doivent être conçues dans un souci d’évolutivité.

Par la présente, nous introduisons GLUE (graph-linked unified embedding), un cadre modulaire permettant d'intégrer des données multi-omiques unicellulaires non appariées et de déduire simultanément des interactions réglementaires. En modélisant explicitement les interactions réglementaires entre les couches omiques, GLUE comble les écarts entre divers espaces de fonctionnalités spécifiques aux omiques de manière biologiquement intuitive. Des benchmarks systématiques et des études de cas démontrent que GLUE est précis, robuste et évolutif pour les données multiomiques hétérogènes unicellulaires. De plus, GLUE est conçu comme un cadre généralisable qui permet une extension facile et une adoption rapide à des scénarios particuliers de manière modulaire. GLUE est accessible au public sur https://github.com/gao-lab/GLUE.

0.5, and then normalize by cluster size, which effectively balances the contribution of matching clusters regardless of their sizes. In the second stage, we fine-tune the GLUE model with the estimated balancing weights, during which the additive noise \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N}}}}\left( {{\boldsymbol{\epsilon}} ;\mathbf{0},\tau \cdot {\mathbf{\Sigma}}} \right)\) gradually anneals to 0 (with τ starting at 1 and decreasing linearly per epoch until 0). The number of annealing epochs was set automatically based on the data size and learning rate to match a learning progress equivalent to 4,000 iterations at a learning rate of 0.002./p>0 for scRNA-seq/scATAC-seq; FDR < 0.05 and log fold change of <0 for snmC-seq. The significance of marker overlap was determined by the three-way Fisher’s exact test40./p>
PARTAGER