В исследовании представлен scSAGA (Single-Cell Sampled Gromov-Wasserstein Alignment) — инновационный метод для интеграции мультимодальных данных scRNA-seq и scATAC-seq. Основная проблема существующих подходов заключается в квадратичной сложности памяти и времени выполнения, что ограничивает их применение данными объемом в несколько тысяч клеток. Разработчики предложили решение, сочетающее разреженную геометрию kNN-графов, оптимизацию Громова-Вассерштейна с выборочным сэмплированием и безматричный метод совместного вложения. В ходе тестирования на различных организмах (от человека до Arabidopsis) scSAGA продемонстрировал превосходство над такими методами, как Seurat, LIGER, SCOT и Pamona, обеспечивая более точное сопоставление типов клеток. Ключевым достижением является способность алгоритма масштабироваться до интеграции более одного миллиона клеток с почти линейным ростом вычислительных затрат. Метод обеспечивает высокую точность кластеризации, что критически важно для идентификации клеточных типов в крупномасштабных атласах.