распределенные системы

Новость8522 маяОбзор

В статье представлен DistPCA — первый распределенный фреймворк для проведения метода главных компонент (PCA) в геномике на тера-масштабных наборах данных. Авторы решают проблему нехватки оперативной памяти, которая делает традиционные методы анализа популяционной структуры невозможными при работе с современными геномными данными. В отличие от существующих подходов, ориентированных только на оптимизацию вычислений, DistPCA оптимизирует весь конвейер, включая ввод-вывод данных и предобработку. Фреймворк реализован на C++ с использованием MPI и поддерживает многоуровневый параллелизм: мультипроцессорность, многопоточность, SIMD-векторизацию и перекрытие вычислений с передачей данных. Экспериментальное тестирование на реальных и синтетических данных показало впечатляющую производительность: ускорение до 58.2x и сокращение времени выполнения более чем на 98%. При этом сохраняется высокая точность извлеченных главных компонент и параллельная эффективность на уровне выше 82%.

геномика машинное обучение анализ данных высокопроизводительные вычисления распределенные системы

bioRxiv — Bioinformatics Оригинал

распределенные системы

DistPCA: тера-масштабируемый геномный PCA с использованием распределенного параллелизма вне основной памяти