обработка последовательностей

Новость7529 маяОбзор

В исследовании представлен Super Bloom Filter — новый тип фильтра Блума, оптимизированный для обработки потоковых k-мерных запросов в биоинформатике. Основная проблема существующих структур заключается в плохой локальности кэша из-за случайных обращений к памяти, что замедляет работу. Авторы предложили использовать минимизаторы для группировки смежных k-меров в «супер-k-меры», что позволяет привязывать группу к одному блоку памяти и значительно снижать количество операций передачи данных. Дополнительно внедрена схема findere, которая снижает количество ложноположительных срабатываний на несколько порядков; в некоторых конфигурациях при 10^9 случайных запросах ложноположительных результатов не обнаружено вовсе. В ходе тестирования интеграция Super Bloom в инструменты BioBloom (на языке Rust) показала многократное преимущество в скорости индексации и поиска по сравнению с классическими реализациями на C++ и Rust. Данная разработка критически важна для задач метагеномной классификации, удаления последовательностей хозяина и фильтрации загрязнений при анализе биологических данных.

биоинформатика алгоритмы обработка последовательностей машинное обучение анализ данных

bioRxiv — Bioinformatics Оригинал

обработка последовательностей

Super Bloom: быстрый и точный фильтр для потоковых k-мер запросов