геномика

Новость8721 мар.Обзор

Исследование посвящено улучшению надежности трансформерных языковых моделей для геномики (GLM), которые демонстрируют высокую эффективность в задачах предсказания на генетических данных, но склонны к излишней уверенности при работе с зашумленными или неизвестными данными. Авторы анализируют влияние нескольких методов оценки неопределенности (uncertainty quantification, UQ), включая температурное масштабирование и эпистемические нейронные сети, на надежность предсказаний моделей в различных доменах геномных и метабаргеномных задач. Сравнение поведения моделей на данных из распределения (in-distribution) и вне распределения (out-of-distribution) показывает, что предложенные методы способны значительно улучшить надежность классификации. Результаты демонстрируют универсальность подхода, так как он работает на нескольких архитектурах GLM и в различных предметных областях. Разработка критически важна для геномики, где неизвестные виды и новые генетические варианты встречаются часто, и надежность предсказаний напрямую влияет на клинические решения. Полученные модели могут применяться для диагностики генетических заболеваний, персонализированной медицины и анализа микробиома. Исходный код проекта доступен в открытом доступе на GitHub, что позволяет исследователям и практикам внедрять эти методы в свои рабочие процессы.

геномика языковые модели трансформеры оценка неопределенности персонализированная медицина диагностика

bioRxiv — Bioinformatics Оригинал

Новость5521 мар.

Исследование представляет новый алгоритм для обнаружения мотивов и контекстов РНК-связывающих белков (RBP), основанный на лингвистических принципах. РНК-связывающие белки регулируют свои РНК-мишени путем связывания с короткими последовательными мотивами, однако механизмы специфичного распознавания остаются неясными для большинства человеческих RBP. Существующие алгоритмы обнаружения мотивов не учитывают структуру и состав фланкирующих регионов мотива, что является существенным недостатком. Предложенный алгоритм использует три важных свойства k-мер (k-mer), придающих лексическую, синтаксическую и семантическую структуры процессу обнаружения мотивов и контекстов. Алгоритм является консенсусным, детерминированным и гибким, интегрируя информацию из последовательных контекстов при построении мотивов RBP. Исследователи продемонстрировали, что их алгоритм достигает высокой точности обнаружения против набора ground-truth и превосходит существующие методы в первичном ранжировании мотивов. Это исследование имеет значение для фундаментальных исследований молекулярной биологии и может в будущем способствовать пониманию механизмов заболеваний на уровне РНК-белковых взаимодействий.

биоинформатика вычислительная биология машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость5521 мар.

VICAST (Viral Cultured-virus Annotation and SnpEff Toolkit) — это программный комплекс для анализа эволюции вирусов в клеточных культурах, позволяющий проводить аннотацию геномов и выявлять варианты с частотой 3-50%, что критически важно для понимания аттенуации вирусов и адаптации к хозяину. В отличие от существующих инструментов, которые обрабатывают эти задачи раздельно, VICAST объединяет полуавтоматическую аннотацию с ручными контрольными точками и интеграцией с SnpEff для функционального анализа вариантов. Инструмент поддерживает четыре пути аннотации для различных типов геномов, включая полипротеины, неаннотированные и сегментированные геномы, а также включает модуль ко-возникновения чтений на уровне BAM для валидации гаплотипов. Валидация проводилась на трёх вирусах: SARS-CoV-2 (полипротеиновая аннотация), Dengue virus 2 (стандартная флавивирусная аннотация) и Influenza A H1N1 (многокомпонентный геном). По сравнению с VADR VICAST работает в 5.6-8.1 раз быстрее и включает встроенную проверку на контаминацию. Инструмент уже произвёл валидированные аннотации для Chikungunya virus (NC_004162.2), которые включены в кастомную базу SnpEff. VICAST распространяется бесплатно через GitHub в виде Docker-контейнеров и conda-пакетов.

биоинформатика вирусы геномика+3

bioRxiv — Bioinformatics Оригинал

геномика

Повышение надежности языковых моделей для геномики при сдвиге распределения

Алгоритм на основе лингвистики для обнаружения мотивов и контекстов РНК-связывающих белков

VICAST: Интегрированный инструмент для аннотации геномов вирусов и анализа вариантов низкой частоты в исследованиях пассажей