биоинформатика

Новость4530 мая

В данной научной работе представлен новый класс алгоритмов сэмплинга — 10-минимизаторы, предназначенных для высокопроизводительного секвенирования биоинформатических данных. Авторы решают проблему высокой вычислительной сложности и использования памяти при работе с традиционными минимизаторами, которые требуют хранения рангов k-меров в пространстве Ω(2^k). Впервые доказано, что для любого k > 1 и w ≥ k - 2 случайный 10-минимизатор имеет ожидаемую плотность ниже, чем случайный минимизатор, что является первым подобным теоретическим подтверждением в неасимптотическом режиме. Особое внимание уделено подклассу «spacers», которые сочетают в себе три критических свойства: константное использование памяти, низкую плотность и высокую скорость извлечения ключей k-меров. Эмпирические тесты показали, что spacers способны обрабатывать последовательности размером с геном всего за несколько секунд, превосходя по скорости случайные минимизаторы. Исследование вводит новый стандарт бенчмаркинга — оценку времени извлечения ключей k-меров, что критически важно для оптимизации биоинформатических конвейеров обработки данных.

биоинформатика алгоритмы секвенирование+2

bioRxiv — Bioinformatics Оригинал

Новость8530 мая

В исследовании представлен новый единый референсный ландшафт рака легких, построенный на основе анализа необработанных данных секвенирования РНК (RNA-seq) 1558 опухолей. Исследователи проанализировали широкий спектр патологий, включая аденокарциному (n=753), плоскоклеточный рак (n=540), мелкоклеточный рак легких (n=150) и неклассифицированный немелкоклеточный рак (n=80). С использованием алгоритма PaCMAP для эмбеддинга данных была создана непрерывная молекулярная карта, которая позволила отойти от жесткого разделения по гистологии в пользу транскрипционных осей. В результате консенсусной кластеризации было выявлено девять устойчивых молекулярных кластеров, включая специфическую подгруппу аденокарциномы (обогащенную среди женщин и некурящих) и нейроэндокринно-подобную аденокарциному с активацией ASCL1. Работа демонстрирует, что опухоли организованы по биологическим программам (пролиферативным, метаболическим и иммунным состояниям), что позволяет выявлять специфические уязвимости для таргетной терапии. Проекция опухолей пациентов и ксенографтов (PDX) на этот атлас подтвердила точность модели и открывает новые возможности для персонализированной онкологии.

онкология транскриптомика биоинформатика+3

bioRxiv — Bioinformatics Оригинал

Новость8530 мая

В статье представлен новый биоинформатический инструмент MosaicTR, предназначенный для точного количественного анализа соматической нестабильности тандемных повторов. Исследование решает критическую проблему текущих методов, таких как ограничения длины прочтений и артефакты ПЦР-статтера (stutter), характерные для коротких прочтений (short-read sequencing). Методология MosaicTR базируется на использовании данных секвенирования длинными прочтениями с гаплотипической маркировкой, что позволяет анализировать нестабильность на уровне конкретных локусов. Авторы внедрили метрику, взвешенную по мотивам единиц (motif-unit-weighted metric), которая эффективно снижает уровень шума секвенирования, специфичного для платформ PacBio HiFi и Oxford Nanopore. Инструмент поддерживает режимы парного сравнения, что позволяет эффективно выявлять изменения нестабильности как между различными тканями, так и в динамике (лонгитюдные исследования). Практическая значимость работы заключается в возможности использования MosaicTR как высокоточного биомаркера дефицита системы репарации ошибочно спаренных оснований (mismatch repair deficiency) в онкологии, а также для изучения прогрессирования заболеваний, вызванных экспансией повторов.

геномика биоинформатика онкология+2

bioRxiv — Bioinformatics Оригинал

Новость5530 мая

В данной исследовательской работе представлен новый вычислительный алгоритм SLAB, предназначенный для анализа сложных паттернов разделения гаплотипов в геномных данных. Авторы вводят концепцию «ядер гаплотипических блоков» (block cores) — специфических геномных сегментов, в которых пересекается множество гаплотипических блоков. Методология базируется на использовании алгоритма сканирующей прямой (sweep line algorithm) в рамках структуры PBWT (Persona-Based Weighting Transform) для эффективного поиска максимально широких совпадений. В ходе тестирования алгоритма на массиве данных UK Biobank было доказано, что SLAB позволяет количественно оценить ядра блоков и извлекать биологические данные на популяционном уровне, недоступные традиционным методам. В частности, выявленные ядра могут служить надежной основой для обнаружения сигналов естественного отбора. Результаты показывают, что SLAB предоставляет комплементарную информацию по сравнению с анализом частоты IBD (Identity By Descent), дополняя существующие подходы к популяционной генетике. Программный код решения опубликован в открытом доступе для дальнейшего использования в биоинформатике.

биоинформатика генетика алгоритмы+2

bioRxiv — Bioinformatics Оригинал

Новость7529 мая

В статье представлен StrucTTY — инновационный инструмент для визуализации структур белков, разработанный специально для работы в текстовых терминалах и высокопроизводительных вычислительных средах (HPC). Проблема отсутствия инструментов для интерактивного просмотра белковых структур в SSH-сессиях решается с помощью самодостаточного исполняемого файла, который преобразует трехмерные координаты PDB и mmCIF файлов в ASCII-графику. Программа позволяет пользователям осуществлять вращение, масштабирование и перемещение структур, а также изучать особенности цепей и вторичные структуры белков. Ключевой особенностью является поддержка одновременного отображения до девяти белковых структур и возможность прямой визуализации структурного выравнивания на основе данных Foldseek. Это позволяет проводить быстрый сравнительный анализ в «headless» средах без необходимости использования графических интерфейсов. Инструмент представляет значительный интерес для специалистов по структурной биологии, работающих с большими данными в удаленных вычислительных кластерах.

структурная биология визуализация данных биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость9529 мая

Исследователи представили G-VEP — инновационный фреймворк для аннотации вариантов, использующий графические процессоры (GPU) для преодоления вычислительных ограничений при полногеномном секвенировании (WGS). Основная проблема текущих методов заключается в том, что плагины Variant Effect Predictor (VEP) ограничены скоростью ввода-вывода, что составляет более 70% времени работы конвейера. Разработанное решение базируется на кастомном ядре CUDA, которое заменяет последовательный поиск по базам данных массивно-параллельным бинарным поиском по предварительно вычисленным индексам. Тестирование показало впечатляющие результаты: время работы плагинов сократилось с 72 до 4 минут (ускорение в 17 раз), а общее время аннотации — со 100 до 33 минут (ускорение в 3 раза). Важно, что G-VEP обеспечивает полную идентичность результатов стандартному VEP, сохраняя точность обнаружения патогенных вариантов на 75 клинических образцах WGS. Инструмент требует всего 8,8 ГБ видеопамяти, что позволяет использовать его на потребительских GPU с 16 ГБ памяти, и доступен как через веб-интерфейс, так и в виде открытого исходного кода.

геномика GPU-ускорение диагностика+3

bioRxiv — Bioinformatics Оригинал

Новость9529 мая

Исследователи представили STiLE — инновационный программный инструмент для автоматизации процесса деарреинга (разделения) тканевых микрочипов (TMA), что является критическим этапом в пространственной транскриптомике. В отличие от существующих методов, работающих с гистологическими изображениями, STiLE использует исключительно координаты центроидов клеток, что делает его устойчивым к артефактам окрашивания и неравномерному освещению. Методология алгоритма объединяет детекцию компонентов на основе связности, плотностное кластерирование HDBSCAN и слияние кластеров с направляющими компонентами. Валидация на 11 публичных образцах TMA (от 50 до 150 ядер на слайде) показала исключительно высокую точность с показателем ARI > 0,99. Системное тестирование на 396 синтетических наборах данных с реалистичными артефактами подтвердило средний ARI на уровне 0,992. Инструмент является платформонезависимым и совместим с ведущими технологиями, такими как Vizgen MERSCOPE, 10x Xenium и NanoString CosMx, поддерживая форматы AnnData и CSV. Наличие интерактивного интерфейса Streamlit позволяет исследователям легко настраивать параметры и проводить визуальный контроль больших объемов данных.

пространственная транскриптомика биоинформатика машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость9529 мая

Исследование представляет ST-PARM — инновационный фреймворк для выравнивания (alignment) замороженных языковых моделей белков, предназначенный для решения задач многокритериального дизайна. Основная проблема инженерии белков заключается в конфликте свойств: улучшение одного параметра часто ведет к деградации другого. Авторы предложили использовать сглаженную скаляризацию по методу Чебышёва и модель вознаграждения, учитывающую неопределенность (uncertainty-aware), что позволяет эффективно обходить невыпуклые области Парето. В ходе тестирования на дизайне флуоресценции/стабильности GFP и стабильности/растворимости нанотел IL-6, метод ST-PARM продемонстрировал более широкое покрытие фронта Парето и лучшую точность отслеживания предпочтений по сравнению с базовыми моделями PARM и MosPro. Использование стратегий построения пар в латентном пространстве обеспечивает высокую контролируемость генерации последовательностей даже при наличии шума в оценках. Результаты исследования закладывают фундамент для создания практических инструментов генерации белков с заданными, сбалансированными свойствами для последующих лабораторных испытаний.

дизайн белков машинное обучение языковые модели+2

bioRxiv — Bioinformatics Оригинал

Новость7529 мая

В исследовании представлен ChiMER — новый графовый вычислительный фреймворк, разработанный для обнаружения химерных энхансерных РНК (eRNAs), которые сливаются с белок-кодирующими генами. Традиционные инструменты часто пропускают такие события из-за низкого уровня экспрессии eRNA или классифицируют их как артефакты картирования. Методология ChiMER использует информацию о контактах хроматина для построения графов сплайсинга, добавляя ребра между энхансерами и экзонами, что позволяет находить транскрипционные пути через графовое выравнивание. Тестирование на реальных данных РНК-секвенирования раковых клеточных линий показало, что ChiMER обладает более высокой чувствительностью по сравнению с линейными методами при сохранении низкого уровня ложноположительных результатов. Исследование выявило множество химерных транскриптов, связанных с супер-энхансерами, и установило их связь с активными регуляторными средами и сигналами R-петель. Это указывает на то, что гибридные структуры РНК-ДНК могут играть ключевую роль в процессах транскрипционного соединения на больших расстояниях, что открывает новые пути для понимания механизмов развития рака.

биоинформатика онкология геномика+3

bioRxiv — Bioinformatics Оригинал

Новость7529 мая

В исследовании представлен Super Bloom Filter — новый тип фильтра Блума, оптимизированный для обработки потоковых k-мерных запросов в биоинформатике. Основная проблема существующих структур заключается в плохой локальности кэша из-за случайных обращений к памяти, что замедляет работу. Авторы предложили использовать минимизаторы для группировки смежных k-меров в «супер-k-меры», что позволяет привязывать группу к одному блоку памяти и значительно снижать количество операций передачи данных. Дополнительно внедрена схема findere, которая снижает количество ложноположительных срабатываний на несколько порядков; в некоторых конфигурациях при 10^9 случайных запросах ложноположительных результатов не обнаружено вовсе. В ходе тестирования интеграция Super Bloom в инструменты BioBloom (на языке Rust) показала многократное преимущество в скорости индексации и поиска по сравнению с классическими реализациями на C++ и Rust. Данная разработка критически важна для задач метагеномной классификации, удаления последовательностей хозяина и фильтрации загрязнений при анализе биологических данных.

биоинформатика алгоритмы обработка последовательностей+2

bioRxiv — Bioinformatics Оригинал

Новость7529 мая

В статье представлено обновление программного обеспечения Harmony2, предназначенного для интеграции профилей секвенирования РНК единичных клеток (scRNA-seq). В условиях стремительного роста биомедицинских данных, объем которых в открытом доступе уже превышает 100 миллионов клеток, традиционные методы сталкиваются с проблемой масштабируемости. Разработчики представили алгоритм, способный эффективно обрабатывать более 100 миллионов клеток и более 1000 наборов данных без необходимости использования специализированного высокопроизводительного оборудования. Ключевым технологическим достижением является оптимизация базового алгоритма, которая предотвращает эффект «переинтеграции» (overintegration), сохраняя биологическую гетерогенность в сложных наборах данных. Это позволяет создавать высокоточные атласы единичных клеток, что критически важно для понимания клеточной архитектуры различных тканей и органов. Инструмент представляет высокую ценность для биоинформатиков и исследователей, занимающихся системной биологией и персонализированной медициной.

биоинформатика scRNA-seq машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость8528 мая

Исследователи разработали ExposoGraph — интерактивную платформу на базе графа знаний, предназначенную для системного анализа взаимодействия генов и окружающей среды в контексте риска развития рака. Платформа объединяет разрозненные данные о канцерогенных воздействиях, метаболической активации, детоксикации и повреждениях ДНК в единую визуальную структуру. В текущую версию графа интегрированы данные из авторитетных источников, таких как IARC, KEGG и CPIC, включая 96 узлов пяти типов (канцерогены, ферменты, метаболиты, аддукты ДНК и пути) и 102 ребра связей. Система охватывает 9 классов канцерогенов и 15 ключевых агентов, детально отображая работу 36 ферментов, распределенных по фазам метаболизма (I, II, III) и процессам репарации ДНК. Особое внимание уделено кросс-путевым связям, например, метаболизму андрогенов и их влиянию на образование аддуктов ДНК через ароматизацию CYP19A1. Несмотря на то, что инструмент позиционируется как исследовательская платформа, он обладает высоким потенциалом для генерации гипотез в персонализированном моделировании рисков.

онкология биоинформатика фармакогеномика+3

bioRxiv — Bioinformatics Оригинал

Новость8528 мая

В исследовании представлен SelectZyme — инновационный фреймворк для поиска новых ферментов, использующий эмбеддинги языковых моделей белка (Protein Language Models). Методология объединяет векторные представления белков с методами снижения размерности, иерархической кластеризацией и количественным анализом дендрограмм, что позволяет исследовать биологические последовательности без привязки к фиксированным порогам сходства или заранее известным аннотациям. В ходе тестирования на массиве данных из более чем 100 000 последовательностей PETase (ферментов, расщепляющих пластик), система продемонстрировала способность сохранять структурную целостность фолдов даже в «сумеречной зоне» сходства последовательностей. Ключевым преимуществом является переход от простого фильтрания по сходству к структурированному исследованию латентного пространства, что позволяет выявлять биологически значимые функциональные организации в полностью неконтролируемых (unsupervised) условиях. Данный подход обеспечивает масштабируемую основу для направленного поиска биокатализаторов и служит эффективной отправной точкой для последующей белковой инженерии и разработки новых лекарственных средств.

белковые языковые модели ферменты биоинформатика+3

bioRxiv — Bioinformatics Оригинал

Новость9528 мая

В исследовании представлен EvoRMD — инновационный фреймворк для прогнозирования типов модификаций РНК, который преодолевает ограничения существующих методов, рассматривающих каждый тип модификации как независимую задачу. В отличие от традиционных подходов, EvoRMD учитывает биологический контекст, интегрируя эмбеддинги последовательностей из крупномасштабной языковой модели РНК со структурированными метаданными: видом организма, органом, типом клеток и субклеточной локализацией. Модель использует облегченный механизм внимания (attention mechanism) для выделения информативных позиций в последовательности и общий многоклассовый классификатор для распределения вероятностей между 11 типами модификаций (включая Am, Cm, Um, Gm, D, pseudouridine, m1A, m5C, m5U, m6A, m7G). Архитектура позволяет учитывать специфику данных, где в одной позиции может присутствовать только одна модификация, а остальные остаются неразмеченными. Результаты демонстрируют высокую прогностическую точность и обеспечивают интерпретируемость через анализ профилей внимания и мотивов. Данная разработка имеет критическое значение для понимания механизмов посттранскрипционной регуляции экспрессии генов и может быть использована для приоритизации целей в молекулярной биологии.

ИИ в биологии моделирование РНК языковые модели+3

bioRxiv — Bioinformatics Оригинал

Новость7528 мая

Исследование представляет Isopedia — новую расширяемую структуру данных, предназначенную для аннотации изоформ РНК без привязки к существующим референсным геномам. Авторы решают проблему гипертрофированной «новизны» транскриптов, которая в RNA-Seq исследованиях часто достигает 20-70% из-за неполноты текущих аннотаций. Методология Isopedia переходит от зависимости от референса к аннотации, взвешенной по фактическим доказательствам, что позволяет отличить биологически активные изоформы от стохастического шума. В ходе тестирования на наборе данных HG002 система позволила снизить показатель кажущейся новизны изоформ в 26 раз, обеспечив уровень аннотации более 95% даже для низкокопийных изоформ. Масштабный каталог включает 1007 наборов данных секвенирования длинных чтений (long-read) из 37 различных биологических контекстов. Данный фреймворк критически важен для клинических исследований РНК, позволяя более точно изучать сложные локусы, такие как псевдогены и слияния генов. Проект Isopedia является открытым и доступен для использования в научных и медицинских целях через GitHub.

транскриптомика биоинформатика RNA-Seq+2

bioRxiv — Bioinformatics Оригинал

Новость9527 мая

В статье представлен Allos — новый программный фреймворк на языке Python, разработанный для решения критической проблемы в современной транскриптомике: потери данных об альтернативном сплайсинге при анализе на уровне генов. Большинство существующих методов объединяют транскрипционное разнообразие в общие показатели экспрессии генов, что скрывает важную информацию об использовании изоформ. Allos базируется на модели данных AnnData и обеспечивает нативную поддержку количественной оценки на уровне транскриптов, интегрируясь с аннотациями GTF/GFF и FASTA. Инструментарий позволяет проводить скрининг дифференциального использования изоформ, структурную интерпретацию транскриптов и анализ на уровне белков для данных bulk, single-cell и пространственной транскриптомики. Благодаря совместимости с экосистемой scverse, Allos позволяет объединять анализ изоформ с уже установленными рабочими процессами на уровне генов. Проект является открытым (open-source) и доступен на GitHub, предоставляя пользователям модульную архитектуру для работы как с длинными, так и с короткими прочтениями (long-read и short-read sequencing).

биоинформатика транскриптомика single-cell+4

bioRxiv — Bioinformatics Оригинал

Новость8527 мая

Исследователи представили CBIcall — универсальный фреймворк, предназначенный для стандартизации процессов поиска генетических вариантов (variant calling) в данных секвенирования следующего поколения (NGS). Проблема несогласованности результатов при использовании различных программных сред в федеративных исследованиях решается через единый конфигурационный файл YAML, который управляет всем циклом: от сырых FASTQ-файлов до готовых VCF-результатов. Система поддерживает выполнение через бэкенды Bash и Snakemake, обеспечивая совместимость версий инструментов, сборок генома и режимов анализа. В рамках проекта EU HEREDITARY платформа была успешно протестирована на 1 111 образцах, включая полноэкзомное секвенирование (WES) и анализ митохондриальной ДНК (mtDNA). CBIcall гарантирует воспроизводимость результатов за счет строгого контроля параметров и записи структурированного провинанса (истории выполнения) для каждого запуска. Инструмент является открытым (GPLv3) и готов к внедрению в высокопроизводительные вычислительные системы (HPC) медицинских и исследовательских центров.

геномика биоинформатика NGS+3

bioRxiv — Bioinformatics Оригинал

Новость6527 мая

Исследование посвящено проверке гипотезы о том, что ферменты в метаболических путях организованы пространственно для эффективной передачи субстратов (метаболическое каналирование). Авторы протестировали современные методы предсказания белок-белковых взаимодействий, включая AlphaFold2, AlphaFold3, ESMFold и HDOCK, на наборе данных из 112 низкоаффинных димеров. Результаты показали, что подходы на базе AlphaFold наиболее эффективно восстанавливают геометрию взаимодействий, в то время как ESMFold демонстрирует ограниченную точность. С помощью разработанного вычислительного метода анализа 107 пар последовательных ферментов E. coli было установлено, что, хотя ферменты имеют тенденцию к физическому взаимодействию, их каталитические центры не расположены в пространственно оптимизированных конфигурациях. В предсказанных комплексах расстояние между активными центрами не оказывается меньше, чем можно было бы ожидать при случайном расположении. Данная работа предлагает новый вычислительный рабочий процесс для анализа структурной организации метаболизма с помощью ИИ-моделирования.

биоинформатика AlphaFold метаболизм+2

bioRxiv — Bioinformatics Оригинал

Новость9527 мая

Исследователи представили PACMON — новую байесовскую модель латентных факторов, предназначенную для интерпретации результатов высокопроизводительного скрининга генов. В отличие от существующих методов, PACMON объединяет мультимодальные молекулярные измерения (например, РНК и поверхностные белки) с априорными биологическими знаниями о путях. Модель использует структурированные разреженные априорные распределения для сопоставления латентных факторов с известными биологическими путями, одновременно оценивая, как различные экспериментальные воздействия (пертурбации) активируют или подавляют эти программы. Тестирование на синтетических данных показало практически идеальное восстановление структуры путей, превосходящее текущие методы по точности и масштабируемости. При применении к данным Perturb-CITE-seq клеток меланомы модель успешно выявила программы интерферонного сигналинга и клеточного цикла. Особую значимость представляет применение PACMON к атласу пертурбаций Tahoe-100M, охватывающему около 100 миллионов клеток и более 1000 комбинаций доз лекарств, что позволило впервые провести анализ латентных факторов на уровне путей в таком масштабе и картировать ландшафты лекарственного ответа.

мультиомика машинное обучение биоинформатика+3

bioRxiv — Bioinformatics Оригинал

биоинформатика

PalmaClust: фреймворк на основе графового слияния с использованием коэффициента Пальма для надежного обнаружения ультра-редких типов клеток в данных scRNA-seq

10-минимизаторы: перспективный класс минимизаторов с константным объемом памяти

За пределами гистологии: единый транскриптомный атлас определяет биологические состояния и подтипы рака легких

MosaicTR: количественная оценка соматической нестабильности тандемных повторов с помощью секвенирования длинными прочтениями

SLAB: Алгоритм сканирующей прямой в PBWT для поиска ядер гаплотипических блоков

StrucTTY: интерактивный просмотрщик структур белков, работающий непосредственно в терминале

G-VEP: ускорение прогнозирования эффектов вариантов с помощью GPU для клинического полногеномного секвенирования

STiLE: Автоматизированное разделение тканевых микрочипов для пространственной транскриптомики

ST-PARM: Парето-полное выравнивание во время инференса для многокритериального дизайна белков

ChiMER: Интеграция архитектуры хроматина в графы сплайсинга для обнаружения химерных энхансерных РНК

Super Bloom: быстрый и точный фильтр для потоковых k-мер запросов

Интеграция больших и сложных наборов данных единичных клеток с помощью Harmony2

ExposoGraph: интерактивная платформа для визуализации путей биоактивации и детоксикации канцерогенов

EvoRMD: Интеграция биологического контекста и эволюционных языковых моделей РНК для интерпретируемого прогнозирования модификаций РНК

Интерпретация разнообразия изоформ РНК в масштабах популяции с помощью Isopedia

Allos: интегрированный Python-инструментарий для анализа изоформ на уровне единичных клеток и пространственной транскриптомики

CBIcall: конфигурационно-ориентированная платформа для поиска генетических вариантов в крупных когортах секвенирования

PACMON: Интеграция мультиомиксных данных на основе путей для интерпретации крупномасштабных скринингов пертурбаций