анализ данных

Новость8512 июн.

В статье представлен новый количественный метод Inter-Sample Consistency (ISC), предназначенный для решения критической проблемы точности аннотации типов клеток в исследованиях транскриптомики единичных клеток (single-cell RNA-seq). Авторы утверждают, что биологическая значимость метки типа клетки определяется её воспроизводимостью на молекулярном уровне между различными биологическими репликами. В отличие от существующих методов кластеризации, фреймворк ISC позволяет отличить истинные биологические паттерны от технических шумов и нежелательной вариативности. При тестировании на опубликованных атласах единичных клеток метод выявил значительные пробелы в воспроизводимости существующих аннотаций. Разработанный инструмент позволяет проводить бенчмаркинг автоматизированных инструментов аннотации даже при отсутствии «золотого стандарта» (ground truth). Практическая реализация метода представлена в виде Bioconductor-пакета scTypeEval, который может использоваться исследователями для исправления несоответствий и повышения качества анализа данных омики.

single-cell RNA-seq биоинформатика машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость9512 июн.

В исследовании представлен SCOUT — масштабный ресурс синтетического полногеномного секвенирования более чем 200 образцов, предназначенный для систематической проверки методов анализа генома опухолей. В отличие от традиционных симуляций, SCOUT моделирует эволюцию опухоли как латентный генеративный процесс, который одновременно формирует мутации, изменения числа копий генов, частоту аллельных вариантов и клональную архитектуру. Авторы протестировали популярные методы детекции соматических вариантов и реконструкции эволюции, выявив, что их точность резко падает в условиях низкой чистоты опухоли и высокой субклональности. Исследование показало, что чистота опухоли оказывает более значительное влияние на точность выводов, чем глубина секвенирования. Также было установлено, что пространственная ошибка выборки и гипермутации создают ложные эволюционные сигналы, искажающие интерпретацию данных. SCOUT позволяет дифференцировать генетические «бутылочные горлышки» от динамики резистентности, связанной с пластичностью опухоли, что критически важно для разработки персонализированной терапии.

онкология геномика машинное обучение+3

bioRxiv — Bioinformatics Оригинал

Новость9212 июн.

Представлен DModE — инновационный программный фреймворк, предназначенный для сквозного анализа данных прямого секвенирования РНК (DRS) с использованием технологии Nanopore. Основная проблема текущих методов заключается в необходимости ручной интеграции множества разрозненных инструментов для оценки экспрессии и выявления модификаций РНК. DModE решает эту задачу, объединяя препроцессинг на базе Nextflow (совместимый с Epi2ME) и специализированный Python-пакет для глубокого статистического анализа. Платформа позволяет проводить дифференциальный анализ экспрессии генов и изоформ, а также выявлять изменения в модификациях РНК на геномном и транскриптомном уровнях. Ключевой особенностью является возможность автоматического построения интерактивных HTML-отчетов, включающих метагенное профилирование и оценку взаимосвязи между динамикой экспрессии и эпитранскриптомными изменениями. Внедрение DModE значительно снижает порог вхождения для исследователей и упрощает комплексное изучение биологии РНК-модификаций.

биоинформатика секвенирование РНК эпитранскриптомика+3

bioRxiv — Bioinformatics Оригинал

Новость6511 июн.

В статье представлен inquiSTR — новый специализированный программный инструментарий командной строки, предназначенный для высокоскоростного генотипирования длины тандемных повторов по всему геному. Тандемные повторы являются высокоизменяемыми элементами генома, которые играют ключевую роль в развитии различных человеческих заболеваний и формировании признаков. Разработчики внедрили в inquiSTR алгоритмы потоковой обработки с низким потреблением памяти и эффективную параллелизацию, что позволило достичь рекордной скорости: обработка каталога из 1,78 миллиона локусов занимает менее двух минут. Бенчмаркинг подтвердил высокую точность метода и значительное превосходство в производительности над существующими аналогами и эталонными наборами данных (truth sets). Помимо генотипирования, инструмент включает функционал для последующего биоинформатического анализа, включая определение популяционной структуры, проведение тестов на ассоциацию и поиск генетических аутлайеров. Данная разработка имеет высокую значимость для популяционной генетики и персонализированной медицины, ускоряя анализ данных полногеномного секвенирования длинными прочтениями.

геномика биоинформатика популяционные исследования+2

bioRxiv — Bioinformatics Оригинал

Новость4511 июн.

Исследование представляет Hyper3D-lite — специализированный инструмент для аудита представления данных при анализе трехмерной структуры генома на основе технологий секвенирования длинных чтений (Oxford Nanopore, PacBio HiFi). Основная проблема, решаемая инструментом, заключается в искажении статистической значимости контактов: при стандартном попарном проецировании одна многоконтактная молекула может раздуваться до множества записей, создавая ложное впечатление избыточности биологических сигналов. Hyper3D-lite использует метод CPB (count-preserving statistical accounting) для обеспечения строгого статистического учета, сохраняющего исходное количество молекул. Методология позволяет сравнивать результаты стандартных проекций с консервативными оценками, отделяя широкомасштабные программные выводы от высокоточных кандидатов на высшие порядки контактов. Это критически важно для точной интерпретации хроматиновых конфигураций в геномике. Применение инструмента минимизирует риск ложноположительных результатов при анализе сложных многоконтактных взаимодействий в геноме.

геномика биоинформатика анализ данных+2

bioRxiv — Bioinformatics Оригинал

Новость7511 июн.

В статье представлен DivQuant — новый метод оптимизации для оценки показателей разнообразия дискретных распределений, что критически важно для биоинформатики и микробиологического анализа. Исследователи решают проблему оценки видового богатства (alpha-разнообразия) и энтропии Шеннона при работе с малыми выборками, где присутствие редких элементов искажает результаты. Методология DivQuant основана на формулировке задачи апсемплинга как выпуклой квадратичной программы с целевой функцией Неймана (chi-квадрат), что позволяет строить эмпирически калиброванные доверительные интервалы. В отличие от существующих методов, таких как RichnEst, iNext и PreSeq, которые ошибаются в оценке истинного богатства в 80% случаев, DivQuant обеспечивает точность на уровне номинальных 95% доверительных интервалов. Тестирование проводилось на шести семействах распределений, данных микробиома Tara Oceans и данных секвенирования единичных клеток (scRNA-seq) от 10X Genomics. Метод превосходит классические асимптотические оценки (Miller-Madow, CAE) и демонстрирует высокую скорость работы, завершая вычисления за считанные секунды.

биоинформатика микробиом алгоритмическая статистика+2

bioRxiv — Bioinformatics Оригинал

Новость7511 июн.

В данной научной работе исследуется критическая проблема методов коррекции батч-эффектов (batch correction), которые широко применяются для интеграции биологических наборов данных при изучении здоровья и заболеваний. Авторы указывают на серьезный недостаток популярных методов на основе эмбеддингов (embedding-based approaches): они могут существенно искажать взаимосвязи между признаками, в частности, корреляционные структуры между генами. Это искажение создает риск получения ложных биологических выводов при проведении последующего анализа данных. В рамках исследования была разработана и представлена новая метрика, позволяющая количественно оценить степень деформации генных корреляций, вызванную алгоритмами коррекции. Работа имеет высокую значимость для биоинформатиков и исследователей, использующих ИИ и машинное обучение для анализа транскриптомных данных, так как позволяет более точно оценивать достоверность интегрированных датасетов. Понимание этих механизмов необходимо для разработки более надежных инструментов препроцессинга данных в вычислительной биологии.

биоинформатика машинное обучение анализ данных+2

bioRxiv — Bioinformatics Оригинал

Новость7511 июн.

Исследование представляет HOMED (Hierarchically Optimized Methylation Deconvolution) — инновационный вычислительный фреймворк, предназначенный для решения проблемы клеточной гетерогенности в данных метилирования ДНК. Метод преодолевает ограничения существующих подходов, интегрируя иерархию клеточных линий и используя данные секвенирования РНК единичных клеток (scRNA-seq) для оптимизации сигнатур CpG-сайтов. В ходе тестирования на симулированных и реальных наборах данных (периферические мононуклеарные клетки крови, легкие и плацента) HOMED продемонстрировал превосходство над существующими методами, показав наиболее высокие коэффициенты корреляции Пирсона (PCC) и минимальные среднеквадратичные ошибки (RMSE). Благодаря использованию парных данных bulk RNA-seq/DNAm, алгоритм обеспечивает более высокую точность и разрешающую способность при анализе эпигенома. Разработка значительно повышает возможность обобщения результатов между различными типами тканей, что критически важно для проведения полногеномных исследований ассоциаций (EWAS). Данная технология открывает новые возможности для точной интерпретации эпигенетических профилей в биомедицинских исследованиях.

эпигенетика биоинформатика машинное обучение+3

bioRxiv — Bioinformatics Оригинал

Новость8510 июн.

В статье представлено инновационное решение HNSW-MS, предназначенное для ускорения поиска сходства масс-спектров в метаболомике, что критически важно для аннотации молекул и построения молекулярных сетей. Авторы внедряют алгоритм иерархического навигационного графа малых миров (Hierarchical Navigable Small World) непосредственно для работы с сырыми данными GC-MS и LC-MS/MS без необходимости предварительной обработки или создания эмбеддингов. Это обеспечивает максимальную воспроизводимость результатов при работе с огромными базами данных, такими как GNPS, объем которых превышает один миллиард спектров. В ходе валидации на наборе из 8,4 миллионов MS/MS спектров метод HNSW-MS продемонстрировал ускорение поиска до 560 раз по сравнению с традиционным линейным сканированием. При этом система сохраняет высокую точность, удерживая показатель top-1 recall на уровне выше 90%, а при определенных настройках параметров достигает идеальной полноты поиска. Данная технология устраняет «узкое место» в анализе метаболомных данных, позволяя проводить запросы к общедоступным репозиториям практически в реальном времени.

масс-спектрометрия метаболомика алгоритмы поиска+2

bioRxiv — Bioinformatics Оригинал

Новость8510 июн.

Исследование представляет scFAIR — новый консорциум, созданный для решения проблем доступности и воспроизводимости данных секвенирования РНК единичных клеток (scRNA-seq). Авторы разработали единую схему метаданных и систему кураторства, расширяющую возможности платформы CZ CELLxGENE Discover, что позволяет включать более богатый биологический контекст и структурировать описание вычислительных рабочих процессов. Центральным элементом проекта стал портал sc-fair.org, который на данный момент агрегирует 2 346 наборов данных из различных децентрализованных ресурсов с использованием семантического поиска на основе онтологий. Практическая значимость метода подтверждена кросс-видовой валидацией между атласами мозга человека и мыши (Allen Brain Atlases): использование стандартизированных аннотаций позволило переносить метки типов клеток между видами с точностью до 90% для нейрональных кластеров. Внедрение scFAIR обеспечивает фундамент для крупномасштабной интеграции данных и автоматизированного анализа в биомедицинских исследованиях.

биоинформатика scRNA-seq стандартизация данных+3

bioRxiv — Bioinformatics Оригинал

Новость5510 июн.

Представлено новое программное обеспечение Ontologizer 3 — десктопное приложение для проведения анализа сверхпредставленности терминов Gene Ontology (GO). Инструмент предлагает два дополняющих друг друга метода: частотный подход на основе одностороннего точного теста Фишера и байесовский подход с использованием анализа наборов генов на основе моделей (MGSA). Исследование показало, что из-за иерархической структуры GO термины сильно пересекаются, что приводит к различиям в результатах: частотный метод выдает длинные списки дублирующихся терминов, в то время как MGSA формирует лаконичный набор наиболее значимых категорий. Тестирование на симулированных данных с известной истинной базой подтвердило, что оба метода способны идентифицировать причинно-следственные термины, однако байесовский метод (MGSA) демонстрирует существенно более высокую точность (precision). Приложение реализовано на стеке Tauri с бэкендом на Rust и фронтендом на Angular, обеспечивая кроссплатформенную совместимость с Windows, macOS и Linux. Программный продукт распространяется по лицензии MIT и доступен бесплатно через GitHub.

биоинформатика анализ данных Gene Ontology+2

bioRxiv — Bioinformatics Оригинал

Новость9531 мая

Исследование посвящено оценке способности новейшей мультимодальной большой языковой модели ChatGPT-5 предоставлять точную и полезную информацию по чувствительной урологической теме — вазэктомии. Методология включала анализ 10 наиболее популярных запросов из Google Trends, на которые модель давала ответы, оцениваемые панелью из восьми экспертов (урологов, специалистов по общественному здравоохранению, акушера-гинеколога и медсестры по репродуктивному здоровью). Эксперты оценивали ответы по шести критериям, включая медицинскую точность, полноту и ясность, по 5-балльной шкале Лайкерта. Результаты показали средние баллы в диапазоне от 3.75 до 4.04, при этом наиболее высокие оценки получили ясность языка и уместность тона. Однако была выявлена значительная вариативность в оценках медицинской точности и полноты данных, а коэффициент внутриклассовой корреляции (ICC) составил -0.01, что указывает на крайне низкую согласованность между экспертами. Авторы делают вывод, что, несмотря на высокую доступность и понятность ответов, использование LLM в качестве образовательного ресурса требует строгого экспертного контроля и адаптации под целевую аудиторию.

ChatGPT-5 LLM урология+3

Frontiers in Digital Health

Новость9530 мая

В исследовании представлен PalmaClust — инновационный метод кластеризации данных секвенирования РНК единичных клеток (scRNA-seq), предназначенный для выявления крайне редких клеточных популяций (менее 1%). Авторы адаптировали коэффициент Пальма — статистическую метрику неравенства, используемую в социологии, — для анализа экстремальной разреженности данных и поиска маркеров генов. Методология заключается в построении и слиянии нескольких графов K-ближайших соседей (KNN), основанных на различных статистиках: коэффициенте Пальма, индексе Джини и факторе Фано. В отличие от существующих подходов, PalmaClust использует стратегию локального уточнения, пересматривая приоритетность генов внутри родительских кластеров. Результаты бенчмаркинга на различных публичных наборах данных показали, что новый метод повышает показатель F1-меры для редких классов как минимум на 20% (в абсолютном выражении) при сохранении высокой стабильности глобальной кластеризации. Данная разработка критически важна для идентификации транзиторных предшественников, терапевтически резистентных субклонов опухолей и специфических лимфоцитов, которые часто пропускаются стандартными пайплайнами.

scRNA-seq биоинформатика машинное обучение+3

bioRxiv — Bioinformatics Оригинал

Новость7529 мая

В исследовании представлен Super Bloom Filter — новый тип фильтра Блума, оптимизированный для обработки потоковых k-мерных запросов в биоинформатике. Основная проблема существующих структур заключается в плохой локальности кэша из-за случайных обращений к памяти, что замедляет работу. Авторы предложили использовать минимизаторы для группировки смежных k-меров в «супер-k-меры», что позволяет привязывать группу к одному блоку памяти и значительно снижать количество операций передачи данных. Дополнительно внедрена схема findere, которая снижает количество ложноположительных срабатываний на несколько порядков; в некоторых конфигурациях при 10^9 случайных запросах ложноположительных результатов не обнаружено вовсе. В ходе тестирования интеграция Super Bloom в инструменты BioBloom (на языке Rust) показала многократное преимущество в скорости индексации и поиска по сравнению с классическими реализациями на C++ и Rust. Данная разработка критически важна для задач метагеномной классификации, удаления последовательностей хозяина и фильтрации загрязнений при анализе биологических данных.

биоинформатика алгоритмы обработка последовательностей+2

bioRxiv — Bioinformatics Оригинал

Новость7529 мая

В статье представлено обновление программного обеспечения Harmony2, предназначенного для интеграции профилей секвенирования РНК единичных клеток (scRNA-seq). В условиях стремительного роста биомедицинских данных, объем которых в открытом доступе уже превышает 100 миллионов клеток, традиционные методы сталкиваются с проблемой масштабируемости. Разработчики представили алгоритм, способный эффективно обрабатывать более 100 миллионов клеток и более 1000 наборов данных без необходимости использования специализированного высокопроизводительного оборудования. Ключевым технологическим достижением является оптимизация базового алгоритма, которая предотвращает эффект «переинтеграции» (overintegration), сохраняя биологическую гетерогенность в сложных наборах данных. Это позволяет создавать высокоточные атласы единичных клеток, что критически важно для понимания клеточной архитектуры различных тканей и органов. Инструмент представляет высокую ценность для биоинформатиков и исследователей, занимающихся системной биологией и персонализированной медициной.

биоинформатика scRNA-seq машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость8527 мая

Исследователи представили CBIcall — универсальный фреймворк, предназначенный для стандартизации процессов поиска генетических вариантов (variant calling) в данных секвенирования следующего поколения (NGS). Проблема несогласованности результатов при использовании различных программных сред в федеративных исследованиях решается через единый конфигурационный файл YAML, который управляет всем циклом: от сырых FASTQ-файлов до готовых VCF-результатов. Система поддерживает выполнение через бэкенды Bash и Snakemake, обеспечивая совместимость версий инструментов, сборок генома и режимов анализа. В рамках проекта EU HEREDITARY платформа была успешно протестирована на 1 111 образцах, включая полноэкзомное секвенирование (WES) и анализ митохондриальной ДНК (mtDNA). CBIcall гарантирует воспроизводимость результатов за счет строгого контроля параметров и записи структурированного провинанса (истории выполнения) для каждого запуска. Инструмент является открытым (GPLv3) и готов к внедрению в высокопроизводительные вычислительные системы (HPC) медицинских и исследовательских центров.

геномика биоинформатика NGS+3

bioRxiv — Bioinformatics Оригинал

Новость9527 мая

Исследователи представили PACMON — новую байесовскую модель латентных факторов, предназначенную для интерпретации результатов высокопроизводительного скрининга генов. В отличие от существующих методов, PACMON объединяет мультимодальные молекулярные измерения (например, РНК и поверхностные белки) с априорными биологическими знаниями о путях. Модель использует структурированные разреженные априорные распределения для сопоставления латентных факторов с известными биологическими путями, одновременно оценивая, как различные экспериментальные воздействия (пертурбации) активируют или подавляют эти программы. Тестирование на синтетических данных показало практически идеальное восстановление структуры путей, превосходящее текущие методы по точности и масштабируемости. При применении к данным Perturb-CITE-seq клеток меланомы модель успешно выявила программы интерферонного сигналинга и клеточного цикла. Особую значимость представляет применение PACMON к атласу пертурбаций Tahoe-100M, охватывающему около 100 миллионов клеток и более 1000 комбинаций доз лекарств, что позволило впервые провести анализ латентных факторов на уровне путей в таком масштабе и картировать ландшафты лекарственного ответа.

мультиомика машинное обучение биоинформатика+3

bioRxiv — Bioinformatics Оригинал

Новость8527 мая

Исследователи представили RiboPipe — новый вычислительный фреймворк, предназначенный для решения проблемы разреженного покрытия данных рибосомного профилирования (Ribo-seq). Основная задача метода заключается в точной импутации (восстановлении) покрытия на уровне кодонов для транскриптов с низким уровнем считывания, что критически важно для количественного анализа трансляции. Методология RiboPipe базируется на трех принципах: совместной оптимизации предсказания средней нагрузки рибосом (MRL) и моделирования покрытия на уровне кодонов, использовании функции потерь с весовыми коэффициентами пиков (peak-weighted loss) для акцента на позициях трансляционной паузы, а также высокой эффективности при малых объемах данных. В ходе тестирования на наборах данных GSE233886 и GSE133393 было доказано, что использование простых one-hot представлений превосходит предобученные эмбеддинги языковых моделей. RiboPipe демонстрирует стабильную сходимость и масштабируемость, позволяя получать надежные данные о трансляции даже при дефиците исходных чтений.

биоинформатика трансляция Ribo-seq+2

bioRxiv — Bioinformatics Оригинал

Новость8527 мая

Представлен новый инструмент dreampy — Python-реализация популярного R-фреймворка dreamlet, предназначенная для анализа дифференциальной экспрессии данных секвенирования РНК единичных клеток (scRNA-seq). Библиотека реализует метод псевдо-bulk анализа, который объединяет линейные смешанные модели с точностью весов voom и эмпирическим байесовским модерированием. Это позволяет эффективно учитывать пакетные эффекты (batch effects), повторные измерения и сложную иерархическую структуру данных в исследованиях с участием нескольких доноров. Ключевым преимуществом dreampy является его нативная интеграция с экосистемой scverse и форматом AnnData, что устраняет необходимость переключения между R и Python. Инструмент позволяет проводить высокоточную статистическую обработку данных, минимизируя ложноположительные результаты, вызванные биологической и технической вариативностью. Использование dreampy значительно упрощает пайплайны биоинформатического анализа для специалистов, работающих на языке Python.

биоинформатика scRNA-seq дифференциальная экспрессия+3

bioRxiv — Bioinformatics Оригинал

анализ данных

Внутриличностное моделирование постпрандиальной глюкозы с использованием мультимодальных данных носимых устройств

Оценка аннотаций типов клеток в single-cell омике в отсутствие эталонных данных

Эволюция опухоли как истинное значение (ground truth) для полногеномного секвенирования рака

DModE: комплексная платформа для дифференциального анализа модификаций и экспрессии данных прямого секвенирования РНК Nanopore

inquiSTR: инструментарий для точного и эффективного генотипирования и анализа тандемных повторов в масштабах популяции

Hyper3D-lite: аудит представления данных генома с сохранением подсчета для многоконтактных данных длинных чтений

DivQuant: Оценка видового богатства и энтропии на основе малых выборок

Когда коррекция батч-эффекта искажает экспрессию генов: выявление искажений в корреляционных структурах

HOMED обеспечивает иерархическую и мультимодальную оптимизацию деконволюции метилирования ДНК в различных тканях

HNSW-MS: Иерархическое графовое индексирование обеспечивает точный поиск сходства масс-спектров в реальном времени в масштабах репозитория

Консорциум scFAIR: децентрализованный хаб для стандартизации и унификации данных секвенирования РНК единичных клеток

Ontologizer 3: кроссплатформенное десктопное приложение для частотного и байесовского анализа обогащения Gene Ontology

Может ли ChatGPT-5 обучать население вопросам вазэктомии?: оценка экспертной группы на основе данных Google Trends

PalmaClust: фреймворк на основе графового слияния с использованием коэффициента Пальма для надежного обнаружения ультра-редких типов клеток в данных scRNA-seq

Super Bloom: быстрый и точный фильтр для потоковых k-мер запросов

Интеграция больших и сложных наборов данных единичных клеток с помощью Harmony2

CBIcall: конфигурационно-ориентированная платформа для поиска генетических вариантов в крупных когортах секвенирования

PACMON: Интеграция мультиомиксных данных на основе путей для интерпретации крупномасштабных скринингов пертурбаций

RiboPipe: эффективная импутация покрытия Ribo-seq с кодонным разрешением для транскриптов с низким уровнем покрытия

dreampy: Псевдо-bulk анализ дифференциальной экспрессии на основе смешанных моделей для scRNA-seq в Python