анализ данных

Новость9515 мая

В статье представлен DeSpotX — инновационная глубокая генеративная модель, разработанная для решения критической проблемы пространственной транскриптомики (ST): загрязнения сигналов экспрессии генов между соседними клетками. Авторы предлагают использовать так называемые «якорные гены» (гены, которые не экспрессируются в конкретном кластере клеток), чтобы сделать процесс разделения нативного сигнала и загрязнения математически однозначным (identifiable). Методология DeSpotX включает использование пространственной информации через взвешенное по расстоянию усреднение соседей и применение обучаемого диффузионного априорного распределения для предотвращения чрезмерной коррекции низкоуровневых сигналов. В ходе симуляций на пяти наборах данных и четырех платформах ST модель показала превосходные результаты с показателем AUROC >0.94, превзойдя лучшие существующие методы на 0.02–0.12 пункта. При тестировании на реальных тканях (мозг мыши и рак молочной железы) метод продемонстрировал повышение специфичности маркерных генов и более точную реконструкцию сетей межклеточной коммуникации. Исследование подтверждает, что итеративное использование DeSpotX позволяет значительно точнее определять источники лиганд-рецепторных сигналов, что критически важно для точной биологической интерпретации данных.

пространственная транскриптомика глубокое обучение биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость9215 мая

Исследователи представили minkiPy — новый геометрический фреймворк на языке Python, предназначенный для анализа пространственной транскриптомики. Библиотека позволяет вычислять компактные профили морфологических и топологических дескрипторов для каждого гена на основе функционалов и тензоров Минковского. Это решает критическую проблему сравнения паттернов экспрессии генов внутри одного образца и между различными условиями. Методология позволяет ранжировать гены по степени их пространственной реорганизации, создавая единое пространство признаков для анализа. В ходе тестирования minkiPy был применен к набору данных MERFISH для культур миобластов при лицелопатно-плечевой мышечной дистрофии, а также к данным Visium HD для сравнения тканей колоректального рака и прилегающих здоровых тканей. Инструмент является open-source решением и может значительно ускорить интерпретацию сложных пространственных данных в биомедицинских исследованиях.

пространственная транскриптомика биоинформатика онкология+3

bioRxiv — Bioinformatics Оригинал

Новость8515 мая

Исследователи представили PXN — вероятностный фреймворк на базе машинного обучения, предназначенный для решения проблемы несовместимости данных экспрессии генов, полученных из различных экспериментальных технологий. Основная проблема заключается в систематических расхождениях между платформами (разные шкалы измерения, химия зондов и распределение сигналов), что препятствует крупномасштабному интегративному анализу. PXN создает единое представление биологического сигнала, позволяя бесшовно переводить данные между различными платформами, сохраняя важную биологическую вариативность и устраняя технологические смещения. В ходе бенчмаркинга метод PXN продемонстрировал превосходство над существующими методами нормализации по точности кросс-платформенного анализа и значительно повысил статистическую мощность дифференциального анализа экспрессии. Особую значимость представляет способность модели преодолевать технологический разрыв между устаревшими микрочипами (microarray) и современным секвенированием РНК (RNA-seq). Это открывает масштабируемый путь для интеграции архивных данных с новейшими исследованиями, ускоряя процесс биомедицинских открытий и разработки новых методов терапии.

машинное обучение биоинформатика генетика+2

bioRxiv — Bioinformatics Оригинал

Новость9515 мая

Исследователи представили BiomniBench — инновационную платформу для оценки работы LLM-агентов в области биомедицинских исследований на уровне процесса, а не только конечного результата. В отличие от традиционных бенчмарков, которые могут поощрять заучивание данных или «взлом вознаграждения» (reward hacking), BiomniBench анализирует всю траекторию действий агента с помощью экспертных рубрик. Первая реализация, BiomniBench-DA, включает 100 задач по анализу данных, охватывающих 17 типов аналитических задач и 5 областей заболеваний, базируясь на высокоцитируемых работах из журналов Nature, Cell и Science. Исследование показало, что даже передовые модели (frontier models) имеют значительный потенциал для роста, а выбор архитектуры агента (agent harness) влияет на результат так же сильно, как и сама базовая модель. Ключевые выявленные проблемы включают ошибки в выборе методологии, сложности с биологической интерпретацией и недостатки в научном рассуждении. Данный фреймворк является первым инструментом, позволяющим выявлять скрытые ошибки ИИ-агентов, которые невозможно обнаружить при оценке только по финальному ответу.

LLM биомедицина агенты ИИ+3

bioRxiv — Bioinformatics Оригинал

Новость9515 мая

В данной работе представлен spDDB — комплексная платформа для сравнительного анализа методов пространственной деконволюции и определения пространственных доменов. Исследователи провели масштабное тестирование, охватившее 21 метод деконволюции и 18 методов детекции доменов на базе 37 наборов данных, включающих ткани мозга, раковые опухоли и другие органы, полученные с помощью четырех различных технологий. Для обеспечения точности оценки был разработан новый симулятор SynthST на основе глубокого графового автоэнкодера с механизмом внимания, способный генерировать реалистичные распределения типов клеток. Результаты показали, что Cell2location, RCTD и SONAR являются наиболее эффективными инструментами для деконволюции, однако их точность сильно зависит от архитектуры ткани и масштаба данных. В задачах детекции доменов лидерами были признаны PROST, BASS и SpaceFlow, при этом выявлены серьезные ограничения существующих алгоритмов при работе с крупномасштабными наборами данных. Работа завершается практическими рекомендациями по выбору оптимальных вычислительных методов в зависимости от конкретных экспериментальных условий и используемых технологий пространственной транскриптомики.

пространственная транскриптомика биоинформатика машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость9515 мая

В исследовании представлен MethylCurate — инновационный агентный ИИ-фреймворк, разработанный для автоматизации работы с наборами данных метилирования ДНК. Основная проблема текущих методов заключается в сложности извлечения данных из публичных репозиториев, таких как NCBI Gene Expression Omnibus, и необходимости ручной гармонизации разрозненных метаданных. MethylCurate решает эти задачи, используя возможности искусственного интеллекта для автоматического поиска, унификации форматов и сопоставления гетерогенных метаданных. Система позволяет масштабировать процесс оценки эпигенетических часов старения через интегрированный рабочий процесс, управляемый диалоговым интерфейсом. Внедрение данного инструмента значительно снижает потребность в ручном вмешательстве исследователей и устраняет узкие места при подготовке данных для биоинформатического анализа. Это открывает новые возможности для быстрого тестирования и валидации моделей биологического старения на широких массивах данных.

биоинформатика эпигенетика искусственный интеллект+2

bioRxiv — Bioinformatics Оригинал

Новость6515 апр.

В статье представлен CLEAR (Concise List Enrichment Analysis Reducing Redundancy) — новый байесовский фреймворк для анализа обогащения наборов генов, предназначенный для интерпретации данных высокопроизводительных экспериментов. В отличие от традиционных методов, таких как ORA или GSEA, которые тестируют наборы генов независимо и игнорируют их иерархическую структуру, CLEAR моделирует множественные наборы генов одновременно. Ключевым инновационным отличием является отказ от бинаризации данных (перевода в состояния «активен/неактивен» через пороги) в пользу использования непрерывных статистик, таких как p-values или тестовые статистики. Это позволяет избежать потери информации и снизить избыточность результатов, характерную для Gene Ontology. Исследования на симулированных данных и данных экспрессии генов человека подтвердили, что CLEAR значительно повышает чувствительность анализа и обеспечивает получение более лаконичного и интерпретируемого списка обогащенных наборов генов по сравнению с существующими методами.

биоинформатика машинное обучение байесовский анализ+2

bioRxiv — Bioinformatics Оригинал

Новость8515 апр.

Представлена ProteoPy — легковесная библиотека на языке Python, предназначенная для количественного анализа протеомики на уровнях белков и пептидов. В основе библиотеки лежит структура данных AnnData, что позволяет эффективно объединять биоинформатические данные с сохранением всей метаинформации в едином объекте. Ключевой особенностью является программная реализация алгоритма COPF, которая позволяет осуществлять вывод групп протеоформ непосредственно из пептидных данных. Это дает возможность исследователям идентифицировать специфическую регуляцию протеоформ и использование различных изоформ. Библиотека спроектирована для упрощения рабочих процессов как для специалистов, так и для пользователей без глубоких знаний в биоинформатике. ProteoPy бесшовно интегрируется с экосистемами scanpy и muon, обеспечивая масштабируемость и воспроизводимость мультиомиксного анализа. Инструмент доступен под лицензией Apache 2.0 на GitHub и включает обучающие ноутбуки для быстрой адаптации.

протеомика биоинформатика машинное обучение+3

bioRxiv — Bioinformatics Оригинал

Новость9515 апр.

Представлен новый модульный фреймворк STAPLE, разработанный для решения проблемы фрагментации рабочих процессов в анализе пространственной транскриптомики. Традиционные методы анализа часто требуют использования разрозненных инструментов для типирования клеток, определения их окружения и изучения межклеточной коммуникации, что затрудняет масштабируемость и воспроизводимость. STAPLE объединяет эти разрозненные этапы в единую систему с унифицированными структурами данных, позволяя проводить сквозной анализ (end-to-end) с помощью одной команды. Ключевой инновацией является интеграция интеллектуального уровня отчетности на базе ИИ, который синтезирует количественные результаты в структурированные биологические резюме. Это значительно упрощает интерпретацию сложных данных и автоматизирует процесс извлечения биологических смыслов. Инструмент направлен на повышение строгости и воспроизводимости исследований в области пространственной биологии.

пространственная транскриптомика биоинформатика автоматизация+2

bioRxiv — Bioinformatics Оригинал

Новость4515 апр.

В статье представлен itBins — полностью автоматизированное программное обеспечение на базе Python, предназначенное для сверхбыстрого уточнения метагеномных бинов. Инструмент использует правиловой подход, опираясь на данные о содержании ГЦ-пар (%GC), покрытии и таксономии отдельных контигов. В ходе тестирования на наборах данных CAMI I (низкой, средней и высокой сложности) itBins продемонстрировал более высокие показатели F-меры по сравнению с такими инструментами, как MDMcleaner и Rosella, и показал результаты, сопоставимые с ручным уточнением через uBin. Скорость работы программы составляет в среднем 61 мс на один бин, что на три порядка быстрее существующих аналогов. При применении к 64 реальным метагеномам речных мезокосмов инструмент успешно сформировал 259 среднекачественных и 19 высококачественных MAG (метагеномно-собранных геномов), в то время как другие автоматизированные средства не смогли завершить работу даже за 5000 часов. Кроме того, itBins использует маркерные гены для оценки общего успеха биннинга, что позволяет исследователям определять экологическую релевантность полученных данных. Программное обеспечение совместимо с DASTool и доступно через Bioconda, GitHub и Codeberg.

биоинформатика метагеномика автоматизация+2

bioRxiv — Bioinformatics Оригинал

Новость4515 апр.

В статье представлен новый программный инструмент geneslator — специализированный R-пакет, разработанный для решения проблем интерпретации данных высокопроизводительного секвенирования. Основная задача инструмента заключается в обеспечении точного преобразования между различными типами идентификаторов генов, такими как Gene symbols, Ensembl GeneIDs и Entrez GeneIDs, что критически важно для интеграции наборов данных. Разработчики внедрили функционал картирования ортологов и аннотации путей для восьми модельных организмов, включая человека (Homo sapiens), мышь (Mus musculus) и дрожжи (Saccharomyces cerevisiae). В отличие от существующих решений, geneslator минимизирует риски несоответствий и фрагментации рабочих процессов, обеспечивая целостность данных при кросс-видовом анализе. Инструмент позволяет автоматизировать сложные биоинформатические задачи, повышая воспроизводимость функциональных исследований. Пакет доступен в открытом доступе на платформе GitHub для использования в академических и клинических исследованиях.

биоинформатика анализ данных геномика+1

bioRxiv — Bioinformatics Оригинал

Новость8515 апр.

В статье представлен circStudio — новый специализированный Python-пакет, предназначенный для комплексной работы с данными актиграфии, которые собираются с носимых устройств. Разработчики объединили разрозненные инструменты для мониторинга двигательной активности, воздействия света и температуры в единую программную среду. Пакет построен на базе кодовой базы pyActigraphy и интегрирует математические модели циркадных ритмов из пакета Arcascope. circStudio предлагает гибкие инструменты предобработки, поддержку различных форматов файлов через адаптеры и набор функций для вычисления стандартных метрик актиграфии. Основная ценность инструмента заключается в возможности бесшовного перехода от сырых данных носимых устройств к физиологически интерпретируемым результатам моделирования циркадных ритмов. Это решение значительно снижает вычислительные затраты и повышает воспроизводимость исследований в области цифрового здравоохранения, сомнологии и циркадной биологии.

цифровое здравоохранение циркадные ритмы анализ данных+3

bioRxiv — Bioinformatics Оригинал

Новость9514 апр.

Исследование оценивает эффективность использования GPT-4o для анализа интервью с медицинскими работниками с целью определения требований к новому устройству для измерения частоты сердечных сокращений у новорожденных. Результаты показали, что генеративный ИИ может эффективно извлекать функциональные и дизайнерские требования, снижая административную нагрузку на разработчиков.

генеративный ИИ разработка медицинских устройств LLM+2

Frontiers in Digital Health

Новость4511 апр.

Исследователи представили DIANA — многозадачную нейронную сеть, предназначенную для автоматизации анализа метаданных в области древней метагеномики. В отличие от традиционных методов, зависящих от референсных баз данных, DIANA предсказывает ключевые категории метаданных непосредственно на основе обилия унитигов. Модель была обучена на колоссальном массиве данных, включающем 2 597 регистраций с общим объемом собранных последовательностей 1,72 Тб. В ходе тестирования система продемонстрировала высокую точность: идентификация хозяина образца составила 94,6%, определение типа сообщества — 90,0%, а типа материала — 88,9%. Важной инновацией является способность к семантической генерализации, позволяющая корректно классифицировать даже те образцы, подтипы которых не встречались в обучающей выборке. Данная технология значительно ускоряет процессы валидации метаданных и контроля качества, что критически важно для масштабных исследований древних микробиомов.

глубокое обучение метагеномика древняя ДНК+2

bioRxiv — Bioinformatics Оригинал

Новость8511 апр.

В статье представлен PERREO — новый комплексный биоинформатический инструмент, предназначенный для глубокого анализа экспрессии повторяющихся элементов (транспозонов) на основе данных секвенирования коротких и длинных чтений. Традиционные методы RNA-seq часто игнорируют или недооценивают молекулы РНК, происходящие из повторяющихся элементов, так как они оптимизированы под аннотированные гены. PERREO решает эту проблему, обеспечивая полный цикл обработки данных: от контроля качества и специфического для повторов выравнивания до анализа дифференциальной экспрессии и сборки транскриптов de novo. Авторы провели валидацию инструмента на клеточных линиях, опухолевых тканях и жидкостной биопсии, подтвердив его превосходную чувствительность к сигнатурам повторяющейся РНК по сравнению со стандартными подходами. Интеграция прогностического моделирования в пайплайн позволяет выявлять биологические ассоциации и строить сети ко-экспрессии. Данная разработка значительно снижает биоинформатический порог входа для исследователей, открывая новые возможности для изучения роли репотома в развитии онкологических заболеваний и других патологий.

онкология биоинформатика транскриптомика+3

bioRxiv — Bioinformatics Оригинал

Новость4511 апр.

В статье представлен BrightEyes-FFS — новое программное обеспечение на языке Python, предназначенное для анализа данных флуоресцентной флуктуационной спектроскопии (FFS). Данная методика используется для количественного измерения молекулярной динамики и взаимодействий, а использование матричных детекторов малого формата позволяет получать детализированную пространственно-временную информацию. Разработанная платформа решает проблему отсутствия открытого ПО для обработки многомерных наборов данных FFS. Функционал включает пакет для чтения сырых данных, вычисления авто- и кросс-корреляций с использованием различных алгоритмов и аппроксимацию корреляций по нескольким моделям. Для удобства пользователей реализован графический интерфейс (GUI) в виде исполняемого файла и инструмент автоматической генерации Jupyter Notebook для перехода к кастомному анализу. Инструмент может быть полезен в биофизических исследованиях диффузии, потоков и динамики взаимодействий на молекулярном уровне.

анализ данных биофизика open-source+2

bioRxiv — Bioinformatics Оригинал

Новость7511 апр.

Исследование посвящено критической проблеме метабаркодинга ДНК растений — отсутствию высококачественных и регулярно обновляемых референсных баз данных для региона trnL (UAA). Авторы провели систематическое сравнение трех инструментов курирования данных: OBITools3/ecoPCR, RESCRIPt и MetaCurator, чтобы определить наиболее эффективные методы очистки последовательностей от таксономических ошибок и избыточности. В ходе работы были созданы три специализированные базы данных и протестированы на различных участках trnL (CD, CH и GH) с использованием классификатора Naive Bayesian в DADA2. Результаты показали, что MetaCurator и RESCRIPt демонстрируют наилучшие показатели для региона trnL CD, в то время как MetaCurator показал максимальную эффективность для региона GH. Методология исследования включает использование симулированных наборов данных и мутировавших копий для проверки точности классификации. Разработанные базы данных и вычислительные рабочие процессы опубликованы в открытом доступе на Zenodo и GitHub, что позволяет использовать их как глобальные референсные ресурсы для экологических и биологических исследований.

метабаркодинг биоинформатика растения+2

bioRxiv — Bioinformatics Оригинал

Новость9511 апр.

В данном исследовании представлен систематический сравнительный анализ шести популярных вычислительных инструментов (CellBender, DecontX, SoupX, scCDC, scAR и CellClear), предназначенных для удаления фоновой РНК (ambient RNA) при секвенировании РНК единичных клеток и ядер. Исследователи протестировали инструменты на шести наборах данных, включая смешанные клеточные линии человека и мыши, данные PBMC и префронтальной коры, а также данные платформы BD Rhapsody. Ключевым открытием стало то, что инструменты scAR и CellClear не просто очищают данные, а фундаментально искажают матрицы отсчетов: CellClear заменяет более 93% значений данными, полученными методом матричной факторизации, а scAR создает ложные типы клеток, отсутствующие в исходных данных. В то же время CellBender и SoupX показали высокую надежность при минимальном искажении данных. Исследование подчеркивает, что при выборе инструментов для коррекции фонового шума приоритетным критерием должна быть целостность матрицы отсчетов, а не только чувствительность к удалению загрязнений. Авторы предлагают готовую систему рекомендаций в зависимости от используемой экспериментальной платформы.

биоинформатика scRNA-seq машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость6511 апр.

В данной статье рассматриваются продвинутые методы контрастивного анализа главных компонент (PCA), предназначенные для снижения размерности данных путем максимизации дисперсии целевого набора данных при одновременной минимизации дисперсии фонового шума. Авторы представляют два ключевых расширения метода: k-ρPCA, использующий весовые коэффициенты ядра для контрастирования пространственных и не пространственных осей вариации, и f-ρPCA, решающий задачу коэффициента Рэлея в пространстве коэффициентов базисных функций для анализа функциональных данных. Предложенный математический аппарат позволяет объединить разрозненные подходы пространственного и функционального анализа в единую концептуальную структуру. Практическая значимость методов продемонстрирована на реальных биомедицинских данных из области геномики. В частности, алгоритмы успешно применены для анализа экспрессии генов при раковых заболеваниях и изучения иммунного ответа на вакцинацию, что подтверждает их эффективность в поиске биологически значимых сигналов на фоне высокого уровня шума.

геномика анализ данных машинное обучение+2

bioRxiv — Bioinformatics Оригинал

анализ данных

Сравнение способности трех больших языковых моделей оценивать риск систематической ошибки с помощью инструмента ROBINS-I

DeSpotX: деконтаминация на основе идентифицируемости для пространственной транскриптомики

Дифференциальный анализ пространственной организации генов с использованием функционалов и тензоров Минковского

PXN раскрывает потенциал публичных данных экспрессии генов через кросс-технологическую интеграцию

BiomniBench: Оценка на уровне процессов LLM-агентов для реальных биомедицинских исследований

MethylCurate: инструмент для курирования наборов данных и оценки эпигенетических часов старения

CLEAR: Краткий анализ обогащения списков, снижающий избыточность

ProteoPy: фреймворк на базе AnnData для интегрированного протеомного анализа

STAPLE: автоматизация анализа пространственной транскриптомики и интерпретация с помощью ИИ

Автоматизированное уточнение метагеномных бинов и оценка успеха биннинга с помощью itBins

geneslator: R-пакет для комплексного преобразования идентификаторов генов и аннотации

Представляем circStudio — Python-пакет для предобработки, анализа и моделирования данных актиграфии

Фреймворк для извлечения клинических потребностей пользователей при разработке педиатрических устройств с помощью генеративного ИИ

DIANA: Глубокое обучение для идентификации и оценки древней ДНК

PERREO: Интегрированный пайплайн для анализа повторяющихся элементов позволяет профилировать экспрессию репотома в раковых клетках

Генерация, курирование и оценка референсных баз данных последовательностей trnL: бенчмаркинг OBITools3/ecoPCR, RESCRIPt и MetaCurator

Бенчмаркинг удаления фоновой РНК на платформах droplet и well-plate выявляет генерацию искусственных данных как критический сбой scAR и CellClear

Коэффициент Рэлея и контрастивный анализ главных компонент II