кластеризация

Новость9518 маяОбзор

В исследовании представлен scTGCL — инновационный фреймворк, предназначенный для решения проблемы кластеризации данных секвенирования РНК единичных клеток (scRNA-seq), которая осложнена высокой размерностью и техническим шумом (dropout). Методология объединяет механизмы многоголового самовнимания (multi-head self-attention) из архитектуры Transformer с графовым контрастивным обучением для создания устойчивых представлений клеток. Авторы используют стратегии аугментации, такие как случайное маскирование генов и удаление ребер в матрицах внимания, чтобы имитировать биологическую неопределенность и технические пропуски. В ходе экспериментов на десяти реальных наборах данных scRNA-seq модель scTGCL превзошла девять современных методов по ключевым метрикам: точности кластеризации, нормализованной взаимной информации (NMI) и индексу Ранда (ARI). Помимо высокой точности, scTGCL демонстрирует значительное превосходство в вычислительной эффективности, обеспечивая существенно меньшее время выполнения на крупномасштабных наборах данных. Результаты подтверждают масштабируемость и стабильность метода при различных уровнях экспрессии генов, что делает его ценным инструментом для биоинформатики и прецизионной медицины.

биоинформатика трансформеры машинное обучение scRNA-seq кластеризация графовое обучение

bioRxiv — Bioinformatics Оригинал

Новость8513 апр.

В данном исследовании рассматривается применение вариационных автоэнкодеров (VAE) как мощного инструмента для обучения без учителя, в частности для обнаружения аномалий и кластеризации данных. Авторы предлагают использовать вероятностную метрику реконструкции (reconstruction likelihood) в качестве стохастической альтернативы традиционным детерминированным показателям ошибки. В ходе работы тестировались различные архитектуры VAE, сочетающие реконструкционную вероятность с обучаемым или управляемым данными априорным распределением. Методология включала использование методов снижения размерности, таких как t-SNE и UMAP, для визуализации латентного пространства, а также алгоритмов k-means и HDBSCAN для верификации кластеров. Результаты показали, что энкодер VAE эффективно отображает данные в латентное пространство с четко выраженной кластерной структурой, соответствующей истинным меткам. Исследование доказывает, что использование семантических признаков в сочетании с вероятностью реконструкции обеспечивает научно обоснованный подход к идентификации типичных образцов и аномалий, что имеет высокий потенциал для клинического применения в анализе биомедицинских данных.

вариационные автоэнкодеры кластеризация обнаружение аномалий+2

bioRxiv — Bioinformatics Оригинал

Новость8530 мар.

GraphHDBSCAN* — это новый алгоритм машинного обучения для кластеризации данных одноячеистого секвенирования РНК (scRNA-seq), широко используемого в биомедицинских исследованиях для анализа клеточного разнообразия. Метод представляет собой иерархическое расширение HDBSCAN*, которое работает непосредственно с графовой структурой данных, устраняя необходимость в ручной настройке гиперпараметров. В отличие от существующих подходов, фокусирующихся на плоских кластерах, GraphHDBSCAN* сохраняет иерархическую организацию клеток, выявляя как широкие типы клеток, так и их специализированные подтипы. Исследователи протестировали метод на множестве наборов данных scRNA-seq и продемонстрировали, что алгоритм восстанавливает биологически значимые иерархии, включая тонкую структуру субпопуляций моноцитов. Метод обеспечивает высококачественные плоские кластеризации, превосходящие широко используемые методы обнаружения сообществ. GraphHDBSCAN* особенно важен для онкологических исследований, иммунологии и разработки персонализированных терапий, где точное определение клеточных популяций критично для понимания механизмов заболеваний и оценки ответа на лечение.

машинное обучение биоинформатика секвенирование РНК+3

bioRxiv — Bioinformatics Оригинал

Новость8521 мар.

Исследование применяет методы машинного обучения (PCA и K-means кластеризацию) для стратификации пациентов с ишемическим инсультом на три биологически различных подтипа. Результаты показывают, что ML-анализ биомаркеров воспаления, коагуляции и метаболизма позволяет выявить гетерогенность заболевания и может улучшить персонализированный подход к оценке рисков.

машинное обучение диагностика инсульт+2

Frontiers in AI — Medicine

кластеризация

scTGCL: подход на основе графового контрастивного обучения с использованием трансформеров для эффективной кластеризации данных scRNA-seq

Переосмысление вероятности реконструкции: вариационные автоэнкодеры для кластеризации биологических и биомедицинских данных

GraphHDBSCAN*: Графическая иерархическая кластеризация для высокоразмерных данных одноячеистого секвенирования РНК

Идентификация подтипов ишемического инсульта, определенных профилями воспаления, коагуляции и метаболизма