В исследовании представлен PalmaClust — инновационный метод кластеризации данных секвенирования РНК единичных клеток (scRNA-seq), предназначенный для выявления крайне редких клеточных популяций (менее 1%). Авторы адаптировали коэффициент Пальма — статистическую метрику неравенства, используемую в социологии, — для анализа экстремальной разреженности данных и поиска маркеров генов. Методология заключается в построении и слиянии нескольких графов K-ближайших соседей (KNN), основанных на различных статистиках: коэффициенте Пальма, индексе Джини и факторе Фано. В отличие от существующих подходов, PalmaClust использует стратегию локального уточнения, пересматривая приоритетность генов внутри родительских кластеров. Результаты бенчмаркинга на различных публичных наборах данных показали, что новый метод повышает показатель F1-меры для редких классов как минимум на 20% (в абсолютном выражении) при сохранении высокой стабильности глобальной кластеризации. Данная разработка критически важна для идентификации транзиторных предшественников, терапевтически резистентных субклонов опухолей и специфических лимфоцитов, которые часто пропускаются стандартными пайплайнами.