В исследовании представлен CLOP-DiT — инновационный трехэтапный конвейер для генерации реалистичных транскриптомных профилей единичных клеток на основе текстовых и биологических описаний. Методология включает использование контрастивного аллайнера (CLOP) для сопоставления эмбеддингов BiomedBERT и scGPT в едином 512-мерном пространстве, а также диффузионный трансформер (DiT), управляемый пятикомпонентным биологическим шаблоном (тип клетки, ткань, организм, маркерные гены и заболевание). Эксперименты на 220 304 клетках из 80 наборов данных GEO показали высокую точность: в режиме высокой точности (CFG = 2.0) достигнута точность KNN 36,9% (что в 25 раз выше случайного показателя) и эффективность управления 81,0%. Исследование выявило, что маркерные гены являются доминирующим сигналом для управления генерацией, при этом точность управления падает с 99,8% до 62,4% при исключении генов из метаданных. Несмотря на сохранение внутрираспределенной дисперсии генов (r = 0,98), авторы отмечают ограничения в корреляции междатасетной дисперсии и указывают на потенциал для дальнейшего улучшения модульной архитектуры.