Исследователи представили HoloCell — первую в своем роде генеративную базовую модель (foundation model), предназначенную для совместного обучения представлениям и генеративного моделирования трех основных типов одноцепочечных омиксных данных: эпигеномики, транскриптомики и протеомики. Модель обладает колоссальным масштабом, содержая более 860 миллионов параметров, и прошла предварительное обучение на Human-Multi-Omics-Corpus, который включает около 468 миллионов профилей отдельных клеток и более 425 миллиардов токенов. В основе HoloCell лежит иерархическая стратегия токенизации, которая кодирует цис-регуляторные элементы, гены и белки как структурированные токены в единой архитектуре. Благодаря использованию механизмов итеративной диффузии и ремаскирования, модель демонстрирует превосходные результаты в задачах интеграции парных и непарных омиксных данных, а также в кросс-модальной генерации. HoloCell позволяет осуществлять in silico симуляцию потоков мультиомиксной информации, что делает её ключевым инструментом на пути к созданию концепции «виртуальной клетки». Это достижение открывает новые горизонты для системной характеризации клеточной гетерогенности и глубокого понимания биологических процессов на молекулярном уровне.