Исследователи представили TifBERT — инновационную самообучающуюся архитектуру (foundation model), предназначенную для анализа данных секвенирования РНК (bulk RNA-seq) во всем транскриптоме. В отличие от существующих методов, которые полагаются на дискретизацию экспрессии или ограниченные наборы генов, TifBERT использует уникальный метод упорядочивания генов на основе TF-IDF, превращая неупорядоченные профили экспрессии в последовательности для трансформера. Модель обучалась методом маскированного моделирования генов на гармонизированных данных TCGA Pan-Cancer, охватывающих пять различных схем нормализации. В ходе тестирования на 33 типах рака TifBERT продемонстрировал точность 90,83%, показатель AUC-ROC 0,996 и MCC 0,903. Модель успешно улавливает биологию на уровне путей, достигая корреляции Пирсона 0,762 по 1387 активностям путей PARADIGM. Важным преимуществом является высокая стабильность к различным методам нормализации и способность сохранять структуру транскриптома даже на здоровых тканях (GTEx) без переобучения. TifBERT обеспечивает значительно более богатую геометрию эмбеддингов (эффективный ранг 95,6 против 6,3 у аналогов), что делает его масштабируемым инструментом для трансляционной геномики.