Исследование применяет методы трансферного обучения (VGG16, VGG19, ResNet) для классификации типов рака на основе данных RNA-Seq экспрессии генов. VGG16 показал наилучшие результаты с точностью 95%, что демонстрирует эффективность глубокого обучения для медицинской диагностики.
Исследование представляет Isopedia — новую расширяемую структуру данных, предназначенную для аннотации изоформ РНК без привязки к существующим референсным геномам. Авторы решают проблему гипертрофированной «новизны» транскриптов, которая в RNA-Seq исследованиях часто достигает 20-70% из-за неполноты текущих аннотаций. Методология Isopedia переходит от зависимости от референса к аннотации, взвешенной по фактическим доказательствам, что позволяет отличить биологически активные изоформы от стохастического шума. В ходе тестирования на наборе данных HG002 система позволила снизить показатель кажущейся новизны изоформ в 26 раз, обеспечив уровень аннотации более 95% даже для низкокопийных изоформ. Масштабный каталог включает 1007 наборов данных секвенирования длинных чтений (long-read) из 37 различных биологических контекстов. Данный фреймворк критически важен для клинических исследований РНК, позволяя более точно изучать сложные локусы, такие как псевдогены и слияния генов. Проект Isopedia является открытым и доступен для использования в научных и медицинских целях через GitHub.