Исследование представляет Isopedia — новую расширяемую структуру данных, предназначенную для аннотации изоформ РНК без привязки к существующим референсным геномам. Авторы решают проблему гипертрофированной «новизны» транскриптов, которая в RNA-Seq исследованиях часто достигает 20-70% из-за неполноты текущих аннотаций. Методология Isopedia переходит от зависимости от референса к аннотации, взвешенной по фактическим доказательствам, что позволяет отличить биологически активные изоформы от стохастического шума. В ходе тестирования на наборе данных HG002 система позволила снизить показатель кажущейся новизны изоформ в 26 раз, обеспечив уровень аннотации более 95% даже для низкокопийных изоформ. Масштабный каталог включает 1007 наборов данных секвенирования длинных чтений (long-read) из 37 различных биологических контекстов. Данный фреймворк критически важен для клинических исследований РНК, позволяя более точно изучать сложные локусы, такие как псевдогены и слияния генов. Проект Isopedia является открытым и доступен для использования в научных и медицинских целях через GitHub.