Исследователи представили ProtmRNA — инновационный подход к анализу последовательностей мРНК, основанный на методе кросс-модального обучения с переносом знаний. В основе метода лежит использование предобученной белковой языковой модели ESM-2 для обработки последовательностей мРНК, что опирается на фундаментальную биологическую связь между мРНК и аминокислотными цепями. В ходе тестирования на специализированных наборах данных и восьми дополнительных бенчмарках, ProtmRNA продемонстрировала производительность, сопоставимую или превосходящую существующие SOTA-модели (state-of-the-art) для мРНК. При этом ключевым преимуществом является высокая эффективность: модель требует менее половины вычислительных ресурсов, затрачиваемых на стандартное предварительное обучение. Работа доказывает возможность эффективного переноса знаний между различными типами биологических последовательностей, предлагая новый ресурсосберегающий парадигмальный подход для биоинформатики и разработки лекарств. Предварительно обученная модель и наборы данных для регрессии CDS-регионов доступны в открытом доступе.