Исследователи представили Pro2RNA — мультимодальную языковую модель для обратного перевода, которая генерирует кодирующие последовательности мРНК из соответствующих белковых последовательностей с учётом таксономической информации организма-хозяина. Модель интегрирует несколько предобученных языковых моделей: ESM2 для представления белков, SciBERT для понимания таксономии и генеративную РНК-модель для генерации последовательностей на уровне кодонов. Обучение проводилось на парах мРНК-белок из наборов данных эукариот и бактерий, что позволило модели изучить видовые генетические коды и паттерны использования кодонов. Pro2RNA генерирует адаптированные к хозяину и естественные последовательности мРНК, что критически важно для разработки мРНК-вакцин и нуклеиновых терапевтических препаратов. В множественных бенчмарк-оценках Pro2RNA соответствует или превосходит существующие методы оптимизации. Технология решает ключевую проблему — видоспецифичное проектирование оптимальных кодирующих последовательностей для заданного белка. Это открывает возможности для создания более эффективных и безопасных мРНК-терапевтических средств с учётом особенностей организма-хозяина.