Исследование посвящено применению обучения с подкреплением (Reinforcement Learning) для генеративных языковых моделей ДНК, что имеет прямое значение для геномики и персонализированной медицины. Авторы использовали технику Group Relative Policy Optimization (GRPO) с функцией вознаграждения, основанной на ограничениях из инженерной биологии, для генерации плазмид — простых генетических конструкций, широко используемых в биотехнологии. Ключевой результат: модель достигла 77% качества при контроле, по сравнению с 5% у предобученной базовой модели, что демонстрирует значительное улучшение. Примечательно, что помимо явно оптимизированных признаков, сгенерированные последовательности демонстрируют биологическую реалистичность в термодинамической стабильности, паттернах использования кодонов и распределении длин открытых рамок считывания (ORF) — свойствах, не включённых в функцию вознаграждения. Эти эмерджентные свойства указывают на способность RL пост-тренинга направлять модели ДНК в биологически когерентные области пространства последовательностей. Результаты открывают перспективы для дизайна генетических конструкций, разработки генной терапии и создания синтетических биологических систем.