Исследователи представили GermRL — легкий и модульный фреймворк на основе обучения с подкреплением (RL), предназначенный для устранения проблемы «герминального смещения» в предобученных языковых моделях антител. Проблема заключается в том, что современные генеративные модели склонны воспроизводить исходные последовательности (germline), что ограничивает поиск новых мутаций, необходимых для создания эффективных терапевтических кандидатов. В работе используется метод групповой относительной оптимизации политики (GRPO), адаптированный для предотвращения «взлома вознаграждения» (reward hacking) и повышения эффективности обучения. Результаты тестирования показали колоссальный рост метрики pass@1: при пороге в 5 мутаций от герминала точность генерации выросла с 0.398 до 0.992, а при высоком пороге в 35 мутаций — с 0.034 до 0.950. При этом сгенерированные антитела сохраняют структурную правдоподобность, биологическую реализуемость и профили пригодности для разработки (developability), сопоставимые с природными образцами. Данная технология открывает новые возможности для навигации по ландшафту последовательностей антител, позволяя находить уникальные терапевтические молекулы, выходящие за рамки стандартных эволюционных паттернов.