Исследование представляет новую методологию на основе многокритериального обучения с подкреплением для задачи обратного сворачивания белков — фундаментальной проблемы в дизайне белков и разработке лекарств. Авторы предлагают фреймворк Symmetric Self-play Preference Optimization (SSP), который разделяет оптимизацию нескольких структурных целей путём обучения отдельных моделей предпочтений с различными сигналами вознаграждения, при этом обеспечивая взаимодействие через общий пул выборки. Ключевое отличие от существующих подходов заключается в том, что традиционные методы используют одну модель с скаляризованным вознаграждением, что смещает оптимизацию в сторону доминирующих целей и ограничивает разнообразие решений. Эксперименты на задачах обратного сворачивания как для естественных, так и для de novo биндеров демонстрируют, что SSP стабильно улучшает согласованность последовательностей по сравнению с одно-модельными и существующими базовыми методами. Дополнительный анализ показывает, что различные структурные цели лишь частично согласованы и индуцируют различные направления оптимизации, что подтверждается корреляцией метрик и white-box анализами. Результаты исследования имеют прямое значение для разработки новых терапевтических белков и лекарств, так как качество дизайна белков напрямую влияет на их функциональность и специфичность связывания. Методология SSP открывает перспективы для более эффективного дизайна белков с заданными структурными и функциональными свойствами.