Исследователи представляют ProteinSage — новую фреймворк предобучения для моделей белковых языков, который интегрирует явные структурные ограничения вместо традиционного подхода, основанного исключительно на последовательностях. Методология включает структурированное маскирование белковых последовательностей и каузальную задачу, позволяющую моделировать долгосрочные зависимости в структуре белка. Такой подход позволяет достигать конкурентоспособных результатов при использовании меньшего объёма данных и вычислительных ресурсов. Валидация на задаче обнаружения белков с многопроходными трансмембранными спиральными архитектурами показала успешную идентификацию шести ранее неаннотированных гомологов микробных родопсинов. Это демонстрирует способность модели к истинному структурному обобщению, а не просто подгонке под конкретные задачи. Разработка ProteinSage открывает путь к более эффективному обучению представлений белков с сохранением структурной информации, что критически важно для предсказания структуры белков, дизайна лекарств и понимания механизмов заболеваний. Технология может ускорить открытие новых терапевтических мишеней и персонализированные подходы к лечению на основе белковых взаимодействий.