Исследователи представили IDiom — новую авторегрессионную языковую модель белка, специально разработанную для генеративного дизайна внутренне неупорядоченных областей белков (IDR). В отличие от традиционных методов, ориентированных на стабильные структуры, IDiom обучалась на массиве из 37 миллионов последовательностей неупорядоченных регионов, отобранных из базы данных AlphaFold. Использование метода аугментации данных 'fill-in-the-middle' позволяет модели генерировать последовательности как в контексте окружающих структурированных доменов, так и в виде полностью неупорядоченных белков. Ключевым достижением стало применение обучения с подкреплением (RL) с использованием модели вознаграждения за субклеточную локализацию, что позволило создавать последовательности с заданными свойствами распределения по клеточным компартментам. Модель успешно воспроизводит биологически релевантные эволюционные статистические характеристики природных IDR. Данная разработка открывает новые возможности для рационального дизайна белков, которые ранее считались недоступными для классических методов моделирования.