В исследовании представлена AINN-P1 — компактная белковая языковая модель (PLM) с 167 миллионами параметров, обученная исключительно на необработанных аминокислотных последовательностях из базы UniRef. В отличие от тяжеловесных моделей, требующих множественного выравнивания последовательностей (MSA) или структурных данных, AINN-P1 использует архитектуру мультипликативного LSTM (mLSTM). Эта рекуррентная архитектура без механизмов внимания обеспечивает линейную масштабируемость по длине последовательности и отсутствие роста кэша key-value при инференсе. В ходе тестирования на бенчмарке ProteinGym модель показала средний коэффициент корреляции Спирмена (rho) 0,441 в четырех категориях задач (активность, связывание, экспрессия и стабильность) и достигла выдающегося результата 0,625 в предсказании стабильности, что является лучшим показателем среди сравниваемых моделей, работающих только с последовательностями. Благодаря отсутствию квадратичной зависимости памяти от длины последовательности, модель идеально подходит для быстрого развертывания и использования в качестве эффективного фильтра на ранних этапах разработки лекарств. Исследование подчеркивает возможность использования компактных фундаментных моделей для высокопроизводительного скрининга без необходимости дорогостоящего дообучения всей сети.