Исследование посвящено фундаментальной проблеме белковых языковых моделей (pLMs): способны ли они обобщать статистическую грамматику белков или же просто запоминают обучающие последовательности. Авторы применили метод псевдоперплексии в качестве зонда для выявления уровня запоминания в модели ProtT5. Методология включала сравнение псевдоперплексии на прокси-датасете (из обучающей выборки) и на контрольной выборке из подлинно новых последовательностей, отобранных по параметрам длины, размера кластера и таксономической принадлежности. В качестве статистического базиса использовались n-грамные языковые модели, которые подтвердили новизну контрольных последовательностей на локальном уровне. Результаты показали статистически значимую разницу в псевдоперплексии между увиденными и невиданными последовательностями, однако сам сигнал запоминания оказался умеренным. Это исследование критически важно для понимания надежности pLMs при проектировании новых белков и их применения в биомедицинских задачах.