ProtT5

Новость8511 июн.Обзор

Исследование посвящено фундаментальной проблеме белковых языковых моделей (pLMs): способны ли они обобщать статистическую грамматику белков или же просто запоминают обучающие последовательности. Авторы применили метод псевдоперплексии в качестве зонда для выявления уровня запоминания в модели ProtT5. Методология включала сравнение псевдоперплексии на прокси-датасете (из обучающей выборки) и на контрольной выборке из подлинно новых последовательностей, отобранных по параметрам длины, размера кластера и таксономической принадлежности. В качестве статистического базиса использовались n-грамные языковые модели, которые подтвердили новизну контрольных последовательностей на локальном уровне. Результаты показали статистически значимую разницу в псевдоперплексии между увиденными и невиданными последовательностями, однако сам сигнал запоминания оказался умеренным. Это исследование критически важно для понимания надежности pLMs при проектировании новых белков и их применения в биомедицинских задачах.

белковые языковые модели вычислительная биология машинное обучение ProtT5 биоинформатика

bioRxiv — Bioinformatics Оригинал

Псевдоперплексия как инструмент исследования запоминания в белковых языковых моделях