В исследовании представлен новый легковесный классификатор на базе сверточных нейронных сетей (CNN) для прогнозирования функций терапевтических пептидов напрямую из их аминокислотных последовательностей. Авторы использовали самую обширную на данный момент базу данных, включающую 54 655 пептидов, распределенных по 48 функциональным категориям. Ключевым инновационным методом стала стратегия негативной выборки на основе марковских моделей, позволяющая генерировать синтетические «ловушки» (decoys) различного уровня сложности. При тестировании на контрольном наборе данных частота ложноположительных результатов (FRP) была снижена с более чем 60% у предыдущих моделей до впечатляющих 2,1%. Ансамбль из пяти моделей достиг показателей Micro F1 78,9% и Macro F1 54,6%, при этом модель в 4 раза эффективнее по количеству параметров, чем существующие аналоги, и способна предсказывать в 4 раза больше функций. Анализ через L1-регуляризацию подтвердил, что нейросеть выявляет биологически значимые консервативные мотивы, что делает метод пригодным для ускорения дизайна новых лекарственных препаратов.