Исследование вскрывает критическую методологическую проблему в области предсказания пептидов, представляемых MHC класса I, что является основой для разработки вакцин и Т-клеточной терапии. Авторы показывают, что фундаментальная причина расхождения между успехами in silico и клиническими результатами заключается в систематическом загрязнении иммунопептидомных данных существующими моделями предсказания через итеративное подтверждение bias. Аудит базы данных IEDB, крупнейшей в области, выявил, что более 70% опубликованных данных были помечены вычислительными моделями, а не подтверждены экспериментально, что искусственно завышает бенчмарки и разрушает применимость на новых данных. В качестве решения авторы переформулировали задачу открытия эпитопов как задачу ранжирования, центрированную на белках, и представили модель deepMHCflare, обученную исключительно на чистых данных. Модель достигла 0.80 Precision@4 на моноаллельных бенчмарках против 0.55-0.65 у моделей золотого стандарта, что демонстрирует существенное улучшение. Проспективные in vivo тесты подтвердили эффективность: в доклиническом исследовании противораковой вакцины deepMHCflare идентифицировала два из четырёх иммуногенных пептидов, тогда как стандартная модель не нашла ни одного. Это исследование имеет критическое значение для разработки новых терапевтических подходов, так как устраняет систематическую ошибку, которая делала невозможным создание эффективных новых терапий.