В данном исследовании представлен новый метод механистической интерпретируемости под названием VFUSE, предназначенный для аудита генеративных моделей белков на предмет создания опасных патогенов. Авторы обучают разреженные автоэнкодеры (SAE) на активациях диффузионных трансформеров, чтобы выявлять скрытые признаки, связанные с вирулентностью. Методология была протестирована на популярных моделях RoseTTAFold3 и RFDiffusion3, используемых для фолдинга и синтеза белков. Результаты показали, что линейные зонды, работающие в латентном пространстве SAE, обнаруживают опасные дизайны значительно эффективнее, чем стандартные представления моделей. Исследователям удалось идентифицировать моносемантические признаки, которые активируются исключительно на опасных структурах, достигнув показателя AUROC 0,84 при высокой статистической значимости (q < 10^-13). Данная работа имеет критическое значение для обеспечения биобезопасности при использовании ИИ в протеомике и синтетической биологии.