В исследовании рассматривается критическая проблема мультимодального обучения в биоинформатике, а именно — деградация точности предсказаний при некорректном слиянии данных. Авторы анализируют процесс предсказания связывания Т-клеточного рецептора (TCR) с пептидом, где высокоточные последовательности белковых языковых моделей конфликтуют с зашумленными структурными графами, полученными из предсказанных фолдов. Для решения этой проблемы предложен фреймворк TRACE, использующий метод контрастивного выравнивания в стиле CLIP для обеспечения согласованности между последовательными и структурными представлениями каждой биологической сущности. Эксперименты на наборе данных TCHard RN показали, что наивное объединение последовательностей и графов часто уступает базовой модели, работающей только с последовательностями, или вовсе демонстрирует случайные результаты. Однако использование TRACE позволяет стабилизировать обучение и значительно повысить точность, даже при наличии сильного шума в графах или дефиците положительных меток. Результаты работы доказывают, что для надежной биоинформатики критически важен не просто набор модальностей, а способ ограничения их взаимодействия в процессе оптимизации.