Исследование представляет новый подход к решению проблемы диагностики редких генетических заболеваний, где пациенты часто проходят многолетнюю «диагностическую одиссею» без постановки точного диагноза. Авторы предлагают симуляционную фреймворк GraPhens, который использует структуру онтологии фенотипов человека (HPO) совместно с двумя эмпирически обоснованными мягкими априорными распределениями — по количеству наблюдаемых фенотипов на случай и специфичности фенотипов — для генерации синтетических пар фенотип-ген. На основе этих синтетических случаев обучается графовая нейронная сеть GenPhenia, которая работает с подграфами фенотипов конкретного пациента вместо плоских наборов фенотипов. Несмотря на то, что модель обучалась исключительно на синтетических данных, она демонстрирует способность обобщаться на реальные ранее не встречавшиеся клинические случаи и превосходит существующие методы приоритизации генов, основанные на фенотипах, на двух реальных наборах данных. Результаты показывают, что когда данные пациентов ограничены, но доступна структурированная онтология, principled simulation может обеспечить эффективные тренировочные данные для сквозных нейросетевых моделей диагностики. Это особенно актуально для редких заболеваний, где сбор достаточного количества клинических случаев затруднён, а структурированные онтологии позволяют генерировать реалистичные синтетические данные.