Исследователи разработали NLCD (NonLinear Causal Discovery) — метод машинного обучения для обнаружения нелинейных причинно-следственных связей между генами на основе данных геномики. Проблема различения корреляции и причинности является фундаментальной в биологии, особенно когда рандомизированные контролируемые испытания невозможны и доступны только наблюдательные данные. NLCD использует нелинейное регрессионное моделирование и оценку условной важности признаков для расширения статистических тестов существующего линейного метода Causal Inference Test (CIT). Метод был протестирован на симулированных данных, где показал AUPRC 0.94 для линейных отношений (сравнимо с CIT=0.94, Findr=0.94, MRPC=0.99) и превосходит конкурентов в обнаружении нелинейных связей (AUPRC=0.76 против 0.60-0.73 у других методов). На реальных данных дрожжевой геномики NLCD показал AUPRC=0.82 для восстановления известных причинных связей с транскрипционными факторами. При применении к человеческому геномному数据集 метод выявил активные причинные пары генов (IRF1→PSME1 и HLA-C→HLA-T) в мышечной ткани. Результаты демонстрируют перспективы и вызовы в открытии причинных сетей генов в условиях in vivo у человека, что имеет значение для понимания молекулярных механизмов заболеваний.