качество данных

Новость652 апр.Обзор

Исследование посвящено разработке и оценке устойчивых алгоритмов случайных лесов (Random Forests) для геномной предсказательной аналитики в условиях загрязнённых данных. Авторы фокусируются на проблеме загрязнения данных — от ошибок записи до экстремальных выбросов, которые могут искажать статистические модели и снижать точность предсказаний. Методология включает симуляционное моделирование на синтетическом наборе данных животноводческого разведения с последующей валидацией на реальных растительных и животных данных. Сравнительный анализ различных подходов к робастификации показал, что трансформация данных является наиболее эффективной стратегией, обеспечивающей наилучшую производительность при наличии загрязнения. Исследование выявило, что ранжирование на основе устойчивых случайных лесов является надёжным первым выбором, тогда как методы взвешивания следует применять только при сохранении ранговой структуры. Практическая значимость заключается в возможности восстановления латентного сигнала для геномной селекции при наличии фенотипической коррупции, ошибок записи или несоответствия между обучающими и развернутыми данными. Стандартные случайные леса остаются оптимальными для чистых данных, но устойчивые версии следует применять параллельно при вероятности загрязнения. Методология может быть перенесена на другие методы машинного обучения, включая медицинские приложения в области геномики и персонализированной медицины.

машинное обучение геномика случайные леса качество данных биомедицина алгоритмы

bioRxiv — Bioinformatics Оригинал

качество данных

Устойчивые случайные леса для геномной предсказательной аналитики: проблемы и решения