ML в биоинформатике

Новость6531 мар.Обзор

Исследование представляет новый подход к генерации декой-баз данных в протеомике с использованием языковых моделей белков (PLM) для оценки ложных открытий при идентификации пептидов. Авторы сравнивают PLM-декои с классическими методами (реверс и перемешивание) через три уровня контроля качества: сепарабельность на уровне последовательности, спектральные диагностические метрики и полные конвейеры масс-спектрометрии. Результаты показывают, что PLM-декои сложнее для нейросетей, работающих только с последовательностью, что указывает на меньшее количество артефактов на уровне последовательности. Однако спектральный анализ выявил, что короткие пептиды занимают особенно перенаселённое пространство целевой-декоя и подвержены локальным коллизиям при всех генераторах. В полных поисковых конвейерах обратные декои остаются сильным базовым уровнем, а текущие PLM-генераторы не обеспечивают явного общего преимущества. Исследователи рассматривают PLM-декои не как универсальную замену, а как настраиваемые инструменты для бенчмаркинга, диагностики, стресс-тестирования и будущей адаптивной оптимизации декой-баз.

протеомика языковые модели масс-спектрометрия биомедицинские исследования ML в биоинформатике

bioRxiv — Bioinformatics Оригинал

ML в биоинформатике

Декои на основе языковой модели белков для целевого соревнования декоями в протеомике: оценка качества и бенчмарки