Исследование сравнивает эффективность девяти архитектур глубокого обучения (CNN и трансформеров) в диагностике рака молочной железы на датасете BreaKHis. Авторы внедряют строгий протокол кросс-валидации с учетом разделения по пациентам, чтобы исключить утечку данных, и приходят к выводу, что при правильной методологии различия в архитектурах моделей становятся незначительными.
В статье представлен DLDN-Bench — новый специализированный фреймворк, предназначенный для стандартизированной оценки моделей глубокого обучения, применяемых в секвенировании пептидов de novo. Метод de novo критически важен для масс-спектрометрии, так как позволяет идентифицировать новые пептиды без привязки к существующим базам данных белков. Авторы разработали набор эталонных датасетов на основе данных масс-спектрометрии биопсии мышц человека, полученных из репозитория PRIDE и аннотированных методом консенсуса нескольких поисковых движков. В рамках исследования был проведен системный сравнительный анализ четырех современных моделей глубокого обучения и традиционных подходов, используя метрики точности (precision) и полноты покрытия (coverage). Разработанный бенчмарк решает проблему гетерогенности методов оценки и обеспечивает сопоставимость новых нейросетевых инструментов. Результаты тестирования и сам фреймворк опубликованы в открытом доступе, что создает базу для дальнейшего развития ИИ-инструментов в области протеомики.
В исследовании представлен SCOUT — масштабный ресурс синтетического полногеномного секвенирования более чем 200 образцов, предназначенный для систематической проверки методов анализа генома опухолей. В отличие от традиционных симуляций, SCOUT моделирует эволюцию опухоли как латентный генеративный процесс, который одновременно формирует мутации, изменения числа копий генов, частоту аллельных вариантов и клональную архитектуру. Авторы протестировали популярные методы детекции соматических вариантов и реконструкции эволюции, выявив, что их точность резко падает в условиях низкой чистоты опухоли и высокой субклональности. Исследование показало, что чистота опухоли оказывает более значительное влияние на точность выводов, чем глубина секвенирования. Также было установлено, что пространственная ошибка выборки и гипермутации создают ложные эволюционные сигналы, искажающие интерпретацию данных. SCOUT позволяет дифференцировать генетические «бутылочные горлышки» от динамики резистентности, связанной с пластичностью опухоли, что критически важно для разработки персонализированной терапии.
В исследовании представлен DeePEn — новый специализированный бенчмарк, предназначенный для оценки способности моделей машинного обучения предсказывать пригодность (fitness) белков при увеличении мутационного расстояния от дикого типа. Авторы решают проблему отсутствия надежных инструментов, которые могли бы имитировать реальные вызовы инженерии белков, где мутации часто накапливаются. Методология основала исследование на анализе четырех наборов данных глубокого мутационного сканирования (DMS) из репозитория ProteinGym, включающих данные о множественных точечных мутациях. В ходе тестирования были оценены современные белковые языковые модели (pLMs), как общие, так и основанные на биофизике, а также не-трансформерные нейронные сети. Результаты показали, что точность всех протестированных моделей закономерно снижается по мере роста количества одновременных аминокислотных замен (SAVs). Исследование подчеркивает, что ни одна существующая метрика не способна в полной мере охватить разнообразие задач белковой инженерии, и предлагает DeePEn как многомерный ресурс для оценки моделей на «дальних» вариантах белков.
Исследование представляет TB-Bench — комплексную платформу для оценки эффективности алгоритмов машинного (ML) и глубокого обучения (DL) в прогнозировании лекарственной устойчивости туберкулеза на основе данных полногеномного секвенирования (WGS). Авторы проанализировали 20 различных моделей из 8 существующих исследований, протестировав их на 14 препаратах второй линии. В ходе экспериментов на наборе данных ВОЗ (50 801 образец) было выявлено, что традиционные ML-модели, такие как XGBoost, демонстрируют более высокие показатели PRAUC (от 46% до 93%) для 10 из 14 препаратов по сравнению с глубоким обучением. При внешней валидации на 1 199 образцах было установлено, что ни один класс моделей не показал значительного превосходства над каталожными методами, что указывает на проблемы с обобщающей способностью алгоритмов. Результаты подчеркивают потенциал использования упрощенных ML-моделей в условиях ограниченных ресурсов. Исследователи опубликовали исходный код проекта для обеспечения воспроизводимости и дальнейшего развития стандартов оценки в клинической практике.
В исследовании представлен DrugPlayGround — инновационный фреймворк, разработанный для объективной оценки эффективности больших языковых моделей (LLM) в области поиска и разработки новых лекарств. Авторы подчеркивают, что, несмотря на растущий потенциал LLM для ускорения генерации гипотез и оптимизации приоритетов кандидатов, в отрасли отсутствует стандартизированная методология оценки их преимуществ и ограничений по сравнению с традиционными платформами. DrugPlayGround позволяет тестировать способность моделей генерировать точные текстовые описания физико-химических свойств препаратов, синергизма лекарств, их взаимодействий с белками, а также физиологических реакций на введение молекул. Особое внимание уделяется проверке химической и биологической логики моделей через взаимодействие с экспертами предметной области для обоснования предсказаний. Данная разработка критически важна для масштабирования и снижения стоимости процессов разработки лекарств, обеспечивая переход от общих генеративных задач к специализированному научному обоснованию на всех этапах создания препаратов.