В статье представлен систематический обзор 37 исследований, посвященных использованию ИИ для ранней диагностики сепсиса в реанимации. Авторы отмечают высокий потенциал машинного обучения, но указывают на критическую нехватку внешней валидации и проблем с интеграцией моделей в реальные клинические рабочие процессы.
В исследовании представлен инновационный метод поиска селективных ингибиторов PDE4B, которые могут обеспечить противовоспалительный эффект при лечении ХОБЛ, минимизируя побочные эффекты, связанные с изоформой PDE4D. Авторы использовали интегрированный пайплайн, включающий интерпретируемое машинное обучение (Random Forest с анализом SHAP), виртуальный скрининг базы данных природных соединений LOTUS и молекулярную динамику. Классификатор, обученный на данных ChEMBL, показал высокую точность (AUC-ROC = 0.955) и позволил отобрать 119 698 потенциально активных соединений. После многоступенчатого фильтрации (Lipinski, PAINS, QED) и иерархического докинга были выявлены четыре лид-соединения с энергией связывания от -9.123 до -12.080 ккал/моль, что превосходит показатели эталонного препарата рофлумиласта (-7.658 ккал/моль). Лучший кандидат, LTS0048837, продемонстрировал стабильную структуру комплекса в ходе 100-наносекундной симуляции молекулярной динамики и показал более высокую селективность к PDE4B по сравнению с PDE4D. Данная работа закладывает основу для создания новых лекарственных средств на базе природных соединений с помощью ИИ-методов.
Исследователи представили BioGAIP — инновационную платформу на основе больших языковых моделей (LLM), предназначенную для автоматизации сложных биоинформатических процессов. Система использует архитектуру мультиагентных автономных агентов, которые способны самостоятельно проектировать аналитические конвейеры, динамически извлекать информацию и автоматически настраивать вычислительную среду. В отличие от традиционных методов, требующих глубоких знаний программирования, BioGAIP позволяет биологам выполнять многоомиксный анализ с помощью простых запросов на естественном языке через графический интерфейс. Платформа построена на клиент-серверной архитектуре, что обеспечивает безопасное управление ресурсами и поддержку тяжелых вычислений. Тестирование на различных опубликованных наборах данных подтвердило, что BioGAIP успешно воспроизводит установленные биологические закономерности и обладает потенциалом для совершения новых научных открытий. Внедрение такой системы значительно снижает порог входа в биоинформатику, демократизируя доступ к высокотехнологичному анализу данных для широкого круга специалистов.
Исследователи представили PocketBagger — инновационный фреймворк для предсказания «лекарственной доступности» (druggability) белковых карманов, использующий метод обучения на положительно-неразмеченных данных (Positive-Unlabeled learning). Основная проблема традиционных моделей заключается в невозможности точно определить «нелекарственные» карманы, что создает смещение в обучающих выборках. PocketBagger решает эту задачу, используя PU-bagging для обучения на структурах из Protein Data Bank (PDB), где известные лиганды считаются положительными примерами, а все остальные карманы — неразмеченными. При тестировании на классификаторе Random Forest модель продемонстрировала высокий показатель полноты (recall) на уровне 0.804, сохраняя эффективность даже при проверке на целых семействах белков, исключенных из обучения. В ходе бенчмаркинга PocketBagger превзошел ведущие методы глубокого обучения по точности обобщения. Разработанный фреймворк универсален и может быть применен к любой архитектуре нейросетей. Результаты работы и сгенерированные данные уже интегрированы в платформу canSAR.ai, что делает инструмент доступным для масштабируемого использования в сообществе компьютерного дизайна лекарств.
В статье представлен SMARTIE (Systematic Machine-learning Approach for RBP Targets Identified by Editing) — новый аналитический фреймворк на базе машинного обучения, предназначенный для идентификации мишеней РНК-связывающих белков (RBP). Авторы решают проблему низкой чувствительности и отсутствия непредвзятой приоритизации мишеней в существующих методах анализа данных редактирования РНК, таких как TRIBE и STAMP. Методология SMARTIE интегрирует статистические тесты с признаками, учитывающими репликацию и веса доверия, что позволяет более точно ранжировать целевые РНК. В ходе тестирования на опубликованных наборах данных TRIBE система успешно восстановила мишени для таких белков, как Ataxin-2, TDP-43, Hrp48, Thor, GPATCH8, dFMRP и NonA. Важным достижением является способность модели, обученной на данных TRIBE, успешно обобщать знания на наборы данных STAMP, что подтверждает выявление универсальных сигнатур редактирования. Данная разработка значительно повышает точность вывода взаимодействий RBP-РНК, открывая новые возможности для изучения регуляции генов.
В данной научной работе представлен инновационный фреймворк для количественной оценки неопределенности (uncertainty quantification), предназначенный для улучшения работы моделей машинного обучения, прогнозирующих выживаемость пациентов. Исследование фокусируется на применении этих методов в онкологии, в частности при прогнозировании исходов рака легких у лиц пожилого возраста. Авторы решают критическую проблему «черного ящика» ИИ, внедряя механизмы, которые позволяют врачам понимать степень уверенности модели в каждом конкретном прогнозе. Это имеет решающее значение для принятия клинических решений, так как высокая неопределенность в прогнозе может сигнализировать о необходимости дополнительного обследования или пересмотра тактики лечения. Методология включает интеграцию статистических методов оценки неопределенности в алгоритмы глубокого обучения для повышения надежности прогностических моделей. Результаты работы подчеркивают значимость прозрачности ИИ для безопасного внедрения технологий в повседневную медицинскую практику и персонализированную терапию.
В данном исследовании проведен сравнительный анализ шести существующих инструментов (PanTax, PathoScope, StrainGE, Strainify, StrainR2 и StrainScan) для профилирования разнообразия штаммов Escherichia coli на основе коротких чтений метагеномов кишечника. Авторы использовали как реальные наборы данных (ZymoBIOMICS D6331), так и симулированные сообщества различной сложности для оценки точности обнаружения сосуществующих штаммов и их относительной численности. Результаты показали, что только PanTax обеспечил нулевую ошибку при предсказании равного обилия пяти штаммов E. coli. В условиях дифференциального обилия штаммов инструмент StrainScan продемонстрировал самую низкую среднюю абсолютную пропорциональную ошибку (0.89), однако при этом обладал сниженной чувствительностью (0.5). Наивысший показатель F1-меры (0.978) был достигнут инструментом StrainGE, что свидетельствует о его высокой точности и полноте. Для задач предсказания относительного обилия конкретных штаммов, таких как K12-MG1655 и O157:H7 Sakai, наиболее эффективными оказались PanTax и StrainR2 с минимальной ошибкой 0.06. Исследование подчеркивает необходимость выбора конкретного метода в зависимости от прикладных задач биоинформатического анализа метагеномов.
В данной научной работе представлена новая теоретическая модель для эволюционного моделирования последовательностей, направленная на учет локальной гетерогенности и дальних связей между сайтами. Авторы используют процесс Дирихле для разделения сайтов на совместно эволюционирующие классы, что позволяет интегрировать структуру ко-эволюции в рамках модели TKF92. Методология включает переход от парной скрытой марковской модели TKF92 к стохастической контекстно-свободной грамматике и разработку механизма вывода на основе сэмплера Гиббса-Метрополиса. Исследование решает ряд математических задач, включая нахождение точных достаточных статистик для компонента линейного рождения-смерти-иммиграции и закрытие пробелов в предельных значениях модели. В ходе тестирования на 1000 семейств Pfam модель с K=4 классами сайтов показала наличие ковариации около 0,54 нат на каждую пару классов сверх стандартной модели замещения. Результаты работы расширяют возможности биоинформатического моделирования выравнивания последовательностей с учетом сложных структурных взаимодействий.
Исследователи представили ProtmRNA — инновационный подход к анализу последовательностей мРНК, основанный на методе кросс-модального обучения с переносом знаний. В основе метода лежит использование предобученной белковой языковой модели ESM-2 для обработки последовательностей мРНК, что опирается на фундаментальную биологическую связь между мРНК и аминокислотными цепями. В ходе тестирования на специализированных наборах данных и восьми дополнительных бенчмарках, ProtmRNA продемонстрировала производительность, сопоставимую или превосходящую существующие SOTA-модели (state-of-the-art) для мРНК. При этом ключевым преимуществом является высокая эффективность: модель требует менее половины вычислительных ресурсов, затрачиваемых на стандартное предварительное обучение. Работа доказывает возможность эффективного переноса знаний между различными типами биологических последовательностей, предлагая новый ресурсосберегающий парадигмальный подход для биоинформатики и разработки лекарств. Предварительно обученная модель и наборы данных для регрессии CDS-регионов доступны в открытом доступе.
В статье исследуется проблема применения нейронных операторов к задачам со свободной границей, к которым относятся такие сложные процессы, как моделирование таяния ледников. Традиционные методы нейросетевого моделирования часто сталкиваются с трудностями при описании динамически изменяющихся геометрий. Авторы предлагают инновационный математический фреймворк, основанный на принципе топологической сопряженности, для преодоления этого барьера. Данный подход позволяет более точно описывать эволюцию границ раздела сред в физических системах. Исследование имеет важное значение для развития методов машинного обучения в прикладной физике и биомедицинской инженерии, где моделирование процессов с подвижными границами (например, рост опухолей или динамика жидкостей) является критически важным. Результаты работы закладывают фундамент для создания более устойчивых нейросетевых моделей физических процессов.
В исследовании, опубликованном в Nature Machine Intelligence, авторы (Long et al.) представляют инновационный метод на основе глубоких нейронных операторов, предназначенный для решения сложных задач со свободной границей. В отличие от традиционных численных методов, данный фреймворк обеспечивает высокую точность вычислений при значительно меньших затратах ресурсов. Основное внимание уделено возможности использования метода для высокоточного моделирования динамики роста опухолей в режиме реального времени. Это открывает новые горизонты в персонализированной онкологии, позволяя врачам прогнозировать изменения границ новообразований на основе медицинских данных. Методология демонстрирует потенциал для интеграции в клиническую практику, обеспечивая быструю симуляцию биологических процессов, которые ранее требовали длительных вычислений. Технология может стать важным инструментом для планирования таргетной терапии и мониторинга эффективности лечения.
Разработана модифицированная система интерферометрии, использующая закон Малюса для автоматизации измерения микроперемещений. Интеграция алгоритмов оптимизации роя частиц (PSO) и регрессии гауссовских процессов (GPR) позволяет точно компенсировать ошибки прибора, что делает метод перспективным для неконтактного мониторинга физиологических сигналов.
В исследовании представлен TREAD (Transfer learning-based REpeat Annotation using Protein EmbeDdings) — новый метод машинного обучения для обнаружения повторяющихся мотивов в белках. В отличие от традиционных методов, таких как HMMER, которые полагаются на выравнивание последовательностей или вероятностные профили, TREAD переформулирует задачу обнаружения повторов как задачу аннотации на уровне остатков, используя эмбеддинги от языковых моделей белка (Protein Language Models). Методология позволяет модели имплицитно изучать специфические признаки повторов, обеспечивая высокую гибкость и масштабируемость. Тестирование на наборах данных RepeatsDB и Pfam показало, что TREAD не уступает или превосходит HMMER, особенно в условиях низкого объема данных и высокой дивергенции последовательностей. Практическая значимость подтверждена анализом $\beta$-пропеллерных белков в базе данных AlphaFold, где инструмент выявил новые паттерны экспансии в различных линиях эволюции. TREAD представляет собой масштабируемую альтернативу профильным методам и предлагает универсальный подход к аннотации мотивов на основе последовательностей.
Исследователи разработали CharacTERT — специализированный инструмент на базе машинного обучения, предназначенный для классификации миссенс-мутаций в гене hTERT, который кодирует каталитическую субъединицу теломеразы человека. В отличие от существующих универсальных предикторов, CharacTERT интегрирует как последовательностные, так и структурные признаки, учитывая уникальный биологический контекст фермента теломеразы. Разработанные модели продемонстрировали высокую точность: лучший показатель коэффициента корреляции Мэтьюса (MCC) составил 0,88 на наборах данных ClinVar и gnomAD, а чувствительность достигла 0,75 при тестировании по протоколам ACMG/AMP. Анализ признаков показал, что ключевыми детерминантами патогенности являются консервативность остатков hTERT и изменения гидрофобных и слабых полярных взаимодействий. Авторы также провели in silico насыщающий мутагенез, создав детальный мутационный ландшафт TERT. Инструмент представлен в виде удобного веб-сервера, который может существенно помочь в ранней диагностике заболеваний теломерного биогенеза (TBDs) и разработке стратегий персонализированной медицины.
В исследовании представлена инновационная модель глубокого обучения PeptideGNN, основанная на архитектуре графовых нейронных сетей (GNN), предназначенная для моделирования поведения пептидов при жидкостной хроматографии. Авторы решают проблему ограниченного понимания взаимодействий между пептидами и колонками, что является критическим барьером в протеомике. Модель была обучена на десяти различных протеомных наборах данных и продемонстрировала превосходство над существующими предикторами времени удерживания. С помощью метода картирования значимости (saliency mapping) исследователи смогли интерпретировать механизмы удержания, выявив влияние соседних аминокислот, посттрансляционных модификаций (PTM), типа хроматографических колонок и добавок в подвижную фазу. Результаты работы позволяют не только точнее предсказывать параметры разделения, но и глубже понимать физико-химические взаимодействия на молекулярном уровне, что критически важно для повышения точности идентификации белков в масс-спектрометрии.
Исследователи представили TRINUS — новую модель самообучения (self-supervised model), предназначенную для анализа пространственной транскриптомики. Основная инновация метода заключается в генеративном разделении внутренней идентичности клеточной линии и внешнего влияния микроокружения (нишевого давления). TRINUS использует библиотеку контекстно-свободных прототипов клеток для изоляции генетической программы, одновременно моделируя кооперативные зависимости между соседними клетками. В ходе тестирования на синтетических данных модель продемонстрировала превосходство над существующими методами в задачах кластеризации клеток и обнаружения пространственных доменов. Применение TRINUS на данных колоректального рака позволило картировать паттерны взаимодействий в масштабе всей ткани, а исследования мышиного органогенеза выявили специфические для стадий сигнальные зависимости. Особую значимость представляет возможность двунаправленного in silico проектирования: в микроокружении опухолей яичников модель смогла предсказать молекулярные модификации макрофагов, способные восстановить функцию соседних Т-клеток. Таким образом, TRINUS становится мощным инструментом для предиктивного тканевого инжиниринга и понимания механизмов клеточной коммуникации.
Исследование посвящено решению проблемы резистентности к бевацизумабу — ключевому фактору, ограничивающему долгосрочную эффективность терапии метастатического колоректального рака (КРР). Авторы разработали и валидировали прогностическую модель на основе сигнатуры из 8 генов (AXIN2, PSORS1C1, KRT74, SLC2A3, STIL, IL33, GALNT6, HSD11B2), используя анализ данных GEO (GSE19862, GSE86582) и TCGA. Результаты показали, что высокая оценка риска по данной сигнатуре коррелирует с более низкой общей выживаемостью (OS), при этом точность прогноза (AUC) достигает 0.757 для 5-летней выживаемости. Анализ иммунного микроокружения с помощью CIBERSORT и ESTIMATE выявил, что у пациентов группы высокого риска наблюдается повышенное содержание M2-макрофагов и нейтрофилов при снижении количества активированных CD4+ T-клеток памяти и дендритных клеток. Генетический анализ (GSEA) подтвердил обогащение путей TNF/NF-κB, IL-6/JAK/STAT3 и контрольных точек иммунного ответа в группе высокого риска. Данная сигнатура может служить инструментом для клинической стратификации пациентов и понимания механизмов иммуноопосредованной резистентности к терапии.
В данной исследовательской работе представлен первый алгоритм контрфактуальных объяснений (Counterfactual Explanation, CE), специально разработанный для работы с сетями сходства пациентов (Patient Similarity Networks, PSNs). В отличие от традиционных методов, использующих табличные данные, авторы применяют графовые нейронные сети (GNN), которые учитывают не только индивидуальные признаки пациента, но и его связи с клинически и биомолекулярно схожими индивидами. Предложенный метод является универсальным и не зависит от конкретной модели классификатора (model-agnostic), что позволяет интегрировать его в различные системы поддержки принятия врачебных решений. Исследование проводилось на синтетических данных и на реальной когорте пациентов с болезнью Альцгеймера. Результаты показали, что новый алгоритм демонстрирует конкурентоспособность по сравнению с классическими методами для табличных данных и признанным инструментом GNNExplainer. Данная разработка имеет критическое значение для повышения интерпретируемости ИИ в медицине, позволяя врачам понимать, какие именно изменения в клинических или биомолекулярных показателях могли бы изменить прогноз заболевания.
Исследователи представили MetFoundation — инновационную метаболомную базовую модель, обученную методом самообучения (self-supervised learning) на данных ЯМР-метаболомики более 430 000 участников из UK Biobank. В отличие от традиционных «часов старения», которые предполагают однородность процессов, MetFoundation способна улавливать сложную нелинейную структуру системного метаболизма. С помощью тонкой настройки выживаемости авторы разработали модель старения, тесно связанную с риском смертности и возрастными заболеваниями. Ключевым достижением стало выявление 13 уникальных метаболических подтипов, которые демонстрируют различную предрасположенность к деменции и диабету даже при одинаковых показателях ускорения старения. Для практического применения была создана облегченная модель, позволяющая аппроксимировать сложные метаболомные данные, используя лишь стандартные анализы крови. Валидация на данных из Китая (CHARLS) подтвердила высокую обобщающую способность модели и её потенциал для персонализированной медицины.
В исследовании представлен новый математический фреймворк ATLAS (Auxiliary-Transformed Location-Aware Smoothing), предназначенный для решения проблемы аппроксимации локально-специфичных моделей при условии пространственной гладкости. В отличие от существующих методов, которые штрафуют шероховатость непосредственно параметров модели, ATLAS накладывает штраф на трансформации параметров с использованием вспомогательных ковариат. В качестве практического применения авторы разработали модель пространственной деконволюции для транскриптомики, которая позволяет оценивать коэффициенты смешивания опухолевых клеток в тысячах точек на одном тканевом срезе. Для решения вычислительных сложностей, вызванных нелинейным правдоподобием и невыпуклым штрафом, предложен алгоритм ADMM (метод множителей Лагранжа для расщепления переменных). Результаты симуляционных исследований подтверждают, что ATLAS обеспечивает существенно более точное обнаружение пространственных доменов по сравнению с традиционными методами сглаживания параметров. Особая эффективность метода проявляется в случаях, когда вспомогательные ковариаты обладают калиброванной пространственной структурой, что критически важно для точной биомедицинской визуализации.