Статья рассматривает роль искусственного интеллекта как когнитивного партнера для клиницистов, помогая организовать и контекстуализировать большие объемы медицинской информации. Автор утверждает, что ИИ должен не заменять врачей, а усиливать их клиническое суждение, эмпатию и человеческое взаимодействие с пациентами.
Предложена объяснимая многомодальная система глубокого обучения для диагностики рака, объединяющая радиологические изображения и клинические данные с использованием внимания. Модель показала превосходство над одно-модальными подходами на наборах данных CBIS-DDSM, Duke Breast Cancer MRI и TCGA, обеспечив баланс между чувствительностью и специфичностью без потери точности.
Исследование представляет собой применение искусственного интеллекта для диагностики метастазов в лимфатических узлах при различных типах рака. Методология основана на квантовании неопределённости (uncertainty quantification) — подходе, который позволяет ИИ-модели оценивать степень уверенности в своих предсказаниях, что критически важно для клинического применения. Пан-онкологический подход означает, что система обучена на данных по множеству онкологических заболеваний одновременно, что повышает её универсальность и снижает необходимость создания отдельных моделей для каждого типа рака. Высокая чувствительность метода указывает на способность выявлять даже небольшие метастатические очаги, что может существенно повлиять на стадию заболевания и выбор терапии. Квантование неопределённости позволяет врачам понимать, когда модель не уверена в своём диагнозе, что снижает риск ложноположительных и ложноотрицательных результатов. Исследование опубликовано в ведущем журнале npj Digital Medicine (издательство Nature), что подтверждает его научную значимость и прохождение рецензирования. Практическая значимость заключается в потенциальном улучшении точности патоморфологической диагностики и снижении нагрузки на патологов при анализе гистологических препаратов.
Исследователи представили Pro2RNA — мультимодальную языковую модель для обратного перевода, которая генерирует кодирующие последовательности мРНК из соответствующих белковых последовательностей с учётом таксономической информации организма-хозяина. Модель интегрирует несколько предобученных языковых моделей: ESM2 для представления белков, SciBERT для понимания таксономии и генеративную РНК-модель для генерации последовательностей на уровне кодонов. Обучение проводилось на парах мРНК-белок из наборов данных эукариот и бактерий, что позволило модели изучить видовые генетические коды и паттерны использования кодонов. Pro2RNA генерирует адаптированные к хозяину и естественные последовательности мРНК, что критически важно для разработки мРНК-вакцин и нуклеиновых терапевтических препаратов. В множественных бенчмарк-оценках Pro2RNA соответствует или превосходит существующие методы оптимизации. Технология решает ключевую проблему — видоспецифичное проектирование оптимальных кодирующих последовательностей для заданного белка. Это открывает возможности для создания более эффективных и безопасных мРНК-терапевтических средств с учётом особенностей организма-хозяина.
Разработан алгоритм TRI_IF на основе глубокого обучения (архитектура Xception) и морфометрического анализа для автоматической количественной оценки интерстициального фиброза почки на гистологических слайдах без ручных аннотаций. Модель продемонстрировала высокую согласованность с оценками нефропатологов (R2=0.86-0.93, Cohen's kappa=0.86-0.91) и точно предсказывала клинические исходы (ЭСКП, снижение СКФ). Подход обеспечивает масштабируемое решение для клинической практики и исследований в нефропатологии.
PATHOS — новая система на основе множественного обучения (MIL) и сегментации для предсказания ответа на неоадъювантную химиотерапию при раке яичников по гистологическим изображениям. Модель выделяет около 10% области слайда как информативную и идентифицирует ключевые патологические признаки, связанные с прогрессией заболевания.
Обзор исследований методов преобразования мульти-омиксных данных в изображения для применения глубокого обучения в классификации заболеваний и поиске биомаркеров. Исследование охватывает работы 2013-2024 годов, показывая точность от 75% до 99% при использовании CNN-моделей. Несмотря на перспективы, сохраняются проблемы переобучения, ограниченной обобщаемости и интерпретируемости.
Исследование с использованием глубокого обучения (ConvNeXt) показало, что диагностическая информация в гистологических изображениях H&E содержится преимущественно в структурных особенностях (оттенки серого), а не в цветовой информации. Модели ИИ могут эффективно работать без цветовой информации, что ставит под сомнение важность цветовой нормализации в диагностических алгоритмах.
Исследователи разработали систему компьютерной диагностики на основе ИИ для обнаружения злокачественных областей при рутинной диагностике гастральной биопсии. Система была обучена на данных из шести учреждений и валидирована на независимом наборе данных из седьмого учреждения. Использование системы улучшило диагностическую чувствительность, особенно для образцов с мелкими и разбросанными злокачественными очагами.
Компания Epic анонсировала на конференции HIMSS новую платформу «agent factory», позволяющую медицинским системам самостоятельно создавать и развертывать ИИ-агенты внутри Epic EHR. Уже выпущены три агента: Penny для задач финансового цикла, Art для помощи клиницистам в документации и кодировании, и Emmie для помощи пациентам с записью и объяснением результатов анализов. Платформа позволяет перепроектировать целые рабочие процессы, охватывающие несколько частей EHR, а не отдельные приложения.
В исследовании представлен ProMiSE — первый специализированный бенчмарк, предназначенный для оценки способности моделей ИИ учитывать динамическую природу белков и их переходы между различными конформационными состояниями. Авторы разработали уникальный набор данных, объединяющий механизмы внутренних, лиганд-индуцированных и белок-индуцированных изменений. В ходе тестирования передовых моделей, включая AlphaFold3 и современные генеративные подходы, было выявлено, что существующие системы плохо справляются с моделированием множественных состояний и часто игнорируют биологический контекст. Анализ внутренних представлений показал, что обучение на доминирующих структурах смещает предсказания моделей в сторону наиболее часто встречающихся состояний, подавляя альтернативные биологически важные формы. При этом использование модели BioEmu продемонстрировало, что снижение предвзятости на этапе декодирования позволяет существенно улучшить точность сэмплирования многосостояний без необходимости радикальной переработки архитектуры парных представлений. Данная работа критически важна для развития структурной биологии и разработки ИИ-инструментов для точного дизайна лекарств.
В исследовании представлена инновационная четырехэтапная методология импутации (заполнения пропусков) данных, разработанная специально для преодоления проблемы неполноты и гетерогенности наборов данных в космической биологии. Авторы решают критическую проблему нехватки образцов, которая препятствует созданию надежных вычислительных моделей реакции человеческого организма на космический полет. В качестве практического применения (case study) использовались мультимодальные данные миссии NASA RR9, включающие ретинальную визуализацию и омиксные профили. Методология позволяет не только восстанавливать отсутствующие значения, но и диагностировать причины их отсутствия, оптимизируя стратегии восстановления для сохранения биологического сигнала. Ключевым результатом стало выявление важного компромисса: хотя импутация значительно повышает точность прогностических моделей, она может скрывать тонкие биологические закономерности. Данный фреймворк закладывает фундамент для разработки цифровых двойников человека в экстремальных условиях и предоставляет ученым инструменты для оценки достоверности восстановленных данных.
Представлен DModE — инновационный программный фреймворк, предназначенный для сквозного анализа данных прямого секвенирования РНК (DRS) с использованием технологии Nanopore. Основная проблема текущих методов заключается в необходимости ручной интеграции множества разрозненных инструментов для оценки экспрессии и выявления модификаций РНК. DModE решает эту задачу, объединяя препроцессинг на базе Nextflow (совместимый с Epi2ME) и специализированный Python-пакет для глубокого статистического анализа. Платформа позволяет проводить дифференциальный анализ экспрессии генов и изоформ, а также выявлять изменения в модификациях РНК на геномном и транскриптомном уровнях. Ключевой особенностью является возможность автоматического построения интерактивных HTML-отчетов, включающих метагенное профилирование и оценку взаимосвязи между динамикой экспрессии и эпитранскриптомными изменениями. Внедрение DModE значительно снижает порог вхождения для исследователей и упрощает комплексное изучение биологии РНК-модификаций.
Представлена GeroQubit — инновационная платформа для генерации малых молекул (de-novo design), ориентированная на геронауку и принципы честного машинного обучения. В отличие от ресурсоемких GPU-решений, платформа использует модель «мишень x ткань x признак старения» для организации кандидатов. Методология включает использование структурных приоритетов тканей и оценку эффективности через k-NN (k-ближайших соседей), где выявленный сигнал (rho ~ 0.145) сопровождается эмпирически калиброванными конформными интервалами (покрытие 90.3%). В ходе ретроспективного тестирования на 1940 связывающих соединениях ChEMBL платформа показала высокую точность: ROC-AUC 0.945 и обогащение в 20 раз при 1% (BEDROC 0.91). Однако авторы честно указывают на ограничение: при работе с принципиально новыми хемотипами точность падает до уровня случайного выбора (AUC 0.62). Молекулы проектируются с учетом реакционной способности (reaction-first), что гарантирует наличие синтетического пути и прозрачность происхождения синтонов, а параметры ADMET оптимизируются как многокритериальная задача Парето.
В исследовании представлен EditorForge — инновационный модульный фреймворк, предназначенный для прецизионного редизайна белков, таких как ферменты и геномные редакторы. Основная проблема существующих моделей обратного фолдинга заключается в том, что неконтролируемый редизайн может повредить критически важные каталитические и консервативные участки. Авторы предложили систему, которая сочетает фиксированный фолдинг с использованием масок дизайна, принудительным сохранением позиций и аудитом близости к активному центру. В качестве демонстрации использовалась структура обратной транскриптазы вируса лейкоза мыши (MMLV RT 4MH8), где редизайн был ограничен областью из 25 позиций при фиксации 428 остальных остатков. Благодаря модулю Active Site Shield удалось выявить и исключить небезопасные позиции, заменив их на альтернативы с меньшим уровнем контактов. Итоговые 8 отобранных кандидатов успешно прошли контроль качества (RefoldQC) с высокими показателями: глобальный C RMSD составил 1.20–1.55 Å, а средняя уверенность (pLDDT-like) достигла 94.87–95.11. Этот инструмент позволяет превращать общие результаты моделей обратного фолдинга в специализированные наборы белков, готовые к биологическому тестированию.
Исследователи представили новый метод STITCH (Shape-TranscriptomIc Correlation and Harmonization), предназначенный для анализа взаимосвязи между формой клеток и их генетическим профилем в данных пространственной транскриптомики (ISS). В основе метода лежит использование тангенциального анализа главных компонент (TPCA) на многообразии форм Кендалла, что позволяет получить интерпретируемое представление о контурах клеток, не смешивая параметры формы и размера. В ходе тестирования на наборе данных Xenium метод STITCH превзошел подходы на базе глубокого обучения, успешно восстановив сложную слоистую организацию кератиноцитов и пространственный градиент эксцентриситета ядер. При анализе данных CosMx по меланоме метод выявил устойчивую связь между вытянутыми и треугольными фибробластами и их близостью к злокачественным клеткам, что коррелировало с программой миофибробластов. Кроме того, STITCH независимо подтвердил связь между мезенхимально-подобными состояниями злокачественных клеток и увеличением их площади в двух когортах пациентов. Данная технология открывает новые возможности для интерпретируемого анализа морфологических и транскриптомных взаимосвязей на различных платформах пространственной биологии.
Исследование представляет SPARK — инновационную вычислительную платформу системного уровня, предназначенную для преодоления проблемы молекулярной гетерогенности аденокарциномы легкого (LUAD). Используя данные секвенирования РНК (bulk RNA-seq) из когорты TCGA-LUAD, авторы применили оптимизированную по стабильности сетевую модель для реконструкции транскриптомной организации на уровне биологических путей. В ходе анализа было выявлено восемь ключевых транскриптомных модулей, представляющих скоординированные биологические процессы. На основе активности этих модулей была разработана комплексная оценка транскриптомного риска (Transcriptomic Risk Score) с помощью модели пропорциональных рисков Кокса (elastic-net). Результаты показали, что данный показатель риска значительно коррелирует с общей выживаемостью и обеспечивает лучшую прогностическую точность по сравнению со стандартными клиническими переменными. Валидация на независимой когорте CPTAC-LUAD подтвердила устойчивость прогностического сигнала и стратификацию рисков. Кроме того, анализ единичных клеток (single-cell analysis) доказал, что выявленные модули отражают скоординированную организацию экосистемы «опухоль-иммунитет-строма», что открывает новые возможности для персонализированной медицины в онкологии.
В исследовании представлен GeroEngine — инновационный программный фреймворк на базе вариационных автоэнкодеров (VAE), предназначенный для моделирования траекторий старения тканей по данным секвенирования РНК единичных клеток (scRNA-seq). Основная проблема существующих методов заключается в деструктивном характере scRNA-seq, что исключает возможность долгосрочного наблюдения за одними и теми же клетками, а также в наличии технических артефактов (dropout). Разработанная методология позволяет проводить симуляцию траекторий «вперед» и «назад», что помогло выявить три ключевых столпа старения: коллапс идентичности линий/репликации, половой диморфный эндокринно-стрессовый кор и воспалительное ремоделирование. В ходе тестирования на микроглии и гемопоэтических стволовых клетках (HSC) модель успешно минимизировала технические артефакты, сохранив гетерогенность траекторий. Исследование показало, что программы идентичности восстанавливаются при двунаправленном моделировании, в то время как воспалительные программы (MHC/NF-κB) проявляются преимущественно в направлении старения. Авторы делают важный вывод о том, что для борьбы со старением необходимо фокусироваться на восстановлении гомеостаза (upstream), а не просто на подавлении воспаления (downstream).
В исследовании представлен новый метод оптимизации работы с белковыми языковыми моделями (PLM), которые генерируют объемные многослойные эмбеддинги, создающие высокую нагрузку на системы хранения и вычисления. Авторы предлагают использовать компактное суррогатное представление, основанное на проекциях PCA низкой размерности и кубических полиномиальных траекториях для описания изменений эмбеддингов между слоями трансформера. Данный подход позволяет восстанавливать эмбеддинги любого слоя «на лету» без необходимости повторного запуска ресурсоемкой модели. Эффективность метода была протестирована на моделях ESM-35M и ESM-3B в задачах предсказания белок-белковых взаимодействий и субклеточной локализации. Результаты показывают высокую точность реконструкции при значительном снижении требований к памяти и вычислительным мощностям. Важно, что использование сжатых данных не приводит к потере качества в прикладных задачах, что делает метод масштабируемым решением для биоинформатики и разработки новых лекарств.
Исследователи представили GLOF (Gain and Loss Of Function) — первый масштабный и экспертно проверенный набор данных, предназначенный для обучения и тестирования моделей ИИ в задачах классификации функциональных эффектов миссенс-вариантов. Датасет включает 112 399 миссенс-вариантов, охватывающих 2 809 человеческих генов, которые были классифицированы как LOF (потеря функции), GOF (приобретение функции) или нейтральные. Классификацию проводили сертифицированные клинические генетики в соответствии с международными рекомендациями ACMG. Для формирования выборки использовались данные ClinVar, аннотированные на основе функциональных исследований, а нейтральные варианты были отобраны из gnomAD v3.1 с последующей валидацией по версии v4.1. Особую ценность представляет наличие 97 генов с двунаправленными механизмами (содержащих как LOF, так и GOF варианты), что позволяет моделям машинного обучения более точно различать типы патогенности. Данный ресурс критически важен для разработки предиктивных алгоритмов в геномике, способных предсказывать механизмы заболеваний и помогать в выборе стратегий таргетной терапии.