Исследование предлагает фреймворк федеративного обучения для совместного скрининга расстройства аутистического спектра (РАС) у детей, подростков и взрослых без обмена чувствительными данными пациентов. Персонализированные подходы федеративного обучения достигли глобальной точности 97,2% для детей, 89,5% для подростков и 86,8% для взрослых, превзойдя традиционные централизованные модели. Метод обеспечивает масштабируемое, точное и защищённое конфиденциальностью решение для обнаружения РАС в реальной клинической практике.
Исследование, опубликованное в Nature Machine Intelligence, предлагает новый метод решения проблемы чрезмерной уверенности (overconfidence) глубоких нейронных сетей. Авторы Cheon и Paik доказывают, что избыточная самоуверенность моделей обусловлена стандартными практиками инициализации весов. Для решения этой проблемы предлагается метод кратковременного «warm-up» обучения с использованием случайного шума, имитирующий биологические процессы в мозге. Данный подход значительно улучшает калибровку неопределенности и способность моделей к метакогнитивному распознаванию неизвестных входных данных. Внедрение этого метода позволяет нейросетям более точно оценивать степень своей уверенности в правильности ответа, что критически важно для медицинских систем принятия решений. Применение подобных алгоритмов может снизить риски диагностических ошибок, вызванных ложной уверенностью ИИ при столкновении с атипичными клиническими случаями.
В рамках деятельности ОЭЗ «Технополис Москва» резидент компании выпустил 334 досмотровых комплекса (интроскопа), оснащенных технологиями искусственного интеллекта. Данные устройства предназначены для автоматизированного контроля и досмотра грузов, где алгоритмы машинного обучения помогают выявлять запрещенные предметы и анализировать содержимое объектов в режиме реального времени. Внедрение ИИ в подобные системы позволяет значительно повысить точность обнаружения угроз и снизить нагрузку на операторов. Масштаб производства в 334 единицы за 2025 год свидетельствует о растущем спросе на интеллектуальные системы безопасности. Технология имеет косвенное отношение к медицине, так как подобные методы визуализации и автоматизированного анализа изображений могут быть адаптированы для медицинского диагностического оборудования. Проект демонстрирует успешную интеграцию ИИ в высокотехнологичное промышленное производство.
Исследование ClinicRealm представляет собой сравнительный анализ эффективности больших языковых моделей (LLM) и традиционных методов машинного обучения для задач клинического прогнозирования, не требующих генерации текста. Авторы пересматривают актуальность применения LLM в клинической практике, где требуется точность предсказаний, а не креативность. Методология включает бенчмаркинг различных моделей на реальных клинических наборах данных с использованием метрик точности, чувствительности и специфичности. Ключевой вывод работы заключается в том, что для многих негенеративных задач традиционные алгоритмы (логистическая регрессия, градиентный бустинг, SVM) могут превосходить LLM по точности при меньших вычислительных затратах. Исследование подчёркивает необходимость критической оценки целесообразности использования ресурсоёмких LLM в клинических системах. Результаты имеют практическое значение для выбора архитектуры моделей в медицинских приложениях, где важны интерпретируемость и воспроизводимость. Работа публикуется в npj Digital Medicine — ведущем рецензируемом журнале в области цифрового здравоохранения.
Исследование посвящено разработке и оценке устойчивых алгоритмов случайных лесов (Random Forests) для геномной предсказательной аналитики в условиях загрязнённых данных. Авторы фокусируются на проблеме загрязнения данных — от ошибок записи до экстремальных выбросов, которые могут искажать статистические модели и снижать точность предсказаний. Методология включает симуляционное моделирование на синтетическом наборе данных животноводческого разведения с последующей валидацией на реальных растительных и животных данных. Сравнительный анализ различных подходов к робастификации показал, что трансформация данных является наиболее эффективной стратегией, обеспечивающей наилучшую производительность при наличии загрязнения. Исследование выявило, что ранжирование на основе устойчивых случайных лесов является надёжным первым выбором, тогда как методы взвешивания следует применять только при сохранении ранговой структуры. Практическая значимость заключается в возможности восстановления латентного сигнала для геномной селекции при наличии фенотипической коррупции, ошибок записи или несоответствия между обучающими и развернутыми данными. Стандартные случайные леса остаются оптимальными для чистых данных, но устойчивые версии следует применять параллельно при вероятности загрязнения. Методология может быть перенесена на другие методы машинного обучения, включая медицинские приложения в области геномики и персонализированной медицины.
Систематический обзор 36 эмпирических исследований (2020–2025) показывает применение методов объяснимого ИИ (SHAP, Grad-CAM, LIME) в медицинской визуализации, диагностике и реабилитации. Исследования демонстрируют соответствие методов объяснимости типам медицинских задач и частое комбинирование нескольких объяснителей для перекрёстной проверки интерпретаций.
Исследователи создали Celiac Microbiome Repository (CMR) — кураторскую открытую коллекцию данных секвенирования микробиома кишечника при целиакии. Цель проекта — решить проблему фрагментированности и гетерогенности данных, которые ранее были разбросаны по NCBI Sequence Read Archive (SRA) и Scopus. В CMR версии 1.0 включено 28 наборов данных, содержащих 3 245 образцов от пациентов из 13 стран, отобранных из 5 различных локаций тела. Все 16S данные были повторно обработаны через DADA2, а shotgun-данные — через MetaPhlAn4 для обеспечения сравнимости между исследованиями. Анализ показал, что хотя публичные образцы микробиома при целиакии накапливаются со скоростью примерно 140 в год, существуют значительные барьеры доступности: лишь 20 из 58 подходящих наборов данных имели как сырые данные, так и необходимую метаданную в публичных архивах. Ресурс имеет двухуровневую архитектуру с GitHub-бэкендом для программатического доступа и R Shiny-фронтендом для интерактивного исследования данных. Ключевая значимость работы заключается в создании инфраструктуры, которая позволяет исследовательскому сообществу проводить глобальные мета-анализы и применять методы машинного обучения для выявления новых биомаркеров и паттернов микробиома при целиакии, что в перспективе может улучшить диагностику и персонализированный подход к лечению.
Исследование представляет метод CCIDeconv — иерархическую модель машинного обучения (классификация и регрессия) для деконволюции клеточно-клеточных взаимодействий (CCI) на субклеточном уровне в данных транскриптомики одиночных клеток. Метод использует модифицированный скоринг CellChat для атрибуции взаимодействий к субклеточным компартментам — цитоплазме и ядру. Исследователи валидировали подход на девяти публичных наборах данных пространственной транскриптомики (sST) из различных тканей человека, проведя кросс-валидацию с исключением одного набора данных (leave-one-dataset-out). Результаты показали, что обучение на множестве типов тканей обеспечивает устойчивую производительность деконволюции на невидимых наборах данных. Ключевое открытие: модели без пространственных признаков достигли схожей производительности с моделями, включающими пространственные данные, при увеличении количества обучающих наборов, что открывает возможность точного предсказания субклеточных взаимодействий CCI из данных scRNA-seq при достаточном объёме обучающих данных. Метод позволяет исследователям анализировать паттерны субклеточных взаимодействий для понимания биологических механизмов в контексте здоровья и различных заболеваний.
Исследование представляет VaLPAS (Variation-Leveraged Phenomic Association Screen) — фреймворк на Python для анализа ассоциаций между паттернами экспрессии генов и белков в мульти-омиксных данных. Методология основана на статистических и машинно-обучающих подходах для выявления функциональных связей между молекулами неизвестной функции и молекулами с установленной функцицией по принципу 'вины по ассоциации'. Инструмент предназначен для заполнения пробелов в функциональной аннотации протеома, используя данные масс-спектрометрии и других экспериментальных методов. Исследователи продемонстрировали эффективность VaLPAS на мульти-омиксном датасете из дрожжей Rhodotorula toruloides, успешно идентифицировав высококонфиденциальные предсказания для подмножества генов и белков с неизвестной функцией. Код проекта открыт и размещён на GitHub под управлением PNNL-Predictive-Phenomics. Хотя исследование фокусируется на фундаментальной биологии и дрожжах, разработанный подход может быть адаптирован для анализа медицинских данных, включая предсказание функций белков-мишеней для лекарственных препаратов. Технология демонстрирует потенциал для интеграции в исследовательские протоколы по расшифровке протеома и функциональной геномики.
Статья представляет гибридную систему поддержки клинических решений для пациентов с гипертонией, объединяющую методы машинного обучения (K-Means кластеризация, PCA) с экспертными правилами. Система проанализировала 615 клинических записей и достигла 78.3% согласованности с экспертными оценками кардиологов. Подход позволяет генерировать персонализированные рекомендации по образу жизни на основе стратификации пациентов.
GraphHDBSCAN* — это новый алгоритм машинного обучения для кластеризации данных одноячеистого секвенирования РНК (scRNA-seq), широко используемого в биомедицинских исследованиях для анализа клеточного разнообразия. Метод представляет собой иерархическое расширение HDBSCAN*, которое работает непосредственно с графовой структурой данных, устраняя необходимость в ручной настройке гиперпараметров. В отличие от существующих подходов, фокусирующихся на плоских кластерах, GraphHDBSCAN* сохраняет иерархическую организацию клеток, выявляя как широкие типы клеток, так и их специализированные подтипы. Исследователи протестировали метод на множестве наборов данных scRNA-seq и продемонстрировали, что алгоритм восстанавливает биологически значимые иерархии, включая тонкую структуру субпопуляций моноцитов. Метод обеспечивает высококачественные плоские кластеризации, превосходящие широко используемые методы обнаружения сообществ. GraphHDBSCAN* особенно важен для онкологических исследований, иммунологии и разработки персонализированных терапий, где точное определение клеточных популяций критично для понимания механизмов заболеваний и оценки ответа на лечение.
Исследование представляет FoundedPBI — ансамблевый подход глубокого обучения для предсказания взаимодействий бактериофагов с бактериями на основе ДНК-последовательностей. Методология использует ансамбль из трёх современных ДНК-языковых моделей (Nucleotide Transformer v2, DNABERT-2, MegaDNA), обученных на прокариотических и бактериофаговых геномах, с агрегацией выходов в единый мета-эмбеддинг и последующей классификацией нейросетью. Ключевые результаты: на бенчмарке PredPHI модель достигла F1-оценки 76%, превзойдя текущий state-of-the-art PBIP на 7%, а на внутреннем наборе данных CI4CB — 93% F1-оценка, улучшив предыдущие методы на 4%. Особый вклад — адаптация стратегий агрегации контекста NLP для обработки целых бактериальных и фаговых геномов до 5 млн пар оснований, что в 50-100 раз превышает контекстные окна фундаментальных моделей (12-96K bp). Это критически важно для ускорения открытия пар фаг-бактерия, необходимых для фаговой терапии как альтернативы антибиотикам. Практическая значимость: метод снижает трудоёмкость экспериментального скрининга, позволяя предсказывать совместимость пар по ДНК-последовательностям без лабораторных тестов, что может революционизировать разработку персонализированных фаговых препаратов.
Исследование представляет scMagnifier — фреймворк консенсус-кластеризации для анализа данных одноядерного секвенирования РНК (scRNA-seq), который решает проблему выявления тонких подтипов клеток, чьи транскрипционные различия часто маскируются техническим шумом и разреженностью данных. Методология включает генерацию in silico возмущений кандидатных транскрипционных факторов (TF), распространение эффектов возмущений через кластер-специфичные сети регуляции генов (GRN) для симуляции профилей экспрессии после возмущения, и интеграцию результатов кластеризации across множественных возмущений в стабильные назначения подтипов. Дополнительно разработан rpcUMAP — визуализация, aware возмущений, обеспечивающая четкое разделение между подтипами клеток и помогающая выбрать оптимальное число кластеров. В бенчмарках как для single-batch, так и multi-batch данных scMagnifier последовательно улучшает разрешение и точность идентификации тонких типов клеток. При интеграции со методами пространственной кластеризации, такими как STAGATE, метод совместим с рабочими процессами пространственной транскриптомики и эффективно выявляет подтипы опухолевых клеток и их пространственную организацию в раке яичников. Это имеет значимость для персонализированной онкологии, позволяя точнее классифицировать опухолевые популяции для таргетной терапии.
Исследование представляет метод импутации пропущенных данных в системах мониторинга здоровья с использованием генеративно-состязательных сетей (GAN). Проблема потери данных в носимых устройствах критична для точности диагностики хронических заболеваний и раннего выявления патологий. Авторы разработали архитектуру GAN, которая обучается на полных временных рядах физиологических показателей и генерирует правдоподобные значения для пропущенных сегментов. Методология включает использование дискриминатора для оценки качества импутированных данных и генератора для их восстановления с сохранением временных зависимостей. Ключевые результаты показывают, что GAN-based импутация превосходит традиционные методы (линейная интерполяция, средние значения) по метрикам RMSE на 35-42% и MAE на 28-38% в тестах на реальных данных носимых датчиков. Исследование демонстрирует, что даже при потере до 40% данных система сохраняет точность классификации заболеваний на уровне 89-94%, что критично для клинического применения. Работа имеет прямое практическое значение для улучшения надёжности телемедицинских систем и носимых мониторов в условиях реального использования, где пропуски данных неизбежны из-за технических сбоев или неудобства ношения устройства.
Исследование применяет машинное обучение для предсказания подтипов MODY (GCK-MODY и HNF1A-MODY) до генетического тестирования. Гауссовский наивный байесовский классификатор показал ROC AUC 0.724 для GCK-MODY, а Random Forest — 0.712 для HNF1A-MODY. SHAP-анализ обеспечил интерпретируемость модели.
Исследование представляет двухэтапную объяснимую модель машинного обучения для прогнозирования риска диабета 2 типа, достигшую точности 97.14% на втором этапе с использованием 270 943 образцов из Руанды. Модель может быть интегрирована в мобильное приложение mUzima для помощи медработникам в выявлении групп риска и раннем скрининге заболевания.
Исследование посвящено применению дискретных диффузионных моделей для генерации реалистичных филогенетических деревьев опухолей, которые кодируют клональную родословную и приобретение мутаций при эволюции рака. Авторы обучают графовые трансформеры на наборе из примерно 12 500 синтетических филогенезов, охватывающих двенадцать различных эволюционных режимов, используя процесс обратного диффузионного шумоподавления на типизированных графах. Эксперименты по масштабированию выявили немонотонную зависимость между ёмкостью модели и её производительностью: модель среднего масштаба достигла высокой структурной валидности и близкого соответствия распределения тестовым данным, тогда как более глубокая модель провалилась при фиксированных гиперпараметрах оптимизации. Эксперименты с недостатком данных показали, что разнообразное обучение приводит к более переносимым представлениям по сравнению со специализацией на одном режиме. Результаты демонстрируют, что структурные ограничения филогенеза могут быть выучены неявно через безусловную дискретную диффузию. Это открывает перспективный путь к созданию генеративных моделей эволюции опухолей, что имеет прямое значение для персонализированной онкологии и понимания механизмов развития рака. Исследование вносит вклад в развитие методов машинного обучения для анализа онкологических данных.
Исследование применяет методы машинного обучения для классификации пациентов с боковым амиотрофическим склерозом (БАС) против контрольной группы на основе данных смешанных анкет, содержащих как структурированные переменные, так и свободный текст. Разработана утечка-свободная ML-пайплайн с LLM-экстракцией текста в таблицу и компактным лонгитюдным кодированием. Сравнены три конфигурации признаков: Pool1 (только структурированные данные), Pool2 (добавлены компактные суммарные признаки из первого временного пункта), Pool3 (дополнены описаниями изменений между T1 и T2). В итоговой конфигурации Pool3 Random Forest достиг точности 0.673, F1-взвешенного показателя 0.666 и коэффициента корреляции Мэттьюса 0.323 на holdout-тесте. Кросс-валидация показала F1-weighted 0.654 и MCC 0.312. Анализ ablation показал, что удаление компактного временного блока значительно снижает производительность, тогда как удаление текстового блока почти не влияет. Вывод: в малых клинических когортах ценность языковой обработки заключается не в статических признаках, а в компактном представлении лонгитюдных траекторий изменений.
KyDab (Kymouse Antibody Database) представляет собой специализированную базу данных для разработки и оценки искусственных интеллектуальных моделей в области открытия антител. База данных содержит результаты 11 исследований иммунизации на платформе Kymouse, охватывающих 51 иммуноген. В коллекции представлено более 120 000 парных последовательностей тяжелых и легких цепей антител с измерениями связывания для экспериментально охарактеризованных клонов. База данных фиксирует полные данные отбора с согласованными метаданными, включая как положительные, так и отрицательные экспериментальные результаты. Это обеспечивает ценный ресурс для обучения моделей машинного обучения в области разработки терапевтических антител. База данных доступна по адресу https://kydab.naturalantibody.com и будет постоянно обновляться новыми наборами данных.
Компания Optum Rx внедряет технологии искусственного интеллекта для выявления и предотвращения мошенничества, нецелевого расходования средств и злоупотреблений в фармацевтической сфере. Это решение направлено на снижение финансовых потерь, которые ежегодно достигают миллиардов долларов в системе здравоохранения США. ИИ-системы анализируют большие объёмы данных о транзакциях, рецептах и поведении аптек для выявления аномальных паттернов. Методология включает машинное обучение для классификации подозрительных операций и автоматизированного оповещения. Внедрение таких систем позволяет сократить время расследования и повысить точность выявления мошеннических схем. Это важный пример применения ИИ не в клинической практике, а в административно-финансовом управлении здравоохранением, что критически важно для устойчивости системы.