Систематический обзор демонстрирует стремительный рост использования ИИ в обучении студентов-медиков, особенно через виртуальных пациентов на базе LLM. Основные направления включают симуляцию клинического мышления, оценку навыков OSCE и обучение работе с электронными медицинскими картами.
В исследовании представлена архитектура ансамбля глубокого обучения (ResNet50V2, DenseNet121, InceptionV3) для автоматической классификации цитологических изображений на доброкачественные и злокачественные. Наилучшие результаты показал ансамбль ResNet + DenseNet с использованием аугментации данных, достигнув точности 96.2% на локальном наборе данных.
В статье рассматривается проблема разрыва между разработкой прогностических моделей ИИ и их реальным внедрением в клиническую практику. Авторы предлагают методологию «пре-моделирования», которая включает раннее вовлечение стейкхолдеров, учет регуляторных норм и этических аспектов для создания инструментов, приносящих реальную пользу пациентам.
Исследование оценивает способность пяти современных языковых моделей (включая GPT-5 и GPT-4o) решать клинические задачи, связанные с лечением болей в пояснице. Авторы выявили критические ошибки в безопасности и полноте ответов, а также доказали, что структурированный промпт-инжиниринг может значительно улучшить качество медицинских рекомендаций ИИ.
Исследование представляет два инновационных подхода для преодоления вычислительного барьера при скрининге гигантских химических библиотек, объем которых превышает 100 миллиардов соединений. Авторы разработали фреймворк CombiDOCK, позволяющий проводить исчерпывающий комбинаторный докинг такого масштаба всего за 40 дней, что в разы эффективнее традиционных методов. Вторым методом стал MINT-Dock — генеративная система, интегрирующая CombiDOCK с поиском по дереву Монте-Карло (MCTS), что ускоряет навигацию по химическому пространству. Тестирование на 46 различных мишенях показало, что MINT-Dock обеспечивает 4800-кратное обогащение по сравнению со случайным отбором. В сравнении с предыдущими кампаниями по скринингу миллиардных библиотек, методы продемонстрировали более высокие показатели hit rate и получение более мощных лигандов. При этом MINT-Dock позволил сократить вычислительные затраты более чем в 20 раз при сохранении сопоставимой эффективности. Валидация результатов проводилась с помощью криоэлектронной микроскопии (cryo-EM), подтвердившей точность предсказанных поз связывания для соединений мишени VAChT.
В исследовании представлена Promera — инновационная унифицированная генеративная модель, объединяющая полноатомное предсказание структуры с возможностями контролируемого дизайна и эффективной фильтрации биомолекул. Основная проблема существующих инструментов заключается в низкой способности фильтровать спроектированные связывающие агенты (binders), что решает новая архитектура. Методология Promera позволяет генерировать связывающие белки путем предсказания маскированных последовательностей с использованием ограничений по эпитопам, паратопам и шаблонам. Результаты тестирования показали, что метрики уверенности Promera значительно точнее отличают связывающие молекулы от неактивных как для минибелков, так и для нанотел. В тестах на ко-фолдинг модель превзошла популярные open-source решения, такие как OpenFold3-p2 и Boltz-2, в терапевтически значимых категориях. В качестве демонстрации авторы успешно применили метод для таргетирования гликопротеина вируса Ханта (Andes hantavirus) и стабилизации активного состояния бета-2 адренорецепторного GPCR. Исследование также предлагает закон масштабирования (scaling law) для моделей ко-фолдинга, определяя вектор дальнейшего развития отрасли.
Исследователи представили HoloCell — первую в своем роде генеративную базовую модель (foundation model), предназначенную для совместного обучения представлениям и генеративного моделирования трех основных типов одноцепочечных омиксных данных: эпигеномики, транскриптомики и протеомики. Модель обладает колоссальным масштабом, содержая более 860 миллионов параметров, и прошла предварительное обучение на Human-Multi-Omics-Corpus, который включает около 468 миллионов профилей отдельных клеток и более 425 миллиардов токенов. В основе HoloCell лежит иерархическая стратегия токенизации, которая кодирует цис-регуляторные элементы, гены и белки как структурированные токены в единой архитектуре. Благодаря использованию механизмов итеративной диффузии и ремаскирования, модель демонстрирует превосходные результаты в задачах интеграции парных и непарных омиксных данных, а также в кросс-модальной генерации. HoloCell позволяет осуществлять in silico симуляцию потоков мультиомиксной информации, что делает её ключевым инструментом на пути к созданию концепции «виртуальной клетки». Это достижение открывает новые горизонты для системной характеризации клеточной гетерогенности и глубокого понимания биологических процессов на молекулярном уровне.
В исследовании представлен новый легковесный классификатор на базе сверточных нейронных сетей (CNN) для прогнозирования функций терапевтических пептидов напрямую из их аминокислотных последовательностей. Авторы использовали самую обширную на данный момент базу данных, включающую 54 655 пептидов, распределенных по 48 функциональным категориям. Ключевым инновационным методом стала стратегия негативной выборки на основе марковских моделей, позволяющая генерировать синтетические «ловушки» (decoys) различного уровня сложности. При тестировании на контрольном наборе данных частота ложноположительных результатов (FRP) была снижена с более чем 60% у предыдущих моделей до впечатляющих 2,1%. Ансамбль из пяти моделей достиг показателей Micro F1 78,9% и Macro F1 54,6%, при этом модель в 4 раза эффективнее по количеству параметров, чем существующие аналоги, и способна предсказывать в 4 раза больше функций. Анализ через L1-регуляризацию подтвердил, что нейросеть выявляет биологически значимые консервативные мотивы, что делает метод пригодным для ускорения дизайна новых лекарственных препаратов.
Обзор посвящен роли государственных суперкомпьютерных мощностей в трансформации биомедицинских исследований, включая онкологию и геномику. Особое внимание уделяется созданию национальных ИИ-моделей, таким как проект Великобритании по созданию вакцин против рака, а также вопросам управления данными и этики.
Разработан новый метод глубокого обучения (на базе ResU-Net) для точного совмещения изображений кожи, полученных в разных спектрах (видимом, NIR и тепловом). Исследование представляет первый в своем роде набор данных из 155 триплетов изображений поражений кожи, подтвержденных дерматологами.
Исследование оценивает способность модели GPT-4o рекомендовать тип интраокулярной линзы (ИОЛ) на основе данных 74 пациентов. Результаты показали высокую точность при выборе монофокальных линз, но низкую эффективность в сложных случаях (трифокальные линзы), что указывает на необходимость дообучения модели.
Авторы предлагают комплексную структуру использования ИИ для борьбы с ожирением, объединяющую геномные, клинические и данные с носимых устройств в динамический показатель риска. Предложенный подход включает создание «цифровых двойников» метаболизма для тестирования вмешательств in silico и акцентирует внимание на объяснимости и справедливости алгоритмов.
Статья предлагает концепцию 'Evidence-based Agent Stack' для создания надежных агентных систем ИИ в высокорисковых областях, таких как токсикология и регуляторная наука. Авторы подчеркивают необходимость интеграции принципов доказательной медицины и систематических обзоров в рабочие процессы ИИ для обеспечения прослеживаемости, воспроизводимости и оценки неопределенности.
Исследователи представили CytoGem-XAI — инновационный фреймворк, использующий гиперграфовые нейронные сети для моделирования метаболизма клеток на геномном уровне. В отличие от традиционного анализа баланса потоков (FBA) и существующих методов глубокого обучения, которые часто работают как «черные ящики», CytoGem-XAI обеспечивает интерпретируемость и позволяет проводить персонализированный анализ метаболических характеристик для конкретных образцов. Методология основана на представлении реакций в виде гиперребер, соединяющих участвующие в них метаболиты, что позволяет интегрировать три модуля анализа: ранжирование важности источников углерода, идентификацию узких мест реакций и топологическую атрибуцию на уровне путей. В ходе обучения на 17 400 условиях роста E. coli модель показала коэффициент детерминации R² = 0,862, что значительно превосходит показатели AMN (R² = 0,81), FBA (R² = 0,62) и градиентного бустинга (R² = 0,71). Биологическая валидация подтвердила способность системы выявлять критически важные источники углерода (аланин, малат) и лимитирующие ферменты цикла Кребса. Особую значимость представляет обнаружение N-ацетилмурамата как ранее недооцененного незаменимого питательного вещества, что демонстрирует практическую ценность модели для системной биологии и биоинженерии.
В исследовании представлен VelocityFM — инновационный метод прогнозирования динамики белков, решающий проблему высокой стоимости классического моделирования молекулярной динамики (MD). Авторы применяют технологию rectified flow matching непосредственно в пространстве скоростей, работая с кадрами остатков и торсионными углами. Архитектура модели объединяет шесть блоков Invariant Point Attention (IPA) с двухслойным временным энкодером на основе self-attention для обработки последовательностей. Обучение проводилось на наборе из 710 белков ATLAS, включающем 2090 отфильтрованных реплик траекторий. При горизонте прогнозирования в 128 кадров модель достигла медианного показателя TM-score 0.929 на тестовой выборке, при этом 100% сгенерированных структур сохранили TM > 0.7 и не имели стерических столкновений (clash-free). Геометрия остова также продемонстрировала высокую точность: медианная доля предпочтительных значений по Рамачандрану составила 91.09%. Результаты подтверждают, что геометрическое обучение в пространстве скоростей позволяет эффективно предсказывать динамику новых белков, сохраняя структурную целостность и геометрическую валидность.
Исследователи представили CREP (Cis-Regulatory Element Predictor) — специализированную модель глубокого обучения, созданную путем тонкой настройки архитектуры Enformer для идентификации цис-регуляторных элементов (CRE), таких как энхансеры, промоторы и изоляторы. В отличие от стандартных моделей, предсказывающих непрерывные эпигеномные сигналы, CREP напрямую классифицирует типы регуляторных элементов на основе последовательности ДНК, используя аннотации REgulamentary для различных типов клеток человека. В ходе экспериментов было доказано, что включение данных по множеству клеточных линий критически важно для точности: например, модель успешно обнаружила вариант SNP Vanuatu, создающий новый эритроидный регуляторный элемент, только при наличии эритроидных данных в обучающей выборке. Анализ ошибок показал, что размытые границы между энхансерами и промоторами отражают их функциональную непрерывность, а не просто ошибки классификации. Данная разработка предоставляет мощный инструмент для функциональной интерпретации некодирующих генетических вариаций, что имеет решающее значение для понимания механизмов развития заболеваний, связанных с мутациями в некодирующих областях генома.
В статье представлен Galaxy Learning and Modeling (GLEAM) — новый программный инструментарий, разработанный для упрощения использования машинного обучения (ML) в биомедицинских исследованиях. Проблема нехватки вычислительных компетенций у биологов решается через предоставление веб-ориентированных инструментов без необходимости написания кода (code-free). GLEAM позволяет работать с табличными, изображенными и мультимодальными наборами данных, стандартизируя процессы разбиения данных, выбора моделей, обучения и оценки результатов. Программный комплекс базируется на вычислительном рабочем месте Galaxy, что обеспечивает масштабируемость и воспроизводимость анализов. Валидация инструментария проводилась на трех критических задачах: прогнозировании ответа пациентов на иммунотерапию, классификации поражений кожи и предсказании рецидивов рака. Результаты тестирования подтвердили высокую точность создаваемых моделей и значительное повышение прозрачности и строгости исследовательских процессов в биомедицине.
Исследователи представили BacteReason — специализированную большую языковую модель (LLM), предназначенную для прогнозирования чувствительности бактерий к антибиотикам с предоставлением механистического обоснования. В отличие от традиционных методов машинного обучения, которые часто работают как «черный ящик», BacteReason использует подход обучения с учителем, где проприетарная модель-наставник генерирует объяснения молекулярных механизмов резистентности. Для обеспечения научной точности модель интегрирована с биомедицинскими базами знаний через протокол TogoMCP, что позволяет привязывать каждый шаг рассуждения к конкретным доказательствам из графов знаний. В ходе тестирования на бенчмарках по экстраполяции модель показала относительное улучшение точности на 43% по сравнению с базовой ненастроенной LLM и на 38% по сравнению с моделью, прошедшей тонкую настройку без использования рациональных обоснований. Данная разработка имеет критическое значение для клинической практики, так как позволяет врачам не только получать прогноз эффективности препарата, но и понимать биологическую причину устойчивости патогена.
В исследовании представлен CiliAI — веб-ориентированный рабочий процесс на базе глубокого обучения, предназначенный для автоматизации анализа первичных ресничек. Система решает проблему трудоемкости ручного анализа 3D-изображений конфокальной микроскопии, обеспечивая автоматическое обнаружение и сегментацию ключевых субструктур: базального тела, переходной зоны и аксонемы. В ходе тестирования на клетках линии NIH-3T3 автоматизированные измерения длины ресничек показали высокую точность, практически идентичную ручному методу (средняя разница составила всего -0,214 мкм при p = 0,213). Алгоритм успешно воспроизвел биологические эффекты, зафиксировав снижение интенсивности сигнала белка Cep290 в клетках с дефицитом Rpgrip1l, что подтверждает его валидность для изучения молекулярных механизмов. Использование CiliAI позволяет сократить время анализа с нескольких дней ручной работы до считанных минут. Данный инструмент представляет значительную ценность для клеточной биологии и биомедицинских исследований, ускоряя изучение механизмов клеточной пролиферации и дифференцировки.
В исследовании представлен новый алгоритм DDI_single, предназначенный для решения критической задачи моделирования пространственного расположения доменов в многодоменных белках. В отличие от существующих методов, фокусирующихся на внутренней структуре отдельных доменов, DDI_single использует возможности языковой модели белка ESM-1b для извлечения признаков непосредственно из аминокислотной последовательности. Ключевым инновационным компонентом является модуль gated cross-attention, который позволяет точно предсказывать взаимодействия между парами остатков различных структурных доменов. Результаты тестирования показали, что алгоритм превосходит trRosettaX_single по точности предсказания относительных расстояний между доменами более чем на 20%. При сборке доменов с известной пространственной конформацией метод продемонстрировал точность 74,4% (TM-score > 0.5), а при работе с неизвестными конформациями — 73,9% (при условии корректного моделирования внутренних структур доменов). Данная разработка имеет высокую значимость для структурной биологии и рационального дизайна лекарственных препаратов, позволяя лучше понимать функции сложных белков.