машинное обучение

Новость9522 мая

В исследовании представлен инновационный метод поиска селективных ингибиторов PDE4B, которые могут обеспечить противовоспалительный эффект при лечении ХОБЛ, минимизируя побочные эффекты, связанные с изоформой PDE4D. Авторы использовали интегрированный пайплайн, включающий интерпретируемое машинное обучение (Random Forest с анализом SHAP), виртуальный скрининг базы данных природных соединений LOTUS и молекулярную динамику. Классификатор, обученный на данных ChEMBL, показал высокую точность (AUC-ROC = 0.955) и позволил отобрать 119 698 потенциально активных соединений. После многоступенчатого фильтрации (Lipinski, PAINS, QED) и иерархического докинга были выявлены четыре лид-соединения с энергией связывания от -9.123 до -12.080 ккал/моль, что превосходит показатели эталонного препарата рофлумиласта (-7.658 ккал/моль). Лучший кандидат, LTS0048837, продемонстрировал стабильную структуру комплекса в ходе 100-наносекундной симуляции молекулярной динамики и показал более высокую селективность к PDE4B по сравнению с PDE4D. Данная работа закладывает основу для создания новых лекарственных средств на базе природных соединений с помощью ИИ-методов.

машинное обучение дизайн лекарств природные соединения+3

bioRxiv — Bioinformatics Оригинал

Новость9522 мая

Исследователи представили BioGAIP — инновационную платформу на основе больших языковых моделей (LLM), предназначенную для автоматизации сложных биоинформатических процессов. Система использует архитектуру мультиагентных автономных агентов, которые способны самостоятельно проектировать аналитические конвейеры, динамически извлекать информацию и автоматически настраивать вычислительную среду. В отличие от традиционных методов, требующих глубоких знаний программирования, BioGAIP позволяет биологам выполнять многоомиксный анализ с помощью простых запросов на естественном языке через графический интерфейс. Платформа построена на клиент-серверной архитектуре, что обеспечивает безопасное управление ресурсами и поддержку тяжелых вычислений. Тестирование на различных опубликованных наборах данных подтвердило, что BioGAIP успешно воспроизводит установленные биологические закономерности и обладает потенциалом для совершения новых научных открытий. Внедрение такой системы значительно снижает порог входа в биоинформатику, демократизируя доступ к высокотехнологичному анализу данных для широкого круга специалистов.

биоинформатика LLM мультиагентные системы+3

bioRxiv — Bioinformatics Оригинал

Новость9522 мая

Исследователи представили PocketBagger — инновационный фреймворк для предсказания «лекарственной доступности» (druggability) белковых карманов, использующий метод обучения на положительно-неразмеченных данных (Positive-Unlabeled learning). Основная проблема традиционных моделей заключается в невозможности точно определить «нелекарственные» карманы, что создает смещение в обучающих выборках. PocketBagger решает эту задачу, используя PU-bagging для обучения на структурах из Protein Data Bank (PDB), где известные лиганды считаются положительными примерами, а все остальные карманы — неразмеченными. При тестировании на классификаторе Random Forest модель продемонстрировала высокий показатель полноты (recall) на уровне 0.804, сохраняя эффективность даже при проверке на целых семействах белков, исключенных из обучения. В ходе бенчмаркинга PocketBagger превзошел ведущие методы глубокого обучения по точности обобщения. Разработанный фреймворк универсален и может быть применен к любой архитектуре нейросетей. Результаты работы и сгенерированные данные уже интегрированы в платформу canSAR.ai, что делает инструмент доступным для масштабируемого использования в сообществе компьютерного дизайна лекарств.

drug discovery машинное обучение структурная биология+2

bioRxiv — Bioinformatics Оригинал

Новость9521 мая

В статье представлен SMARTIE (Systematic Machine-learning Approach for RBP Targets Identified by Editing) — новый аналитический фреймворк на базе машинного обучения, предназначенный для идентификации мишеней РНК-связывающих белков (RBP). Авторы решают проблему низкой чувствительности и отсутствия непредвзятой приоритизации мишеней в существующих методах анализа данных редактирования РНК, таких как TRIBE и STAMP. Методология SMARTIE интегрирует статистические тесты с признаками, учитывающими репликацию и веса доверия, что позволяет более точно ранжировать целевые РНК. В ходе тестирования на опубликованных наборах данных TRIBE система успешно восстановила мишени для таких белков, как Ataxin-2, TDP-43, Hrp48, Thor, GPATCH8, dFMRP и NonA. Важным достижением является способность модели, обученной на данных TRIBE, успешно обобщать знания на наборы данных STAMP, что подтверждает выявление универсальных сигнатур редактирования. Данная разработка значительно повышает точность вывода взаимодействий RBP-РНК, открывая новые возможности для изучения регуляции генов.

машинное обучение регуляция генов биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость9521 мая

В данной научной работе представлен инновационный фреймворк для количественной оценки неопределенности (uncertainty quantification), предназначенный для улучшения работы моделей машинного обучения, прогнозирующих выживаемость пациентов. Исследование фокусируется на применении этих методов в онкологии, в частности при прогнозировании исходов рака легких у лиц пожилого возраста. Авторы решают критическую проблему «черного ящика» ИИ, внедряя механизмы, которые позволяют врачам понимать степень уверенности модели в каждом конкретном прогнозе. Это имеет решающее значение для принятия клинических решений, так как высокая неопределенность в прогнозе может сигнализировать о необходимости дополнительного обследования или пересмотра тактики лечения. Методология включает интеграцию статистических методов оценки неопределенности в алгоритмы глубокого обучения для повышения надежности прогностических моделей. Результаты работы подчеркивают значимость прозрачности ИИ для безопасного внедрения технологий в повседневную медицинскую практику и персонализированную терапию.

онкология прогнозирование машинное обучение+3

Artificial Intelligence in Medicine Оригинал

Новость9521 мая

В данном исследовании проведен сравнительный анализ шести существующих инструментов (PanTax, PathoScope, StrainGE, Strainify, StrainR2 и StrainScan) для профилирования разнообразия штаммов Escherichia coli на основе коротких чтений метагеномов кишечника. Авторы использовали как реальные наборы данных (ZymoBIOMICS D6331), так и симулированные сообщества различной сложности для оценки точности обнаружения сосуществующих штаммов и их относительной численности. Результаты показали, что только PanTax обеспечил нулевую ошибку при предсказании равного обилия пяти штаммов E. coli. В условиях дифференциального обилия штаммов инструмент StrainScan продемонстрировал самую низкую среднюю абсолютную пропорциональную ошибку (0.89), однако при этом обладал сниженной чувствительностью (0.5). Наивысший показатель F1-меры (0.978) был достигнут инструментом StrainGE, что свидетельствует о его высокой точности и полноте. Для задач предсказания относительного обилия конкретных штаммов, таких как K12-MG1655 и O157:H7 Sakai, наиболее эффективными оказались PanTax и StrainR2 с минимальной ошибкой 0.06. Исследование подчеркивает необходимость выбора конкретного метода в зависимости от прикладных задач биоинформатического анализа метагеномов.

метагеномика микробиом Escherichia coli+3

bioRxiv — Bioinformatics Оригинал

Новость6521 мая

В данной научной работе представлена новая теоретическая модель для эволюционного моделирования последовательностей, направленная на учет локальной гетерогенности и дальних связей между сайтами. Авторы используют процесс Дирихле для разделения сайтов на совместно эволюционирующие классы, что позволяет интегрировать структуру ко-эволюции в рамках модели TKF92. Методология включает переход от парной скрытой марковской модели TKF92 к стохастической контекстно-свободной грамматике и разработку механизма вывода на основе сэмплера Гиббса-Метрополиса. Исследование решает ряд математических задач, включая нахождение точных достаточных статистик для компонента линейного рождения-смерти-иммиграции и закрытие пробелов в предельных значениях модели. В ходе тестирования на 1000 семейств Pfam модель с K=4 классами сайтов показала наличие ковариации около 0,54 нат на каждую пару классов сверх стандартной модели замещения. Результаты работы расширяют возможности биоинформатического моделирования выравнивания последовательностей с учетом сложных структурных взаимодействий.

биоинформатика машинное обучение эволюционное моделирование+2

bioRxiv — Bioinformatics Оригинал

Новость9521 мая

Исследователи представили ProtmRNA — инновационный подход к анализу последовательностей мРНК, основанный на методе кросс-модального обучения с переносом знаний. В основе метода лежит использование предобученной белковой языковой модели ESM-2 для обработки последовательностей мРНК, что опирается на фундаментальную биологическую связь между мРНК и аминокислотными цепями. В ходе тестирования на специализированных наборах данных и восьми дополнительных бенчмарках, ProtmRNA продемонстрировала производительность, сопоставимую или превосходящую существующие SOTA-модели (state-of-the-art) для мРНК. При этом ключевым преимуществом является высокая эффективность: модель требует менее половины вычислительных ресурсов, затрачиваемых на стандартное предварительное обучение. Работа доказывает возможность эффективного переноса знаний между различными типами биологических последовательностей, предлагая новый ресурсосберегающий парадигмальный подход для биоинформатики и разработки лекарств. Предварительно обученная модель и наборы данных для регрессии CDS-регионов доступны в открытом доступе.

биоинформатика NLP мРНК+3

bioRxiv — Bioinformatics Оригинал

Исследование4521 мая

В статье исследуется проблема применения нейронных операторов к задачам со свободной границей, к которым относятся такие сложные процессы, как моделирование таяния ледников. Традиционные методы нейросетевого моделирования часто сталкиваются с трудностями при описании динамически изменяющихся геометрий. Авторы предлагают инновационный математический фреймворк, основанный на принципе топологической сопряженности, для преодоления этого барьера. Данный подход позволяет более точно описывать эволюцию границ раздела сред в физических системах. Исследование имеет важное значение для развития методов машинного обучения в прикладной физике и биомедицинской инженерии, где моделирование процессов с подвижными границами (например, рост опухолей или динамика жидкостей) является критически важным. Результаты работы закладывают фундамент для создания более устойчивых нейросетевых моделей физических процессов.

машинное обучение нейронные операторы математическое моделирование+1

Nature Machine Intelligence Оригинал

Исследование8521 мая

В исследовании, опубликованном в Nature Machine Intelligence, авторы (Long et al.) представляют инновационный метод на основе глубоких нейронных операторов, предназначенный для решения сложных задач со свободной границей. В отличие от традиционных численных методов, данный фреймворк обеспечивает высокую точность вычислений при значительно меньших затратах ресурсов. Основное внимание уделено возможности использования метода для высокоточного моделирования динамики роста опухолей в режиме реального времени. Это открывает новые горизонты в персонализированной онкологии, позволяя врачам прогнозировать изменения границ новообразований на основе медицинских данных. Методология демонстрирует потенциал для интеграции в клиническую практику, обеспечивая быструю симуляцию биологических процессов, которые ранее требовали длительных вычислений. Технология может стать важным инструментом для планирования таргетной терапии и мониторинга эффективности лечения.

онкология нейронные операторы моделирование+2

Nature Machine Intelligence Оригинал

Новость8521 мая

Разработана модифицированная система интерферометрии, использующая закон Малюса для автоматизации измерения микроперемещений. Интеграция алгоритмов оптимизации роя частиц (PSO) и регрессии гауссовских процессов (GPR) позволяет точно компенсировать ошибки прибора, что делает метод перспективным для неконтактного мониторинга физиологических сигналов.

диагностика микроперемещения машинное обучение+2

Frontiers in AI — Medicine

Новость8521 мая

В исследовании представлен TREAD (Transfer learning-based REpeat Annotation using Protein EmbeDdings) — новый метод машинного обучения для обнаружения повторяющихся мотивов в белках. В отличие от традиционных методов, таких как HMMER, которые полагаются на выравнивание последовательностей или вероятностные профили, TREAD переформулирует задачу обнаружения повторов как задачу аннотации на уровне остатков, используя эмбеддинги от языковых моделей белка (Protein Language Models). Методология позволяет модели имплицитно изучать специфические признаки повторов, обеспечивая высокую гибкость и масштабируемость. Тестирование на наборах данных RepeatsDB и Pfam показало, что TREAD не уступает или превосходит HMMER, особенно в условиях низкого объема данных и высокой дивергенции последовательностей. Практическая значимость подтверждена анализом $\beta$-пропеллерных белков в базе данных AlphaFold, где инструмент выявил новые паттерны экспансии в различных линиях эволюции. TREAD представляет собой масштабируемую альтернативу профильным методам и предлагает универсальный подход к аннотации мотивов на основе последовательностей.

белковые последовательности машинное обучение языковые модели белка+2

bioRxiv — Bioinformatics Оригинал

Новость9521 мая

Исследователи разработали CharacTERT — специализированный инструмент на базе машинного обучения, предназначенный для классификации миссенс-мутаций в гене hTERT, который кодирует каталитическую субъединицу теломеразы человека. В отличие от существующих универсальных предикторов, CharacTERT интегрирует как последовательностные, так и структурные признаки, учитывая уникальный биологический контекст фермента теломеразы. Разработанные модели продемонстрировали высокую точность: лучший показатель коэффициента корреляции Мэтьюса (MCC) составил 0,88 на наборах данных ClinVar и gnomAD, а чувствительность достигла 0,75 при тестировании по протоколам ACMG/AMP. Анализ признаков показал, что ключевыми детерминантами патогенности являются консервативность остатков hTERT и изменения гидрофобных и слабых полярных взаимодействий. Авторы также провели in silico насыщающий мутагенез, создав детальный мутационный ландшафт TERT. Инструмент представлен в виде удобного веб-сервера, который может существенно помочь в ранней диагностике заболеваний теломерного биогенеза (TBDs) и разработке стратегий персонализированной медицины.

машинное обучение генетика диагностика+2

bioRxiv — Bioinformatics Оригинал

Новость8520 мая

В исследовании представлена инновационная модель глубокого обучения PeptideGNN, основанная на архитектуре графовых нейронных сетей (GNN), предназначенная для моделирования поведения пептидов при жидкостной хроматографии. Авторы решают проблему ограниченного понимания взаимодействий между пептидами и колонками, что является критическим барьером в протеомике. Модель была обучена на десяти различных протеомных наборах данных и продемонстрировала превосходство над существующими предикторами времени удерживания. С помощью метода картирования значимости (saliency mapping) исследователи смогли интерпретировать механизмы удержания, выявив влияние соседних аминокислот, посттрансляционных модификаций (PTM), типа хроматографических колонок и добавок в подвижную фазу. Результаты работы позволяют не только точнее предсказывать параметры разделения, но и глубже понимать физико-химические взаимодействия на молекулярном уровне, что критически важно для повышения точности идентификации белков в масс-спектрометрии.

протеомика графовые нейронные сети машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость9520 мая

Исследователи представили TRINUS — новую модель самообучения (self-supervised model), предназначенную для анализа пространственной транскриптомики. Основная инновация метода заключается в генеративном разделении внутренней идентичности клеточной линии и внешнего влияния микроокружения (нишевого давления). TRINUS использует библиотеку контекстно-свободных прототипов клеток для изоляции генетической программы, одновременно моделируя кооперативные зависимости между соседними клетками. В ходе тестирования на синтетических данных модель продемонстрировала превосходство над существующими методами в задачах кластеризации клеток и обнаружения пространственных доменов. Применение TRINUS на данных колоректального рака позволило картировать паттерны взаимодействий в масштабе всей ткани, а исследования мышиного органогенеза выявили специфические для стадий сигнальные зависимости. Особую значимость представляет возможность двунаправленного in silico проектирования: в микроокружении опухолей яичников модель смогла предсказать молекулярные модификации макрофагов, способные восстановить функцию соседних Т-клеток. Таким образом, TRINUS становится мощным инструментом для предиктивного тканевого инжиниринга и понимания механизмов клеточной коммуникации.

пространственная транскриптомика машинное обучение онкология+3

bioRxiv — Bioinformatics Оригинал

Новость9520 мая

Исследование посвящено решению проблемы резистентности к бевацизумабу — ключевому фактору, ограничивающему долгосрочную эффективность терапии метастатического колоректального рака (КРР). Авторы разработали и валидировали прогностическую модель на основе сигнатуры из 8 генов (AXIN2, PSORS1C1, KRT74, SLC2A3, STIL, IL33, GALNT6, HSD11B2), используя анализ данных GEO (GSE19862, GSE86582) и TCGA. Результаты показали, что высокая оценка риска по данной сигнатуре коррелирует с более низкой общей выживаемостью (OS), при этом точность прогноза (AUC) достигает 0.757 для 5-летней выживаемости. Анализ иммунного микроокружения с помощью CIBERSORT и ESTIMATE выявил, что у пациентов группы высокого риска наблюдается повышенное содержание M2-макрофагов и нейтрофилов при снижении количества активированных CD4+ T-клеток памяти и дендритных клеток. Генетический анализ (GSEA) подтвердил обогащение путей TNF/NF-κB, IL-6/JAK/STAT3 и контрольных точек иммунного ответа в группе высокого риска. Данная сигнатура может служить инструментом для клинической стратификации пациентов и понимания механизмов иммуноопосредованной резистентности к терапии.

онкология колоректальный рак биомаркеры+3

bioRxiv — Bioinformatics Оригинал

Новость9520 мая

В данной исследовательской работе представлен первый алгоритм контрфактуальных объяснений (Counterfactual Explanation, CE), специально разработанный для работы с сетями сходства пациентов (Patient Similarity Networks, PSNs). В отличие от традиционных методов, использующих табличные данные, авторы применяют графовые нейронные сети (GNN), которые учитывают не только индивидуальные признаки пациента, но и его связи с клинически и биомолекулярно схожими индивидами. Предложенный метод является универсальным и не зависит от конкретной модели классификатора (model-agnostic), что позволяет интегрировать его в различные системы поддержки принятия врачебных решений. Исследование проводилось на синтетических данных и на реальной когорте пациентов с болезнью Альцгеймера. Результаты показали, что новый алгоритм демонстрирует конкурентоспособность по сравнению с классическими методами для табличных данных и признанным инструментом GNNExplainer. Данная разработка имеет критическое значение для повышения интерпретируемости ИИ в медицине, позволяя врачам понимать, какие именно изменения в клинических или биомолекулярных показателях могли бы изменить прогноз заболевания.

диагностика прогнозирование графовые нейронные сети+3

bioRxiv — Bioinformatics Оригинал

Новость9520 мая

Исследователи представили MetFoundation — инновационную метаболомную базовую модель, обученную методом самообучения (self-supervised learning) на данных ЯМР-метаболомики более 430 000 участников из UK Biobank. В отличие от традиционных «часов старения», которые предполагают однородность процессов, MetFoundation способна улавливать сложную нелинейную структуру системного метаболизма. С помощью тонкой настройки выживаемости авторы разработали модель старения, тесно связанную с риском смертности и возрастными заболеваниями. Ключевым достижением стало выявление 13 уникальных метаболических подтипов, которые демонстрируют различную предрасположенность к деменции и диабету даже при одинаковых показателях ускорения старения. Для практического применения была создана облегченная модель, позволяющая аппроксимировать сложные метаболомные данные, используя лишь стандартные анализы крови. Валидация на данных из Китая (CHARLS) подтвердила высокую обобщающую способность модели и её потенциал для персонализированной медицины.

метаболомика биологические часы прогнозирование рисков+3

bioRxiv — Bioinformatics Оригинал

Новость9520 мая

В исследовании представлен новый математический фреймворк ATLAS (Auxiliary-Transformed Location-Aware Smoothing), предназначенный для решения проблемы аппроксимации локально-специфичных моделей при условии пространственной гладкости. В отличие от существующих методов, которые штрафуют шероховатость непосредственно параметров модели, ATLAS накладывает штраф на трансформации параметров с использованием вспомогательных ковариат. В качестве практического применения авторы разработали модель пространственной деконволюции для транскриптомики, которая позволяет оценивать коэффициенты смешивания опухолевых клеток в тысячах точек на одном тканевом срезе. Для решения вычислительных сложностей, вызванных нелинейным правдоподобием и невыпуклым штрафом, предложен алгоритм ADMM (метод множителей Лагранжа для расщепления переменных). Результаты симуляционных исследований подтверждают, что ATLAS обеспечивает существенно более точное обнаружение пространственных доменов по сравнению с традиционными методами сглаживания параметров. Особая эффективность метода проявляется в случаях, когда вспомогательные ковариаты обладают калиброванной пространственной структурой, что критически важно для точной биомедицинской визуализации.

пространственная транскриптомика онкология машинное обучение+3

bioRxiv — Bioinformatics Оригинал

машинное обучение

Прогностические модели на основе искусственного интеллекта для раннего выявления сепсиса в отделениях интенсивной терапии: обзор охвата

BioGAIP: масштабируемая, удобная и надежная мультиагентная система на базе LLM для автоматизации биоинформатических задач

PocketBagger: Обобщаемое предсказание лекарственной доступности карманов с помощью обучения на положительно-неразмеченных данных

SMARTIE: машинное обучение для исследования взаимодействий RBP-РНК, выявленных методом редактирования

Бенчмаркинг профилирования штаммов Escherichia coli в короткочитаемых метагеномах кишечника

Вставки, делеции и обменные связи: процесс Дирихле над доменами и сайтами TKF92

ProtmRNA: Кросс-модальный перенос знаний от белков к матричной РНК (мРНК)

Нейронные операторы для задач со свободной границей

Глубокий нейронный оператор для задач со свободной границей

За пределами профилей: контролируемая повторная аннотация с использованием белковых эмбеддингов

CharacTERT: инструмент машинного обучения для классификации миссенс-вариантов hTERT

Прогнозирование и выяснение механизмов удержания пептидов с помощью графовых сетей внимания

Расшифровка синтаксиса взаимодействий путем разделения внутренних линий развития и нишевого давления

Сигнатура из 8 генов, связанная с резистентностью к бевацизумабу, предсказывает прогноз и выявляет иммуносупрессивное микроокружение при колоректальном раке

Контрфактуальные объяснения для графовых нейронных сетей в прогнозировании исходов заболеваний пациентов

Декодирование гетерогенных часов старения и стратификация риска заболеваний с использованием метаболомной базовой модели

Штраф ATLAS: сглаживание с учетом локации и вспомогательных преобразований с применением в пространственной транскриптомике