Обзорный анализ применения методов машинного и глубокого обучения (CNN, RNN, GAN и др.) для диагностики болезни Альцгеймера на основе нейровизуализационных данных. Особое внимание уделяется мультимодальным подходам, объединяющим МРТ и ПЭТ, а также методам предобработки и аугментации данных для повышения точности классификации.
В исследовании представлена интеллектуальная система VDT2, использующая анализ гласных звуков для неинвазивной диагностики сахарного диабета 2 типа. Благодаря сочетанию регрессии Lasso и ансамбля логистической регрессии с механизмом внимания, метод достиг точности обнаружения 78%, превосходя традиционные подходы.
В исследовании представлен TreeGazer — инновационный фреймворк, предназначенный для оптимизации процесса отбора белковых последовательностей для экспериментального анализа. В отличие от традиционных методов, использующих «черные ящики» белковых языковых моделей, TreeGazer интегрирует байесовскую оптимизацию непосредственно с топологией филогенетических деревьев. Это позволяет методу эффективно балансировать между эксплуатацией известных полезных свойств и исследованием областей с высокой неопределенностью модели. В ходе двух симуляций TreeGazer продемонстрировал превосходство над существующими стратегиями, создавая наборы данных, которые более точно представляют распределение свойств белков. Особую ценность метод представляет для работы в условиях дефицита данных (low-data settings), где он позволяет точно идентифицировать функциональные переходы между кладами. Благодаря использованию латентных представлений, связанных с филогенетической структурой, система обеспечивает биологически интерпретируемые прогнозы и может работать на обычных ноутбуках, не уступая по эффективности ресурсоемким подходам на основе эмбеддингов.
В статье представлен IntegrateRigor — инновационный программный фреймворк, предназначенный для оптимизации интеграции данных секвенирования РНК единичных клеток (single-cell) и пространственной транскриптомики. Основная проблема текущих методов заключается в конфликте между удалением межбатчевых вариаций и сохранением биологической идентичности клеток, что ведет к ошибкам переинтеграции или недоинтеграции. IntegrateRigor решает эту задачу без использования предварительных аннотаций, применяя статистически обоснованный подход: сначала отбираются гены со стабильными паттернами экспрессии на основе оценки стабильности батчей, а затем подбираются оптимальные гиперпараметры. В ходе тестирования на данных колоректального рака метод позволил обнаружить ранее не описанные ниши на границе опухоли и иммунной системы, которые были скрыты при использовании стандартных настроек. Исследование показало, что фреймворк превосходит пять современных методов интеграции, обеспечивая более точное восстановление типов и состояний клеток. Это делает IntegrateRigor критически важным инструментом для крупномасштабных мультиомиксных исследований и повышения воспроизводимости биологических открытий.
Исследователи представили MIMOSA (Model-Independent Motif Similarity Assessment) — инновационный программный фреймворк на языке Python, предназначенный для прямого сравнения мотивов сайтов связывания транскрипционных факторов (TFBS) независимо от их математической архитектуры. В отличие от существующих инструментов, ориентированных преимущественно на матрицы весов позиций (PWM), MIMOSA позволяет сопоставлять различные типы моделей, такие как марковские модели, которые лучше улавливают зависимости между позициями в последовательности ДНК. Методология основана на сравнении откалиброванных профилей распознавания, созданных различными моделями на одном и том же наборе последовательностей ДНК, вместо прямого сравнения параметров самих моделей. Бенчмаркинг на базе базы данных HOCOMOCO показал, что MIMOSA достигает показателей точности (MRR и Recall@k), сопоставимых с признанными инструментами Tomtom и MACRO-APE. Применение метода к данным ChIP-seq для фактора ATF3 подтвердило способность системы различать альтернативные варианты спейсеров и интегрировать их в более гибкие модели, такие как BaMM и Slim. Данная разработка устраняет критический барьер в геномном анализе, позволяя систематически интегрировать разнообразные модели мотивов и интерпретировать их гетерогенность.
Исследование посвящено использованию данных ДНК-метабаркодинга пыльцы, собранной пчелами, для разработки моделей машинного обучения, способных точно определять географическое происхождение образцов. Авторы проанализировали данные о сравнительной численности последовательностей ДНК пыльцы из трех различных проектов на западе США. В ходе работы тестировались алгоритмы обучения с учителем, включая Random Forest (Случайный лес) и k-Nearest Neighbors (k-ближайших соседей). Результаты показали высокую точность предсказания локации исключительно на основе состава пыльцевых сообществ без привлечения дополнительных параметров. Было установлено, что модели, обученные на сырых данных последовательностей, работают почти так же эффективно, как и модели на таксономически кластеризованных данных, что позволяет избежать трудоемкого процесса таксономического присвоения. Данная методология предлагает новый фреймворк для использования биологических данных в задачах геолокации и криминалистики.
В исследовании представлен масштабный сравнительный анализ методов отбора признаков и построения прогностических моделей на основе геномных данных, характеризующихся высокой размерностью и разреженностью. Авторы протестировали широкий спектр алгоритмов, включая классические статистические методы и современные подходы машинного обучения, на синтетических наборах данных с варьирующейся корреляцией и силой сигнала. Для практической верификации результаты были проверены на реальном когортном исследовании рака из базы данных The Cancer Genome Atlas (TCGA). Оценка проводилась по комплексному набору метрик: индексу конкордантности (C-index), F1-score, ошибке Brier score, RMSE и скорости вычислений. Исследование показало, что методы CoxBoost и Adaptive LASSO демонстрируют наиболее стабильные результаты по всем показателям, в то время как LASSO и Elastic Net наиболее эффективны при оценке конкордантности и F1-score. Результаты работы предоставляют онкологам и биоинформатикам четкие рекомендации по выбору оптимального математического аппарата в зависимости от специфических характеристик геномных данных.
Данный обзорный труд, опубликованный в журнале 'Artificial Intelligence in Medicine', посвящен исследованию роли технологий искусственного интеллекта в управлении болевыми синдромами у лиц пожилого возраста. Авторы анализируют текущее состояние применения алгоритмов машинного обучения для автоматизированной оценки интенсивности боли, что является критически важным для пациентов с когнитивными нарушениями. В работе рассматриваются различные методологии: от использования компьютерного зрения для анализа мимики лица до обработки биометрических данных и носимых устройств. Исследование подчеркивает потенциал ИИ в персонализации терапевтических стратегий и мониторинге состояния пациентов в режиме реального времени. Ключевым выводом является необходимость разработки специализированных моделей, учитывающих возрастную специфику физиологии и когнитивного статуса пожилых людей. Работа имеет высокую практическую значимость для интеграции интеллектуальных систем в гериатрическую практику и системы долгосрочного ухода.
Исследователи представили cfMIND — инновационный фреймворк на базе машинного обучения, предназначенный для высокоточного обнаружения заболеваний через анализ метилирования внеклеточной ДНК (cfDNA) в плазме крови. В отличие от традиционных методов, которые агрегируют данные на уровне регионов и теряют важные сигналы, cfMIND работает на уровне отдельных чтений (read-level), что позволяет сохранять редкие специфические для определенных типов клеток биомаркеры. При тестировании на обширном наборе данных (n = 868) система продемонстрировала выдающуюся эффективность с показателем AUROC до 0,966. Фреймворк сохраняет высокую точность даже при сверхнизкой глубине секвенирования (0,2x) и эффективно выявляет рак на ранних стадиях. Особое внимание уделено универсальности: cfMIND работает на различных технологиях секвенирования и не требует переобучения при смене когорт. Помимо онкологии, метод показал успешность в диагностике незлокачественных заболеваний, в частности, бокового амиотрофического склероза (БАС). Функциональный анализ подтвердил, что выявленные системой признаки обогащены в ключевых регуляторных регионах, связанных с патогенезом заболеваний.
В статье представлен TorchRef — новый программный фреймворк с открытым исходным кодом, построенный на базе библиотеки PyTorch и предназначенный для макромолекулярной кристаллографической рефлексии. Ключевой особенностью разработки является использование автоматического дифференцирования для всех уточняемых параметров, включая атомные координаты, факторы смещения и оккупацию. Методология включает расчет структурных факторов на основе БПФ (FFT), моделирование объемного растворителя и использование стереохимических ограничений из библиотеки CCP4 Monomer Library. Результаты валидации на 1000 структурах из PDB показали, что TorchRef достигает медианного значения R-free в пределах 1% от эталонного ПО Phenix. При этом производительность вычислений на современных GPU превышает скорость CCTBX более чем в 100 раз. Фреймворк также позволяет реализовывать инновационные методы, такие как рефлексия моделей с временным разрешением (time-resolved crystallography) на основе разностей амплитуд, что недоступно классическим программам. Это делает TorchRef мощным инструментом для быстрого прототипирования новых методов в структурной биологии.
Данная работа представляет собой методологическое руководство по применению искусственного интеллекта для анализа данных жидкостной биопсии (LB) в онкологии. Авторы подчеркивают, что, несмотря на огромный потенциал неинвазивного обнаружения опухолевых биомаркеров, в литературе наблюдается дефицит исследований, успешно интегрирующих признаки LB с помощью ИИ. В статье предлагается структурированный подход к проектированию исследований, включая определение критериев отбора пациентов и выбор объема выборки. Особое внимание уделяется стратегиям предобработки данных: нормализации, коррекции батч-эффектов, а также методам обработки выбросов и пропущенных значений. Авторы рекомендуют использование различных алгоритмов машинного и глубокого обучения для селекции признаков с целью повышения робастности моделей. В работе также акцентируется необходимость проведения строгой внутренней и внешней валидации, а также оценки клинической применимости и интерпретируемости моделей, что является критическим фактором для их внедрения в реальную медицинскую практику.
В исследовании представлен SynOmicsBench — первый специализированный фреймворк для сравнительного анализа методов генерации синтетических данных, адаптированный для высокоразмерных транскриптомных данных в онкологии. Авторы провели бенчмаркинг на основе трех клинических испытаний рака, оценивая методы по трем ключевым направлениям: биологическая полезность, статистическая точность и устойчивость к атакам на конфиденциальность. Результаты показали, что ни один метод не является универсальным, однако Gaussian Copula продемонстрировал наиболее сбалансированные показатели, за ним следует модель Avatar. Исследование выявило, что простая метрическая схожесть не гарантирует сохранение сложных молекулярных зависимостей. Синтетические данные успешно воспроизводят направленность биомедицинских сигналов, хотя и с ослабленным размером эффекта и повышенной вариативностью между репликами. Данная работа предлагает инструмент поддержки принятия решений для выбора оптимальных методов синтеза данных, способствуя безопасному использованию ИИ в прецизионной онкологии без нарушения приватности пациентов.
В исследовании представлен kaleidoCell — новый высокопроизводительный Python-фреймворк с GPU-ускорением, предназначенный для консенсусной нетривиальной матричной факторизации (NMF). Инструмент позволяет идентифицировать воспроизводимые мета-программы в крупных гетерогенных наборах данных секвенирования единичных клеток (scRNA-seq). При бенчмаркинге против R-пакета geneNMF kaleidoCell продемонстрировал двукратное увеличение скорости обработки данных. В качестве прикладного примера авторы использовали анализ глиобластомы при лечении панобинастатом (ингибитором HDAC). Исследование выявило, как ингибирование HDAC изменяет состояния злокачественных клеток на уровне единичных клеток, подтвердив подавление программ, схожих с нейральными и олигодендроцитарными предшественниками. Кроме того, с помощью kaleidoCell был обнаружен ранее неизвестный механизм действия панобинастата — потеря идентичности астроцитоподобных программ. Работа подчеркивает значимость новых вычислительных методов для понимания транскрипционной гетерогенности опухолей и разработки персонализированных стратегий лечения.
Исследователи представили BulkMonSTR — новый вычислительный фреймворк, предназначенный для точного обнаружения соматического мозаицизма в областях коротких тандемных повторов (STR) человека. Основная сложность задачи заключается в дифференциации реальных мутаций от высокого уровня естественного полиморфизма и шума секвенирования. Методология BulkMonSTR сочетает в себе специфическое моделирование ошибок STR с классификатором на базе машинного обучения (Random Forest), обученным на комплексных наборах данных, включая родословные и симуляции in silico. Инструмент позволяет идентифицировать мутации на уровне нуклеотидов, включая инсерции, делеции и однонуклеотидные варианты (SNV), работая как с контрольными, так и с клиническими образцами. Бенчмаркинг показал, что BulkMonSTR значительно превосходит существующие методы по показателям точности (precision) и F1-score при различных уровнях покрытия и частотах аллелей. Благодаря способности выявлять широкий спектр мутаций, включая те, что возникают на нереференсных аллелях, данный метод открывает новые возможности для масштабного изучения влияния соматических STR-мутаций на процессы старения и развитие заболеваний.
В исследовании представлен комплексный бенчмарк эффективности белковых языковых моделей (PLM), таких как ESM2 (650M и 3B параметров) и ProtT5-XL, для предсказания номеров Enzyme Commission (EC), что критически важно для аннотации геномов и биоинженерии. Авторы протестировали 1296 моделей, комбинируя три архитектуры PLM с девятью нейросетевыми архитектурами на четырех уровнях иерархии EC и различных порогах идентичности последовательностей. Результаты показали, что простые MLP-классификаторы достигают точности до 98.0% на уровне EC1 и около 97.0% на уровне EC4, сопоставимо с BLAST для белков из обучающей выборки. Однако при работе с эволюционно отдаленными эукариотами (например, Giardia lamblia) модели на базе PLM показали колоссальное превосходство над BLAST, увеличив точность на 31.8 процентных пункта по сравнению с базовой линией в 90 тысяч последовательностей. Для прокариотических протеомов среднее преимущество PLM перед BLAST составило +16.9 процентных пункта на уровне EC4. Исследование также выявило, что архитектура MLP является наиболее эффективной, а использование ESM2-650M практически не уступает по результатам значительно более крупной модели ESM2-3B.
В статье рассматривается преодоление технологического барьера в патоморфологии благодаря массовой оцифровке медицинских данных. Авторы отмечают, что в то время как электронные медицинские карты и визуализация уже активно используют ИИ, патологические исследования долгое время отставали из-за отсутствия цифровых форматов. На текущий момент оцифровано более 100 000 слайдов, окрашенных гематоксилином и эозином, что открывает путь к созданию универсальных базовых моделей (foundation models). Эти модели способны генерировать общие векторные представления признаков (feature embeddings) непосредственно из патологических изображений. Основная цель применения таких технологий — прогнозирование молекулярных сигнатур глиом на основе цифровых гистологических слайдов. Это позволит автоматизировать сложный процесс молекулярного профилирования, делая диагностику опухолей головного мозга более быстрой и доступной.
Исследователи представили инновационную платформу MPDR (Machine learning-based Personalized Dietary Recommendation), предназначенную для решения проблемы персонализации питания через управление микробиомом. Основная сложность заключается в непредсказуемости взаимодействия диеты и микробиоты из-за уникальности каждого организма. Предложенный метод использует машинное обучение для неявного изучения этих взаимодействий на основе данных о составе микробиома и рационе питания крупной когорты участников. Обученная модель способна предсказывать изменения микробного состава при изменении потребляемых продуктов. Для формирования рекомендаций авторы используют метод оптимизации, который подбирает диету для достижения целевых показателей микробиоты. Валидация системы проводилась как на синтетических данных, созданных с помощью моделей «потребитель-ресурс», так и на реальных данных исследований ассоциаций диеты и микробиома. Результаты подтверждают высокий потенциал использования ИИ для создания прецизионных планов питания, направленных на улучшение здоровья через коррекцию микробиома.
Исследование посвящено совершенствованию методов диагностики болезни Лайма путем разработки специфических аптамеров, связывающихся с белком CspZ на поверхности бактерии Borrelia burgdorferi. Авторы предлагают комплексный методологический подход, объединяющий традиционный процесс SELEX с передовыми методами машинного обучения. В основе работы лежит использование машины ограниченного распространения (Restricted Boltzmann Machine, RBM) для цифрового моделирования финальных раундов отбора последовательностей. Для повышения эффективности модели в RBM интегрированы методы текстового анализа, такие как word2vec и n-граммы, что позволяет сопоставлять генерируемые in silico последовательности с реальными кандидатами, отобранными in vitro. Особое внимание уделено интеграции геометрических представлений последовательностей в модель RBM, что критически важно при работе с ограниченными наборами данных в условиях огромного пространства возможных последовательностей. Итоговый алгоритм включает в себя компьютерный отбор потенциально сильных связывающих последовательностей с последующей их обязательной экспериментальной валидацией, что значительно повышает точность и скорость разработки диагностических инструментов.
В исследовании представлен TwinSAR (Stoichiometric Analysis and Retrieval) — новый алгоритм для поиска химических «двойников» на основе глобального элементного состава молекул, что является альтернативой традиционным топологическим фингерпринтам. Авторы решают проблему ограничений индекса Танимото, который часто не справляется с поиском биоизостеров (scaffold-hopping). Методология TwinSAR включает три инновации: бинарную блокировку фингерпринтов для ускорения поиска в масштабах миллиардов молекул, адаптивное RBF-ядро с калибровкой через медианную эвристику и фильтр Z-score с логарифмическим преобразованием лоджитов для статистической оценки сходства. Результаты тестов показали, что обнаруженные пары молекул в 12,7 раза более схожи по соотношению элементов, чем случайные пары (p < 0.001). При использовании 8-элементного представления алгоритм работает в 3,55 раза быстрее, сохраняя чувствительность полномасштабной 254-элементной модели. В качестве практического применения алгоритм был протестирован на библиотеке из 327 071 соединения для мишени белка BCL-2, что позволило эффективно сократить выборку до 390 перспективных кандидатов.
В данном исследовании рассматривается применение физико-информированных нейронных сетей (PINN) для решения сложной обратной задачи оценки параметров в нелинейных биологических динамических системах. Авторы фокусируются на модели репрессилятора — синтетического генетического осциллятора, состоящего из трех циклически подавляющих друг друга генов. Методология заключается в использовании PINN для представления траекторий состояний с одновременным наложением штрафов за нарушение определяющих дифференциальных уравнений (ODE). В ходе экспериментов оценивалась точность восстановления параметров производства (beta) и коэффициента Хилла (n) при различных условиях: уровне шума, плотности выборки и частичной наблюдаемости репрессоров. Результаты показали, что PINN эффективно реконструируют траектории при правильной структуре модели, однако восстановление параметров оказывается более чувствительным к шуму и разреженным данным, чем аппроксимация самих траекторий. Исследование выявило, что осцилляторный режим предоставляет больше информации для обучения, но значительно повышает чувствительность оптимизации по сравнению со стабильным режимом. Работа подтверждает потенциал PINN как инструмента для обратного инжиниринга малых генно-регуляторных моделей, подчеркивая необходимость учета неопределенности при их использовании в биомедицинской практике.