машинное обучение

Новость9518 мая

В исследовании представлена интеллектуальная система VDT2, использующая анализ гласных звуков для неинвазивной диагностики сахарного диабета 2 типа. Благодаря сочетанию регрессии Lasso и ансамбля логистической регрессии с механизмом внимания, метод достиг точности обнаружения 78%, превосходя традиционные подходы.

диагностика сахарный диабет машинное обучение+2

Frontiers in Digital Health

Новость8518 мая

В исследовании представлен TreeGazer — инновационный фреймворк, предназначенный для оптимизации процесса отбора белковых последовательностей для экспериментального анализа. В отличие от традиционных методов, использующих «черные ящики» белковых языковых моделей, TreeGazer интегрирует байесовскую оптимизацию непосредственно с топологией филогенетических деревьев. Это позволяет методу эффективно балансировать между эксплуатацией известных полезных свойств и исследованием областей с высокой неопределенностью модели. В ходе двух симуляций TreeGazer продемонстрировал превосходство над существующими стратегиями, создавая наборы данных, которые более точно представляют распределение свойств белков. Особую ценность метод представляет для работы в условиях дефицита данных (low-data settings), где он позволяет точно идентифицировать функциональные переходы между кладами. Благодаря использованию латентных представлений, связанных с филогенетической структурой, система обеспечивает биологически интерпретируемые прогнозы и может работать на обычных ноутбуках, не уступая по эффективности ресурсоемким подходам на основе эмбеддингов.

белки байесовская оптимизация биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость9518 мая

В статье представлен IntegrateRigor — инновационный программный фреймворк, предназначенный для оптимизации интеграции данных секвенирования РНК единичных клеток (single-cell) и пространственной транскриптомики. Основная проблема текущих методов заключается в конфликте между удалением межбатчевых вариаций и сохранением биологической идентичности клеток, что ведет к ошибкам переинтеграции или недоинтеграции. IntegrateRigor решает эту задачу без использования предварительных аннотаций, применяя статистически обоснованный подход: сначала отбираются гены со стабильными паттернами экспрессии на основе оценки стабильности батчей, а затем подбираются оптимальные гиперпараметры. В ходе тестирования на данных колоректального рака метод позволил обнаружить ранее не описанные ниши на границе опухоли и иммунной системы, которые были скрыты при использовании стандартных настроек. Исследование показало, что фреймворк превосходит пять современных методов интеграции, обеспечивая более точное восстановление типов и состояний клеток. Это делает IntegrateRigor критически важным инструментом для крупномасштабных мультиомиксных исследований и повышения воспроизводимости биологических открытий.

биоинформатика опухолевое микроокружение транскриптомика+3

bioRxiv — Bioinformatics Оригинал

Новость8518 мая

Исследователи представили MIMOSA (Model-Independent Motif Similarity Assessment) — инновационный программный фреймворк на языке Python, предназначенный для прямого сравнения мотивов сайтов связывания транскрипционных факторов (TFBS) независимо от их математической архитектуры. В отличие от существующих инструментов, ориентированных преимущественно на матрицы весов позиций (PWM), MIMOSA позволяет сопоставлять различные типы моделей, такие как марковские модели, которые лучше улавливают зависимости между позициями в последовательности ДНК. Методология основана на сравнении откалиброванных профилей распознавания, созданных различными моделями на одном и том же наборе последовательностей ДНК, вместо прямого сравнения параметров самих моделей. Бенчмаркинг на базе базы данных HOCOMOCO показал, что MIMOSA достигает показателей точности (MRR и Recall@k), сопоставимых с признанными инструментами Tomtom и MACRO-APE. Применение метода к данным ChIP-seq для фактора ATF3 подтвердило способность системы различать альтернативные варианты спейсеров и интегрировать их в более гибкие модели, такие как BaMM и Slim. Данная разработка устраняет критический барьер в геномном анализе, позволяя систематически интегрировать разнообразные модели мотивов и интерпретировать их гетерогенность.

биоинформатика геномика транскрипционные факторы+2

bioRxiv — Bioinformatics Оригинал

Новость4517 мая

Исследование посвящено использованию данных ДНК-метабаркодинга пыльцы, собранной пчелами, для разработки моделей машинного обучения, способных точно определять географическое происхождение образцов. Авторы проанализировали данные о сравнительной численности последовательностей ДНК пыльцы из трех различных проектов на западе США. В ходе работы тестировались алгоритмы обучения с учителем, включая Random Forest (Случайный лес) и k-Nearest Neighbors (k-ближайших соседей). Результаты показали высокую точность предсказания локации исключительно на основе состава пыльцевых сообществ без привлечения дополнительных параметров. Было установлено, что модели, обученные на сырых данных последовательностей, работают почти так же эффективно, как и модели на таксономически кластеризованных данных, что позволяет избежать трудоемкого процесса таксономического присвоения. Данная методология предлагает новый фреймворк для использования биологических данных в задачах геолокации и криминалистики.

машинное обучение геолокация ДНК-метабаркодинг+3

bioRxiv — Bioinformatics Оригинал

Новость9517 мая

В исследовании представлен масштабный сравнительный анализ методов отбора признаков и построения прогностических моделей на основе геномных данных, характеризующихся высокой размерностью и разреженностью. Авторы протестировали широкий спектр алгоритмов, включая классические статистические методы и современные подходы машинного обучения, на синтетических наборах данных с варьирующейся корреляцией и силой сигнала. Для практической верификации результаты были проверены на реальном когортном исследовании рака из базы данных The Cancer Genome Atlas (TCGA). Оценка проводилась по комплексному набору метрик: индексу конкордантности (C-index), F1-score, ошибке Brier score, RMSE и скорости вычислений. Исследование показало, что методы CoxBoost и Adaptive LASSO демонстрируют наиболее стабильные результаты по всем показателям, в то время как LASSO и Elastic Net наиболее эффективны при оценке конкордантности и F1-score. Результаты работы предоставляют онкологам и биоинформатикам четкие рекомендации по выбору оптимального математического аппарата в зависимости от специфических характеристик геномных данных.

биомаркеры машинное обучение онкология+3

bioRxiv — Bioinformatics Оригинал

Новость9517 мая

Данный обзорный труд, опубликованный в журнале 'Artificial Intelligence in Medicine', посвящен исследованию роли технологий искусственного интеллекта в управлении болевыми синдромами у лиц пожилого возраста. Авторы анализируют текущее состояние применения алгоритмов машинного обучения для автоматизированной оценки интенсивности боли, что является критически важным для пациентов с когнитивными нарушениями. В работе рассматриваются различные методологии: от использования компьютерного зрения для анализа мимики лица до обработки биометрических данных и носимых устройств. Исследование подчеркивает потенциал ИИ в персонализации терапевтических стратегий и мониторинге состояния пациентов в режиме реального времени. Ключевым выводом является необходимость разработки специализированных моделей, учитывающих возрастную специфику физиологии и когнитивного статуса пожилых людей. Работа имеет высокую практическую значимость для интеграции интеллектуальных систем в гериатрическую практику и системы долгосрочного ухода.

гериатрия управление болью машинное обучение+2

Artificial Intelligence in Medicine Оригинал

Новость9517 мая

Исследователи представили cfMIND — инновационный фреймворк на базе машинного обучения, предназначенный для высокоточного обнаружения заболеваний через анализ метилирования внеклеточной ДНК (cfDNA) в плазме крови. В отличие от традиционных методов, которые агрегируют данные на уровне регионов и теряют важные сигналы, cfMIND работает на уровне отдельных чтений (read-level), что позволяет сохранять редкие специфические для определенных типов клеток биомаркеры. При тестировании на обширном наборе данных (n = 868) система продемонстрировала выдающуюся эффективность с показателем AUROC до 0,966. Фреймворк сохраняет высокую точность даже при сверхнизкой глубине секвенирования (0,2x) и эффективно выявляет рак на ранних стадиях. Особое внимание уделено универсальности: cfMIND работает на различных технологиях секвенирования и не требует переобучения при смене когорт. Помимо онкологии, метод показал успешность в диагностике незлокачественных заболеваний, в частности, бокового амиотрофического склероза (БАС). Функциональный анализ подтвердил, что выявленные системой признаки обогащены в ключевых регуляторных регионах, связанных с патогенезом заболеваний.

диагностика машинное обучение онкология+3

bioRxiv — Bioinformatics Оригинал

Новость9517 мая

В статье представлен TorchRef — новый программный фреймворк с открытым исходным кодом, построенный на базе библиотеки PyTorch и предназначенный для макромолекулярной кристаллографической рефлексии. Ключевой особенностью разработки является использование автоматического дифференцирования для всех уточняемых параметров, включая атомные координаты, факторы смещения и оккупацию. Методология включает расчет структурных факторов на основе БПФ (FFT), моделирование объемного растворителя и использование стереохимических ограничений из библиотеки CCP4 Monomer Library. Результаты валидации на 1000 структурах из PDB показали, что TorchRef достигает медианного значения R-free в пределах 1% от эталонного ПО Phenix. При этом производительность вычислений на современных GPU превышает скорость CCTBX более чем в 100 раз. Фреймворк также позволяет реализовывать инновационные методы, такие как рефлексия моделей с временным разрешением (time-resolved crystallography) на основе разностей амплитуд, что недоступно классическим программам. Это делает TorchRef мощным инструментом для быстрого прототипирования новых методов в структурной биологии.

структурная биология машинное обучение кристаллография+3

bioRxiv — Bioinformatics Оригинал

Новость9517 мая

Данная работа представляет собой методологическое руководство по применению искусственного интеллекта для анализа данных жидкостной биопсии (LB) в онкологии. Авторы подчеркивают, что, несмотря на огромный потенциал неинвазивного обнаружения опухолевых биомаркеров, в литературе наблюдается дефицит исследований, успешно интегрирующих признаки LB с помощью ИИ. В статье предлагается структурированный подход к проектированию исследований, включая определение критериев отбора пациентов и выбор объема выборки. Особое внимание уделяется стратегиям предобработки данных: нормализации, коррекции батч-эффектов, а также методам обработки выбросов и пропущенных значений. Авторы рекомендуют использование различных алгоритмов машинного и глубокого обучения для селекции признаков с целью повышения робастности моделей. В работе также акцентируется необходимость проведения строгой внутренней и внешней валидации, а также оценки клинической применимости и интерпретируемости моделей, что является критическим фактором для их внедрения в реальную медицинскую практику.

онкология жидкостная биопсия машинное обучение+3

bioRxiv — Bioinformatics Оригинал

Новость9516 мая

В исследовании представлен SynOmicsBench — первый специализированный фреймворк для сравнительного анализа методов генерации синтетических данных, адаптированный для высокоразмерных транскриптомных данных в онкологии. Авторы провели бенчмаркинг на основе трех клинических испытаний рака, оценивая методы по трем ключевым направлениям: биологическая полезность, статистическая точность и устойчивость к атакам на конфиденциальность. Результаты показали, что ни один метод не является универсальным, однако Gaussian Copula продемонстрировал наиболее сбалансированные показатели, за ним следует модель Avatar. Исследование выявило, что простая метрическая схожесть не гарантирует сохранение сложных молекулярных зависимостей. Синтетические данные успешно воспроизводят направленность биомедицинских сигналов, хотя и с ослабленным размером эффекта и повышенной вариативностью между репликами. Данная работа предлагает инструмент поддержки принятия решений для выбора оптимальных методов синтеза данных, способствуя безопасному использованию ИИ в прецизионной онкологии без нарушения приватности пациентов.

онкология синтетические данные прецизионная медицина+3

bioRxiv — Bioinformatics Оригинал

Новость9516 мая

В исследовании представлен kaleidoCell — новый высокопроизводительный Python-фреймворк с GPU-ускорением, предназначенный для консенсусной нетривиальной матричной факторизации (NMF). Инструмент позволяет идентифицировать воспроизводимые мета-программы в крупных гетерогенных наборах данных секвенирования единичных клеток (scRNA-seq). При бенчмаркинге против R-пакета geneNMF kaleidoCell продемонстрировал двукратное увеличение скорости обработки данных. В качестве прикладного примера авторы использовали анализ глиобластомы при лечении панобинастатом (ингибитором HDAC). Исследование выявило, как ингибирование HDAC изменяет состояния злокачественных клеток на уровне единичных клеток, подтвердив подавление программ, схожих с нейральными и олигодендроцитарными предшественниками. Кроме того, с помощью kaleidoCell был обнаружен ранее неизвестный механизм действия панобинастата — потеря идентичности астроцитоподобных программ. Работа подчеркивает значимость новых вычислительных методов для понимания транскрипционной гетерогенности опухолей и разработки персонализированных стратегий лечения.

онкология глиобластома биоинформатика+3

bioRxiv — Bioinformatics Оригинал

Новость8516 мая

Исследователи представили BulkMonSTR — новый вычислительный фреймворк, предназначенный для точного обнаружения соматического мозаицизма в областях коротких тандемных повторов (STR) человека. Основная сложность задачи заключается в дифференциации реальных мутаций от высокого уровня естественного полиморфизма и шума секвенирования. Методология BulkMonSTR сочетает в себе специфическое моделирование ошибок STR с классификатором на базе машинного обучения (Random Forest), обученным на комплексных наборах данных, включая родословные и симуляции in silico. Инструмент позволяет идентифицировать мутации на уровне нуклеотидов, включая инсерции, делеции и однонуклеотидные варианты (SNV), работая как с контрольными, так и с клиническими образцами. Бенчмаркинг показал, что BulkMonSTR значительно превосходит существующие методы по показателям точности (precision) и F1-score при различных уровнях покрытия и частотах аллелей. Благодаря способности выявлять широкий спектр мутаций, включая те, что возникают на нереференсных аллелях, данный метод открывает новые возможности для масштабного изучения влияния соматических STR-мутаций на процессы старения и развитие заболеваний.

геномика машинное обучение диагностика+2

bioRxiv — Bioinformatics Оригинал

Новость9516 мая

В исследовании представлен комплексный бенчмарк эффективности белковых языковых моделей (PLM), таких как ESM2 (650M и 3B параметров) и ProtT5-XL, для предсказания номеров Enzyme Commission (EC), что критически важно для аннотации геномов и биоинженерии. Авторы протестировали 1296 моделей, комбинируя три архитектуры PLM с девятью нейросетевыми архитектурами на четырех уровнях иерархии EC и различных порогах идентичности последовательностей. Результаты показали, что простые MLP-классификаторы достигают точности до 98.0% на уровне EC1 и около 97.0% на уровне EC4, сопоставимо с BLAST для белков из обучающей выборки. Однако при работе с эволюционно отдаленными эукариотами (например, Giardia lamblia) модели на базе PLM показали колоссальное превосходство над BLAST, увеличив точность на 31.8 процентных пункта по сравнению с базовой линией в 90 тысяч последовательностей. Для прокариотических протеомов среднее преимущество PLM перед BLAST составило +16.9 процентных пункта на уровне EC4. Исследование также выявило, что архитектура MLP является наиболее эффективной, а использование ESM2-650M практически не уступает по результатам значительно более крупной модели ESM2-3B.

белковые языковые модели биоинформатика ферменты+3

bioRxiv — Bioinformatics Оригинал

Новость9516 мая

В статье рассматривается преодоление технологического барьера в патоморфологии благодаря массовой оцифровке медицинских данных. Авторы отмечают, что в то время как электронные медицинские карты и визуализация уже активно используют ИИ, патологические исследования долгое время отставали из-за отсутствия цифровых форматов. На текущий момент оцифровано более 100 000 слайдов, окрашенных гематоксилином и эозином, что открывает путь к созданию универсальных базовых моделей (foundation models). Эти модели способны генерировать общие векторные представления признаков (feature embeddings) непосредственно из патологических изображений. Основная цель применения таких технологий — прогнозирование молекулярных сигнатур глиом на основе цифровых гистологических слайдов. Это позволит автоматизировать сложный процесс молекулярного профилирования, делая диагностику опухолей головного мозга более быстрой и доступной.

диагностика онкология цифровая патология+3

The Lancet Digital Health Оригинал

Новость9516 мая

Исследователи представили инновационную платформу MPDR (Machine learning-based Personalized Dietary Recommendation), предназначенную для решения проблемы персонализации питания через управление микробиомом. Основная сложность заключается в непредсказуемости взаимодействия диеты и микробиоты из-за уникальности каждого организма. Предложенный метод использует машинное обучение для неявного изучения этих взаимодействий на основе данных о составе микробиома и рационе питания крупной когорты участников. Обученная модель способна предсказывать изменения микробного состава при изменении потребляемых продуктов. Для формирования рекомендаций авторы используют метод оптимизации, который подбирает диету для достижения целевых показателей микробиоты. Валидация системы проводилась как на синтетических данных, созданных с помощью моделей «потребитель-ресурс», так и на реальных данных исследований ассоциаций диеты и микробиома. Результаты подтверждают высокий потенциал использования ИИ для создания прецизионных планов питания, направленных на улучшение здоровья через коррекцию микробиома.

машинное обучение микробиом персонализированная медицина+2

bioRxiv — Bioinformatics Оригинал

Новость9516 мая

Исследование посвящено совершенствованию методов диагностики болезни Лайма путем разработки специфических аптамеров, связывающихся с белком CspZ на поверхности бактерии Borrelia burgdorferi. Авторы предлагают комплексный методологический подход, объединяющий традиционный процесс SELEX с передовыми методами машинного обучения. В основе работы лежит использование машины ограниченного распространения (Restricted Boltzmann Machine, RBM) для цифрового моделирования финальных раундов отбора последовательностей. Для повышения эффективности модели в RBM интегрированы методы текстового анализа, такие как word2vec и n-граммы, что позволяет сопоставлять генерируемые in silico последовательности с реальными кандидатами, отобранными in vitro. Особое внимание уделено интеграции геометрических представлений последовательностей в модель RBM, что критически важно при работе с ограниченными наборами данных в условиях огромного пространства возможных последовательностей. Итоговый алгоритм включает в себя компьютерный отбор потенциально сильных связывающих последовательностей с последующей их обязательной экспериментальной валидацией, что значительно повышает точность и скорость разработки диагностических инструментов.

диагностика машинное обучение биоинформатика+3

bioRxiv — Bioinformatics Оригинал

Новость8516 мая

В исследовании представлен TwinSAR (Stoichiometric Analysis and Retrieval) — новый алгоритм для поиска химических «двойников» на основе глобального элементного состава молекул, что является альтернативой традиционным топологическим фингерпринтам. Авторы решают проблему ограничений индекса Танимото, который часто не справляется с поиском биоизостеров (scaffold-hopping). Методология TwinSAR включает три инновации: бинарную блокировку фингерпринтов для ускорения поиска в масштабах миллиардов молекул, адаптивное RBF-ядро с калибровкой через медианную эвристику и фильтр Z-score с логарифмическим преобразованием лоджитов для статистической оценки сходства. Результаты тестов показали, что обнаруженные пары молекул в 12,7 раза более схожи по соотношению элементов, чем случайные пары (p < 0.001). При использовании 8-элементного представления алгоритм работает в 3,55 раза быстрее, сохраняя чувствительность полномасштабной 254-элементной модели. В качестве практического применения алгоритм был протестирован на библиотеке из 327 071 соединения для мишени белка BCL-2, что позволило эффективно сократить выборку до 390 перспективных кандидатов.

виртуальный скрининг химическая информатика алгоритмы+2

bioRxiv — Bioinformatics Оригинал

Новость9516 мая

В данном исследовании рассматривается применение физико-информированных нейронных сетей (PINN) для решения сложной обратной задачи оценки параметров в нелинейных биологических динамических системах. Авторы фокусируются на модели репрессилятора — синтетического генетического осциллятора, состоящего из трех циклически подавляющих друг друга генов. Методология заключается в использовании PINN для представления траекторий состояний с одновременным наложением штрафов за нарушение определяющих дифференциальных уравнений (ODE). В ходе экспериментов оценивалась точность восстановления параметров производства (beta) и коэффициента Хилла (n) при различных условиях: уровне шума, плотности выборки и частичной наблюдаемости репрессоров. Результаты показали, что PINN эффективно реконструируют траектории при правильной структуре модели, однако восстановление параметров оказывается более чувствительным к шуму и разреженным данным, чем аппроксимация самих траекторий. Исследование выявило, что осцилляторный режим предоставляет больше информации для обучения, но значительно повышает чувствительность оптимизации по сравнению со стабильным режимом. Работа подтверждает потенциал PINN как инструмента для обратного инжиниринга малых генно-регуляторных моделей, подчеркивая необходимость учета неопределенности при их использовании в биомедицинской практике.

машинное обучение биоинформатика динамические системы+2

bioRxiv — Bioinformatics Оригинал

машинное обучение

Методы искусственного интеллекта для классификации болезни Альцгеймера с использованием данных нейровизуализации: обзор

Исследование анализа характеристик и метода распознавания гласных звуков у пациентов с сахарным диабетом 2 типа

TreeGazer: Исследование ландшафтов «последовательность-функция» белков через филогенетическую структуру

IntegrateRigor: оптимизация интеграции без использования аннотаций для восстановления идентичности клеток выявляет ниши интерфейса рак-иммунитет

MIMOSA: Модель-независимая платформа для оценки сходства мотивов сайтов связывания транскрипционных факторов

Оценка потенциала данных последовательностей пыльцы, собранной пчелами, для обучения моделей машинного обучения с целью геолокации происхождения образцов

Бенчмарк методов идентификации биомаркеров и прогностического моделирования на разнообразных цензурированных данных

Искусственный интеллект в оценке и купировании боли у пожилых людей: обзор областей исследования

cfMIND: Фреймворк метилирования на уровне отдельных чтений для точного неинвазивного обнаружения заболеваний с помощью внеклеточной ДНК

TorchRef: Open-source фреймворк на базе PyTorch для кристаллографической рефлексии

Обучение на каплях: ИИ-ориентированная интеграция признаков жидкостной биопсии в исследованиях рака

Единый бенчмарк генерации синтетических данных для клинических транскриптомных когорт рака

Идентификация сигнатур, связанных с лечением глиобластомы, с помощью KaleidoCell

Точное обнаружение мозаичных мутаций в коротких тандемных повторах на основе данных массового секвенирования

Белковые языковые модели превосходят BLAST при предсказании функций эволюционно отдаленных ферментов: систематический бенчмарк предсказания номеров EC

Оцифрованные гистопатологические слайды готовы к использованию искусственного интеллекта: прогнозирование молекулярных сигнатур глиом

Персонализированные диетические рекомендации на основе машинного обучения для достижения желаемого состава микробиоты кишечника

Разработка ДНК-аптамеров для диагностики болезни Лайма с использованием комбинации экспериментальных и численных подходов

Физико-информированные нейронные сети для восстановления параметров в осцилляторной модели репрессилятора