обучение с подкреплением

Новость9511 июн.Обзор

Исследователи представили GermRL — легкий и модульный фреймворк на основе обучения с подкреплением (RL), предназначенный для устранения проблемы «герминального смещения» в предобученных языковых моделях антител. Проблема заключается в том, что современные генеративные модели склонны воспроизводить исходные последовательности (germline), что ограничивает поиск новых мутаций, необходимых для создания эффективных терапевтических кандидатов. В работе используется метод групповой относительной оптимизации политики (GRPO), адаптированный для предотвращения «взлома вознаграждения» (reward hacking) и повышения эффективности обучения. Результаты тестирования показали колоссальный рост метрики pass@1: при пороге в 5 мутаций от герминала точность генерации выросла с 0.398 до 0.992, а при высоком пороге в 35 мутаций — с 0.034 до 0.950. При этом сгенерированные антитела сохраняют структурную правдоподобность, биологическую реализуемость и профили пригодности для разработки (developability), сопоставимые с природными образцами. Данная технология открывает новые возможности для навигации по ландшафту последовательностей антител, позволяя находить уникальные терапевтические молекулы, выходящие за рамки стандартных эволюционных паттернов.

ИИ в разработке лекарств антитела обучение с подкреплением генеративные модели биоинформатика терапевтическое проектирование

bioRxiv — Bioinformatics Оригинал

Новость9515 мая

В данной работе представлен GatorDuo — инновационный фреймворк на основе самообучения с контрастивным двойным графом, предназначенный для точной идентификации пространственных доменов в пространственной транскриптомике (ST). Авторы решают проблему ненадежного построения соседств в графах, вызванную разреженностью данных и техническим шумом, что часто приводит к появлению ложных связей между доменами. Методология GatorDuo включает механизм уточнения графа на основе глобальной согласованности и использование маски согласия псевдометок для подавления ошибочных ребер. Для автоматического выбора детализации кластеризации применяется стратегия обучения с подкреплением (контекстуальные многорукие бандиты), что исключает необходимость ручной настройки. Объединение представлений реализовано через модуль Mixture-of-Experts (MoE) с гибридной маршрутизацией. Тестирование на восьми публичных бенчмарках (от spot- до single-cell разрешения) показало, что GatorDuo превосходит десять существующих базовых моделей по ключевым метрикам кластеризации, обеспечивая высокую устойчивость к шуму и создавая информативные эмбеддинги для последующего биологического анализа.

пространственная транскриптомика машинное обучение графовые нейронные сети+3

bioRxiv — Bioinformatics Оригинал

Новость9230 мар.

Исследование представляет новую методологию на основе многокритериального обучения с подкреплением для задачи обратного сворачивания белков — фундаментальной проблемы в дизайне белков и разработке лекарств. Авторы предлагают фреймворк Symmetric Self-play Preference Optimization (SSP), который разделяет оптимизацию нескольких структурных целей путём обучения отдельных моделей предпочтений с различными сигналами вознаграждения, при этом обеспечивая взаимодействие через общий пул выборки. Ключевое отличие от существующих подходов заключается в том, что традиционные методы используют одну модель с скаляризованным вознаграждением, что смещает оптимизацию в сторону доминирующих целей и ограничивает разнообразие решений. Эксперименты на задачах обратного сворачивания как для естественных, так и для de novo биндеров демонстрируют, что SSP стабильно улучшает согласованность последовательностей по сравнению с одно-модельными и существующими базовыми методами. Дополнительный анализ показывает, что различные структурные цели лишь частично согласованы и индуцируют различные направления оптимизации, что подтверждается корреляцией метрик и white-box анализами. Результаты исследования имеют прямое значение для разработки новых терапевтических белков и лекарств, так как качество дизайна белков напрямую влияет на их функциональность и специфичность связывания. Методология SSP открывает перспективы для более эффективного дизайна белков с заданными структурными и функциональными свойствами.

дизайн белков обратное сворачивание обучение с подкреплением+2

bioRxiv — Bioinformatics Оригинал

Новость9230 мар.

Исследователи разработали новый AI-фреймворк OPTIMIS для решения проблемы управления сложными биологическими системами на разных масштабах. Методология объединяет дискретный стохастический алгоритм Гиллеспи для микромасштабной динамики рецепторов с непрерывными нелинейными дифференциальными уравнениями для макромасштабного поведения организма. Для достижения скорости, необходимой для глубокого обучения с подкреплением (RL), гибридная система сжимается в дифференцируемый суррогат Neural ODE, действующий как быстрый цифровой двойник. В качестве демонстрации концепции фреймворк применён к инженерной клеточной терапии, где агенты RL обучаются динамическим закрытым петлям лечения внутри суррогатной среды. Ключевой результат: отслеживание микроскопической непредсказуемой клеточной активности как раннего предупреждающего сигнала позволило ИИ непрерывно корректировать дозу препарата, предвосхищая и останавливая опасные иммунные реакции до их неконтролируемого развития. Вычислительное усовершенствование улучшило показатели успешного контроля до более чем 70% в высоко нестабильных симулированных фенотипах, что представляет собой значимый прорыв для персонализированной медицины. Практическая значимость: метод предоставляет общий фреймворк для адаптивного вмешательства в многомасштабные биологические системы, открывая путь к автоматизированному принятию клинических решений в реальном времени.

персонализированная терапия клеточная терапия глубокое обучение+3

bioRxiv — Bioinformatics Оригинал

Новость8829 мар.

Исследование посвящено применению обучения с подкреплением (Reinforcement Learning) для генеративных языковых моделей ДНК, что имеет прямое значение для геномики и персонализированной медицины. Авторы использовали технику Group Relative Policy Optimization (GRPO) с функцией вознаграждения, основанной на ограничениях из инженерной биологии, для генерации плазмид — простых генетических конструкций, широко используемых в биотехнологии. Ключевой результат: модель достигла 77% качества при контроле, по сравнению с 5% у предобученной базовой модели, что демонстрирует значительное улучшение. Примечательно, что помимо явно оптимизированных признаков, сгенерированные последовательности демонстрируют биологическую реалистичность в термодинамической стабильности, паттернах использования кодонов и распределении длин открытых рамок считывания (ORF) — свойствах, не включённых в функцию вознаграждения. Эти эмерджентные свойства указывают на способность RL пост-тренинга направлять модели ДНК в биологически когерентные области пространства последовательностей. Результаты открывают перспективы для дизайна генетических конструкций, разработки генной терапии и создания синтетических биологических систем.

геномика обучение с подкреплением биоинформатика+3

bioRxiv — Bioinformatics Оригинал

Новость8827 мар.

Исследование представляет новый подход к молекулярному докингу — предсказанию конформации связывания малых молекул с белковыми мишенями, что критически важно для открытия новых лекарств. Авторы предлагают фреймворк обучения с подкреплением для тренировки диффузионных моделей непосредственно на недифференцируемых объективах физической валидности. Подход позволяет корректировать модель DiffDock-Pocket для генерации физически корректных поз лигандов с сохранением ключевых белково-лигандных взаимодействий. Результаты показывают существенное увеличение доли генерируемых поз, которые являются физически валидными, при этом не требуется дополнительных вычислений во время инференса. Важнейший результат — улучшение структурной точности: возрастает доля структур с позами, близкими к нативным, особенно для белковых мишеней, отличающихся от данных обучения. Доработанная модель превосходит как классические алгоритмы докинга, так и другие методы машинного обучения на наборе данных PoseBusters. Исследование демонстрирует, что обучение с подкреплением может научить диффузионные модели лучше соблюдать физические ограничения без необходимости постобработки результатов. Это открывает перспективы для более точного предсказания взаимодействия лекарств с белками-мишенями в фармацевтических исследованиях.

молекулярный докинг диффузионные модели обучение с подкреплением+3

bioRxiv — Bioinformatics Оригинал

обучение с подкреплением

GermRL: Смягчение герминального смещения в авторегрессионных языковых моделях антител с помощью обучения с подкреплением

GatorDuo: Усовершенствование двойного графа с глобальной согласованностью и использованием согласия псевдометок для пространственной транскриптомики

Симметричная самоиграющая онлайн-оптимизация предпочтений для обратного сворачивания белков

OPTIMIS: Оптимизация персонализированной терапии через интегрированное многомасштабное интеллектуальное моделирование

Эмерджентная биологическая реалистичность в RL-обученных языковых моделях ДНК

Обучение диффузионных моделей физике: обучение с подкреплением для физически валидной диффузионной докинга