белки

Новость9213 июн.

В исследовании представлен ProMiSE — первый специализированный бенчмарк, предназначенный для оценки способности моделей ИИ учитывать динамическую природу белков и их переходы между различными конформационными состояниями. Авторы разработали уникальный набор данных, объединяющий механизмы внутренних, лиганд-индуцированных и белок-индуцированных изменений. В ходе тестирования передовых моделей, включая AlphaFold3 и современные генеративные подходы, было выявлено, что существующие системы плохо справляются с моделированием множественных состояний и часто игнорируют биологический контекст. Анализ внутренних представлений показал, что обучение на доминирующих структурах смещает предсказания моделей в сторону наиболее часто встречающихся состояний, подавляя альтернативные биологически важные формы. При этом использование модели BioEmu продемонстрировало, что снижение предвзятости на этапе декодирования позволяет существенно улучшить точность сэмплирования многосостояний без необходимости радикальной переработки архитектуры парных представлений. Данная работа критически важна для развития структурной биологии и разработки ИИ-инструментов для точного дизайна лекарств.

структурная биология генеративный ИИ AlphaFold3+3

bioRxiv — Bioinformatics Оригинал

Новость8512 июн.

В исследовании представлен новый математический фреймворк — иерархия миноров Лапласа, предназначенный для количественной оценки сложных многочастичных взаимодействий, определяющих аллостерию в белковых сетях. Авторы разработали систему топологических мер, где миноры низшего порядка дают стандартные метрики, а миноры высших порядков позволяют вычислять индексы кооперации (от 0 до 1). Третий порядок минора определяет корреляцию аллостерических путей, а четвертый — степень коммуникации между путями через промежуточные остатки. На примере домена PSD95pdz3 была проанализирована эволюционная адаптация специфичности лигандов при мутациях G330T и H372A. Результаты показали, что мутация G330T создает распределенные связи, которые затем использует мутация H372A, при этом четвертый порядок анализа выявил His317 как критический узел, связывающий пути переключения классов. Данный метод позволяет не просто предсказывать механизмы, а объяснять, как именно аллостерические зависимости возникают в процессе эволюции белков.

биоинформатика структурная биология аллостерия+2

bioRxiv — Bioinformatics Оригинал

Новость9510 июн.

В исследовании представлен VelocityFM — инновационный метод прогнозирования динамики белков, решающий проблему высокой стоимости классического моделирования молекулярной динамики (MD). Авторы применяют технологию rectified flow matching непосредственно в пространстве скоростей, работая с кадрами остатков и торсионными углами. Архитектура модели объединяет шесть блоков Invariant Point Attention (IPA) с двухслойным временным энкодером на основе self-attention для обработки последовательностей. Обучение проводилось на наборе из 710 белков ATLAS, включающем 2090 отфильтрованных реплик траекторий. При горизонте прогнозирования в 128 кадров модель достигла медианного показателя TM-score 0.929 на тестовой выборке, при этом 100% сгенерированных структур сохранили TM > 0.7 и не имели стерических столкновений (clash-free). Геометрия остова также продемонстрировала высокую точность: медианная доля предпочтительных значений по Рамачандрану составила 91.09%. Результаты подтверждают, что геометрическое обучение в пространстве скоростей позволяет эффективно предсказывать динамику новых белков, сохраняя структурную целостность и геометрическую валидность.

белки молекулярная динамика машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость8510 июн.

В исследовании представлена CLASPP — инновационная унифицированная модель глубокого обучения, предназначенная для одновременного предсказания различных типов посттрансляционных модификаций (PTM) на основе первичной аминокислотной последовательности белка. Основная проблема существующих методов — фрагментация и дисбаланс данных между редкими и распространенными типами модификаций — решается с помощью стратегии контрастного обучения (contrastive learning) и метода недосэмплирования на основе обучения без учителя. Модель использует предобученную языковую модель белка для извлечения структурных и последовательных признаков, что позволяет ей эффективно работать с 12 основными типами PTM. Результаты тестирования подтверждают, что CLASPP превосходит существующие инструменты по точности предсказания во многих биологических организмах. В качестве проверки применимости модели авторы экспериментально подтвердили сайты убиквитинирования в малоизученной киназе DCLK3. Исследование также предлагает стандартизированный набор данных и иерархическую организацию данных, что значительно улучшает репрезентативность редких модификаций и открывает новые возможности для функциональной протеомики.

протеомика глубокое обучение биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость7529 мая

В статье представлен StrucTTY — инновационный инструмент для визуализации структур белков, разработанный специально для работы в текстовых терминалах и высокопроизводительных вычислительных средах (HPC). Проблема отсутствия инструментов для интерактивного просмотра белковых структур в SSH-сессиях решается с помощью самодостаточного исполняемого файла, который преобразует трехмерные координаты PDB и mmCIF файлов в ASCII-графику. Программа позволяет пользователям осуществлять вращение, масштабирование и перемещение структур, а также изучать особенности цепей и вторичные структуры белков. Ключевой особенностью является поддержка одновременного отображения до девяти белковых структур и возможность прямой визуализации структурного выравнивания на основе данных Foldseek. Это позволяет проводить быстрый сравнительный анализ в «headless» средах без необходимости использования графических интерфейсов. Инструмент представляет значительный интерес для специалистов по структурной биологии, работающих с большими данными в удаленных вычислительных кластерах.

структурная биология визуализация данных биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость9525 мая

В исследовании представлен OmniBind — инновационная многозадачная нейросетевая платформа, предназначенная для точного прогнозирования аффинности связывания лекарственных средств с белками-мишенями. В отличие от существующих методов, OmniBind использует механизм затворной фузии (gated fusion) для интеграции признаков аминокислотных последовательностей с дискретными токенами третичной структуры белков. Модель была обучена на колоссальном наборе данных, включающем более 2 миллионов пар соединение-белок из базы BindingDB, что позволяет ей одновременно предсказывать четыре фармакологических показателя за один проход. В ходе тестирования на временных и состязательных бенчмарках OmniBind превзошла современные аналоги, доказав, что она улавливает физико-химические принципы взаимодействия, а не просто запоминает паттерны совпадений. Особую значимость представляет способность модели к интерпретируемости: анализ внимания показал точное распознавание сайтов связывания, включая реакцию на мутацию T315I в остатке ABL1. Практическая проверка на протеоме из 20 421 человеческого белка показала, что модель успешно идентифицировала 85,7% известных клинических мишеней клозапина в топ-200 предсказаниях, эффективно разделяя его профиль от структурно схожего кломипрамина. Данная разработка открывает новые возможности для оптимизации лекарственных кандидатов, оценки побочных эффектов (off-target) и репозиционирования существующих препаратов.

drug discovery машинное обучение структурная биология+3

bioRxiv — Bioinformatics Оригинал

Новость9521 мая

Исследователи представили ProtmRNA — инновационный подход к анализу последовательностей мРНК, основанный на методе кросс-модального обучения с переносом знаний. В основе метода лежит использование предобученной белковой языковой модели ESM-2 для обработки последовательностей мРНК, что опирается на фундаментальную биологическую связь между мРНК и аминокислотными цепями. В ходе тестирования на специализированных наборах данных и восьми дополнительных бенчмарках, ProtmRNA продемонстрировала производительность, сопоставимую или превосходящую существующие SOTA-модели (state-of-the-art) для мРНК. При этом ключевым преимуществом является высокая эффективность: модель требует менее половины вычислительных ресурсов, затрачиваемых на стандартное предварительное обучение. Работа доказывает возможность эффективного переноса знаний между различными типами биологических последовательностей, предлагая новый ресурсосберегающий парадигмальный подход для биоинформатики и разработки лекарств. Предварительно обученная модель и наборы данных для регрессии CDS-регионов доступны в открытом доступе.

биоинформатика NLP мРНК+3

bioRxiv — Bioinformatics Оригинал

Новость9519 мая

Исследование посвящено изучению способности моделей глубокого обучения предсказывать динамику и гибкость белков, что критически важно для понимания их биологических функций. Авторы провели количественный анализ, сравнивая профили среднеквадратичных флуктуаций (MSF) на уровне остатков, полученные из сгенерированных ансамблей структур, с экспериментальными данными и результатами молекулярной динамики. В качестве бенчмарков использовались 70 наборов данных ЯМР, 43 пары рентгеноструктурных данных в разных конформациях, 82 структуры криоэлектронной микроскопии и симуляции молекулярной динамики для 10 белков. Сравнивались возможности AlphaFold3, AlphaFold2 и RosettaFold; результаты показали, что AlphaFold3 демонстрирует наилучшую точность в предсказании гибкости. Было установлено, что точность прогнозов возрастает при увеличении количества генерируемых моделей до 15. Работа доказывает, что ансамбли структур, созданные ИИ, могут эффективно служить суррогатами для оценки физической подвижности белков, и сопровождается публикацией трех Jupyter Notebooks для практического применения метода.

глубокое обучение структурная биология AlphaFold3+3

bioRxiv — Bioinformatics Оригинал

Новость9518 мая

В исследовании представлен HORI-EN — обновленный программный инструмент, предназначенный для глубокого анализа стабильности белков и их кооперативных сетей взаимодействий. Методология сочетает гибридное энергетическое скорирование (физико-химические и знания-ориентированные методы) с использованием нормализованного показателя взаимодействия (NIS) на основе функций кумулятивного распределения. В ходе валидации на наборе данных SKEMPI v2 инструмент продемонстрировал высокую точность в определении мутационных «горячих точек» (hotspots), показав ROC-AUC 0,780 на полном наборе и 0,844 на очищенном бенчмарке. Анализ обогащения показал 3,1-кратное увеличение точности для топ-1% прогнозов, а анализ сетей взаимодействий позволил восстановить 77,4% неконтактных горячих точек через идентификацию одношаговых связующих взаимодействий. Помимо прогнозирования мутаций, HORI-EN эффективно отличает нативные структуры от декой-моделей и выявляет консервативные энергетические сигнатуры в эволюционных исследованиях сериновых протеаз и липаз. Инструмент доступен в виде веб-сервера и открытого исходного кода, что делает его ценным ресурсом для вычислительной биологии и дизайна белков.

структурная биология белки вычислительная биология+2

bioRxiv — Bioinformatics Оригинал

Новость8518 мая

В исследовании представлен TreeGazer — инновационный фреймворк, предназначенный для оптимизации процесса отбора белковых последовательностей для экспериментального анализа. В отличие от традиционных методов, использующих «черные ящики» белковых языковых моделей, TreeGazer интегрирует байесовскую оптимизацию непосредственно с топологией филогенетических деревьев. Это позволяет методу эффективно балансировать между эксплуатацией известных полезных свойств и исследованием областей с высокой неопределенностью модели. В ходе двух симуляций TreeGazer продемонстрировал превосходство над существующими стратегиями, создавая наборы данных, которые более точно представляют распределение свойств белков. Особую ценность метод представляет для работы в условиях дефицита данных (low-data settings), где он позволяет точно идентифицировать функциональные переходы между кладами. Благодаря использованию латентных представлений, связанных с филогенетической структурой, система обеспечивает биологически интерпретируемые прогнозы и может работать на обычных ноутбуках, не уступая по эффективности ресурсоемким подходам на основе эмбеддингов.

белки байесовская оптимизация биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость9217 мая

В исследовании представлен PrEditR — новый инструмент с открытым исходным кодом, предназначенный для высокопроизводительного дизайна гидовых РНК (sgRNA) для специализированных скринингов с использованием редакторов оснований CRISPR. В отличие от существующих инструментов, которые ориентированы на ДНК, PrEditR работает на уровне аминокислотных последовательностей белков, что позволяет напрямую связывать генетические изменения с функциональными свойствами белков. Платформа позволяет пользователям выбирать конкретные аминокислотные остатки и автоматически проектировать протоспейсерные последовательности для создания миссенс-мутаций в эндогенных генах. Это критически важно для изучения посттрансляционных модификаций (PTM), функции которых до сих пор остаются малоизученными. Разработанный подход обеспечивает бесшовную интеграцию с результатами масс-спектрометрической протеомики, позволяя проводить масштабные фенотипические скрининги. Использование PrEditR значительно ускоряет процесс функционального анализа белков, предоставляя точный инструмент для направленного редактирования аминокислотного состава.

CRISPR редактирование генома протеомика+3

bioRxiv — Bioinformatics Оригинал

Новость9515 мая

Исследование представляет инновационный подход к предсказанию конформаций биомолекул, используя генеративные диффузионные модели, обученные на экспериментальных данных. Авторы предлагают метод «скрученного диффузионного сэмплера» (twisted diffusion sampler) в рамках модели Boltz-2, который позволяет моделировать альтернативные функционально важные состояния молекул без необходимости дополнительного переобучения нейросети. Методология основана на переосмыслении поиска конформаций как процесса сэмплирования из диффузионного распределения, обусловленного произвольным байесовским правдоподобием. В ходе экспериментов ученые успешно воспроизвели растянутые состояния фрагментов ДНК, мышечного белка титина и белка протокадгерина-15, а также открытые состояния ионного канала MscL, что согласуется с экспериментальными данными. Данный подход фактически является диффузионным аналогом управляемой молекулярной динамики. Результаты работы открывают новые возможности для изучения не равновесных и недостаточно представленных в экспериментах состояний макромолекулярных систем, что критически важно для понимания механизмов их работы.

структурная биология диффузионные модели байесовский вывод+3

bioRxiv — Bioinformatics Оригинал

Новость9512 апр.

В исследовании рассматривается критическая проблема мультимодального обучения в биоинформатике, а именно — деградация точности предсказаний при некорректном слиянии данных. Авторы анализируют процесс предсказания связывания Т-клеточного рецептора (TCR) с пептидом, где высокоточные последовательности белковых языковых моделей конфликтуют с зашумленными структурными графами, полученными из предсказанных фолдов. Для решения этой проблемы предложен фреймворк TRACE, использующий метод контрастивного выравнивания в стиле CLIP для обеспечения согласованности между последовательными и структурными представлениями каждой биологической сущности. Эксперименты на наборе данных TCHard RN показали, что наивное объединение последовательностей и графов часто уступает базовой модели, работающей только с последовательностями, или вовсе демонстрирует случайные результаты. Однако использование TRACE позволяет стабилизировать обучение и значительно повысить точность, даже при наличии сильного шума в графах или дефиците положительных меток. Результаты работы доказывают, что для надежной биоинформатики критически важен не просто набор модальностей, а способ ограничения их взаимодействия в процессе оптимизации.

биоинформатика машинное обучение TCR+3

bioRxiv — Bioinformatics Оригинал

Новость9512 апр.

Исследователи представили TFBindFormer — новую гибридную архитектуру на базе трансформера, предназначенную для высокоточного предсказания взаимодействий между транскрипционными факторами (ТФ) и ДНК. В отличие от существующих моделей, которые опираются преимущественно на последовательности ДНК и характеристики хроматина, TFBindFormer использует механизм перекрестного внимания (cross-attention) для интеграции специфических данных о белках, полученных из их последовательностей и структур. Это позволяет модели учитывать белок-зависимую специфичность связывания, которую ранее игнорировали вычислительные методы. Тестирование проводилось на сотнях клеточно-специфичных ТФ и сотнях миллионов геномных участков (bins). Результаты показали значительное превосходство над базовыми моделями, работающими только с ДНК, выраженное в существенном росте показателей AUPRC и AUROC. Данная разработка предлагает масштабируемый и эффективный фреймворк для полногеномного картирования регуляторных взаимодействий, что критически важно для понимания механизмов экспрессии генов без дорогостоящих экспериментов ChIP-seq.

биоинформатика трансформеры геномика+2

bioRxiv — Bioinformatics Оригинал

Новость958 апр.

Статья представляет собой обзор эволюции и влияния инициативы AlphaFold на структурную биологию и медицину, отмечая достижение AlphaFold 2024 года Нобелевской премии. Модели развивались от AF1 через AF2 (достигшую почти экспериментальной точности в сворачивании одиночных цепей белка) к AF3, которая расширяет предсказания на белок-лигандные, белок-нуклеиновые кислоты и белок-белковые комплексы. Архитектурные различия между версиями включают использование глубоких нейронных сетей в AF1, Evoformer для моделирования эволюционно связанных последовательностей в AF2 и Pairformer для парных аминокислотных взаимодействий в AF3. Ключевые результаты включают широкое внедрение инструментов AlphaFold, расширение структурного покрытия и повышение доступности через базу данных AlphaFold Database (AFDB). Основные приложения в медицине включают ускорение трансляционных исследований, особенно в разработке лекарств на основе структуры (SBDD) и изучении сложных макромолекулярных комплексов. Несмотря на достижения, остаются нерешённые задачи предсказания динамики белка и множественных конформационных состояний. Статья подчёркивает, что AlphaFold продолжает продвигать структурную биологию, особенно в биотехнологии и медицине, несмотря на существующие ограничения.

структурная биология drug discovery белки+4

Frontiers in AI — Medicine

Новость6522 мар.

В исследовании представлен новый метод машинного обучения ViSNet-PIMA для моделирования не только локальных, но и некольких взаимодействий в биомолекулах с использованием физически обоснованного мультипольного агрегатора (PIMA). Традиционные поля сил на основе машинного обучения (MLFF) ограничены моделированием локальных взаимодействий, что снижает точность расчетов для биомолекулярной динамики. ViSNet-PIMA демонстрирует превосходство над существующими передовыми MLFF моделями при предсказании энергий и сил для различных типов биомолекул и конформаций на наборах данных MD22 и AIMD-Chig. При интеграции PIMA-блоков в другие MLFF модели достигается прирост производительности на 55,1%, что подтверждает универсальность предложенного подхода. Исследователи также внедрили ViSNet-PIMA в симуляционную программу AI2BMD, используя схему трансферного обучения с предобучением и дообучением, что позволило заменить механические расчеты нековалентных взаимодействий в белковых фрагментах. Новый подход снижает ошибки расчетов энергии и сил в AI2BMD более чем на 50% для различных конформаций белков и процессов фолдинга/разворачивания белков. Данная работа расширяет возможности ab initio расчетов для целых биомолекул и усиливает применение ИИ-симуляций молекулярной динамики в биохимических исследованиях.

машинное обучение биомолекулярное моделирование вычислительная химия+2

bioRxiv — Bioinformatics Оригинал

OmniGene-4: Единая био-языковая модель MoE с интерпретируемостью на уровне роутера

ProMiSE: Бенчмарк для оценки многосостояний белков в биологическом контексте

Геометрия аллостерии: иерархия миноров Лапласа для многочастичной коммуникации в белках

VelocityFM: Прогнозирование краткосрочных траекторий белков с помощью потокового сопоставления в пространстве скоростей

CLASPP: Унифицированная модель для предсказания посттрансляционных модификаций

StrucTTY: интерактивный просмотрщик структур белков, работающий непосредственно в терминале

Панфармакологическое прогнозирование взаимодействия лекарств и мишеней с использованием масштабного 3D-информированного кодирования белков

ProtmRNA: Кросс-модальный перенос знаний от белков к матричной РНК (мРНК)

Структурные ансамбли глубокого обучения как прокси-показатели гибкости белков

HORI-EN: Энергетическое профилирование на атомном уровне и идентификация сетей взаимодействий высшего порядка в структурах белков

TreeGazer: Исследование ландшафтов «последовательность-функция» белков через филогенетическую структуру

PrEditR: Белково-ориентированная платформа для дизайна sgRNA при использовании редакторов оснований CRISPR

Байесовское управление предсказанием структуры механических биомолекул с использованием скрученного диффузионного процесса

Когда мультимодальное слияние дает сбой: контрастивное выравнивание как необходимый стабилизатор для предсказания связывания TCR--пептид

TFBindFormer: Трансформер с механизмом перекрестного внимания для предсказания связывания транскрипционных факторов с ДНК

Трансформационное влияние ИИ-модели AlphaFold 3: эволюция, текущий статус и перспективы в структурной биологии

Улучшение моделирования некольких взаимодействий для ab initio биомолекулярных расчетов и симуляций с помощью ViSNet-PIMA