вычислительная биология

Новость8511 июн.

Исследование посвящено фундаментальной проблеме белковых языковых моделей (pLMs): способны ли они обобщать статистическую грамматику белков или же просто запоминают обучающие последовательности. Авторы применили метод псевдоперплексии в качестве зонда для выявления уровня запоминания в модели ProtT5. Методология включала сравнение псевдоперплексии на прокси-датасете (из обучающей выборки) и на контрольной выборке из подлинно новых последовательностей, отобранных по параметрам длины, размера кластера и таксономической принадлежности. В качестве статистического базиса использовались n-грамные языковые модели, которые подтвердили новизну контрольных последовательностей на локальном уровне. Результаты показали статистически значимую разницу в псевдоперплексии между увиденными и невиданными последовательностями, однако сам сигнал запоминания оказался умеренным. Это исследование критически важно для понимания надежности pLMs при проектировании новых белков и их применения в биомедицинских задачах.

белковые языковые модели вычислительная биология машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость6525 мая

В статье представлен MOAflow — модернизированный биоинформатический конвейер, разработанный для анализа данных MOA-seq (MNase-defined cistrome-Occupancy). Исследователи перепроектировали существующий процесс обработки данных, внедрив систему управления рабочими процессами Nextflow и технологии контейнеризации. Основной упор был сделан на модульность и масштабируемость, что позволяет эффективно обрабатывать массивы геномных данных, генерируемых современными технологиями секвенирования. Использование Docker и Nextflow обеспечивает высокую переносимость и воспроизводимость результатов в гетерогенных вычислительных средах. Бенчмаркинг на данных оригинального исследования показал, что выходы MOAflow практически идентичны результатам предыдущих методов, но при этом значительно упрощена настройка и снижена вычислительная сложность. Данная разработка демонстрирует, как современные системы управления рабочими процессами (WMS) могут оптимизировать биоинформатический анализ, снижая операционные затраты и время обработки.

биоинформатика геномика Nextflow+3

bioRxiv — Bioinformatics Оригинал

Новость9518 мая

В исследовании представлен HORI-EN — обновленный программный инструмент, предназначенный для глубокого анализа стабильности белков и их кооперативных сетей взаимодействий. Методология сочетает гибридное энергетическое скорирование (физико-химические и знания-ориентированные методы) с использованием нормализованного показателя взаимодействия (NIS) на основе функций кумулятивного распределения. В ходе валидации на наборе данных SKEMPI v2 инструмент продемонстрировал высокую точность в определении мутационных «горячих точек» (hotspots), показав ROC-AUC 0,780 на полном наборе и 0,844 на очищенном бенчмарке. Анализ обогащения показал 3,1-кратное увеличение точности для топ-1% прогнозов, а анализ сетей взаимодействий позволил восстановить 77,4% неконтактных горячих точек через идентификацию одношаговых связующих взаимодействий. Помимо прогнозирования мутаций, HORI-EN эффективно отличает нативные структуры от декой-моделей и выявляет консервативные энергетические сигнатуры в эволюционных исследованиях сериновых протеаз и липаз. Инструмент доступен в виде веб-сервера и открытого исходного кода, что делает его ценным ресурсом для вычислительной биологии и дизайна белков.

структурная биология белки вычислительная биология+2

bioRxiv — Bioinformatics Оригинал

Новость9516 мая

В исследовании представлен s2f-agent — инновационная система оркестрации на базе ИИ-агентов, предназначенная для решения проблемы фрагментации в области геномных моделей Sequence-to-Function (S2F). Основная проблема текущих моделей заключается в несовместимости входных и выходных данных, а также различных средах выполнения, что затрудняет их практическое применение. Авторы разработали систему, которая использует канонические ключи ввода, специализированные сценарии (playbooks) и нормализованные контракты для объединения рабочих процессов. s2f-agent успешно интегрирует 11 передовых моделей, включая AlphaGenome, Borzoi и Evo 2, переводя открытые геномные запросы в воспроизводимый и исполняемый анализ. Валидация системы через строгую оценку маршрутизации и обоснованности (groundedness) подтвердила способность агента эффективно устранять разрыв между сложными архитектурами моделей и реальными потребностями исследователей. Это решение превращает разрозненную экосистему в доступный операционный слой для высокоточных биоинформатических исследований.

геномика ИИ-агенты биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость4516 мая

Исследование посвящено фундаментальной проблеме создания искусственной агентности через внедрение термодинамических ограничений в большие языковые модели (LLM). Авторы предлагают метаболическую модель, где генерация токенов ограничена конечным энергетическим бюджетом, имитирующим биологическую потребность в самосохранении. В ходе экспериментов на базе модели Qwen2.5-1.5B было установлено, что наличие интероцептивной обратной связи позволяет модели поддерживать функциональную самограничность и продлевать «выживание» с 20 до более чем 31 шага. Важным результатом стало обнаружение того, что временная структура шума влияет на устойчивость системы сильнее, чем его амплитуда (OU-шум показал 20.5 шагов против 8.6 у белого шума). Также выявлен порог сжатия на уровне ~3.2 нат и доказано, что обратная связь помогает модели поддерживать экономию ресурсов, снижая наклон зависимости вариационной свободной энергии от затраченной энергии. Работа закладывает теоретический фундамент для разработки ИИ-агентов, чье поведение продиктовано стремлением к минимизации энергетических потерь, подобно живым организмам.

искусственный интеллект LLM нейробиология+3

bioRxiv — Bioinformatics Оригинал

Новость9515 мая

В статье представлен ChemProFlow — инновационный вычислительный фреймворк, который меняет подход к анализу мембранного транспорта, переходя от белково-центричной модели к субстрат-центричной. Авторы интегрировали методы геометрического глубокого обучения (geometric deep learning) с геномным картированием на основе ортологии для предсказания транспортной способности молекул. Система ChemProFlow способна не только определять, будет ли молекула транспортироваться, но и классифицировать механизмы транспорта согласно базе данных Transporter Classification Database, а также идентифицировать конкретные микроорганизмы, кодирующие соответствующие системы. Данный подход позволяет масштабируемо выстраивать связи между субстратом, транспортером и организмом, что критически важно для фармакологии при прогнозировании транспорта лекарств и для биотехнологии при проектировании новых штаммов. Исследование демонстрирует высокую обобщающую способность метода на ранее неизвестных субстратах, обеспечивая высокопроизводительный анализ молекулярного транспорта в различных биологических контекстах.

геометрическое глубокое обучение биотехнология фармакология+3

bioRxiv — Bioinformatics Оригинал

Новость7515 мая

В исследовании представлен детерминированный вычислительный рабочий процесс для оптимизации пептида Matrixyl (пальмитоил пентапептид-4), используемого в антивозрастной косметике. Основная проблема оригинального пептида KTTKS заключается в его низкой способности проникать через роговой слой кожи. Авторы применили комбинацию турнирного генетического алгоритма и алгоритма NSGA-II с использованием молекулярных дескрипторов RDKit для поиска наиболее эффективных аналогов в окрестности исходной последовательности. В ходе исследования было проанализировано 3 706 потенциальных кандидатов, что позволило выявить фронт Парето из 9 наиболее перспективных соединений. Ключевым результатом стало обнаружение того, что замена лизина на пролин в 4-й позиции (K4P) снижает топологическую полярную площадь поверхности (TPSA) на 25,6% и устраняет положительный заряд, что значительно улучшает прогнозируемую трансдермальную диффузию. Несмотря на снижение показателя сохранения функциональности с 1,00 до 0,67, полученные изменения критически важны для биодоступности. Для дальнейшей экспериментальной валидации авторы рекомендуют три конкретные последовательности: PTTPS, KTTPS и KTTPP.

вычислительная биология пептиды космецевтика+3

bioRxiv — Bioinformatics Оригинал

Новость7515 апр.

В данном исследовании рассматривается процесс рационального проектирования одноцепочечных вариабельных фрагментов антител (scFv), нацеленных на рецептор GUCY2C, который экспрессируется более чем в 90% случаев колоректального рака. Основное внимание уделено изучению влияния различных пептидных линкеров на фолдинг, стабильность и связывание антигена. Методология исследования базируется на использовании передовых вычислительных методов: молекулярного моделирования, белок-белкового докинга и симуляций молекулярной динамики (MD). Полученные результаты позволяют оценить конформационную стабильность и междоменную организацию конструктов в динамике. Авторы разработали вычислительную платформу, которая позволяет оптимизировать антитела для прецизионной онкологии, минимизируя ошибки при их дизайне. Работа имеет высокую значимость для разработки таргетной иммунотерапии при гастроинтестинальных злокачественных новообразованиях.

онкология вычислительная биология дизайн лекарств+2

bioRxiv — Bioinformatics Оригинал

Новость5510 апр.

Статья исследует растущий интерес фармацевтических гигантов к квантовым вычислениям как следующему этапу после ИИ в разработке лекарств. Крупные компании, такие как Pfizer и Boehringer Ingelheim, уже инвестируют в квантовые технологии и сотрудничают со стартапами для ускорения вычислительных процессов в биологии.

квантовые вычисления разработка лекарств фармацевтика+2

Fierce Biotech

Новость959 апр.

Исследователи представили CompBioBench — новый бенчмарк, состоящий из 100 разнообразных задач, предназначенных для оценки возможностей агентных ИИ-систем в области вычислительной биологии. В отличие от математики, биологические данные характеризуются высокой зашумленностью, поэтому авторы применили уникальную стратегию создания задач: использование синтетических данных и метод перемешивания метаданных реальных датасетов для получения задач с единственным верным ответом. Бенчмарк охватывает такие области, как геномика, транскриптомика, эпигеномика, анализ единичных клеток и машинное обучение, требуя от ИИ многошагового рассуждения, написания кода и использования внешних инструментов. В ходе тестирования ведущие агентные системы продемонстрировали высокие результаты: Codex CLI (на базе GPT 5.4) достиг точности 83%, а Claude Code (Opus 4.6) — 81%. На наиболее сложных задачах показатели составили 59% и 69% соответственно. Данная работа создает важную платформу для измерения прогресса ИИ в биоинформатике и задает стандарты для разработки будущих систем оценки.

вычислительная биология агентные системы бенчмарк+3

bioRxiv — Bioinformatics Оригинал

Новость554 апр.

Исследование посвящено роли консервативных молекул воды (CWM) в белковых структурах человека и их влиянию на патогенность генетических вариаций. Авторы систематически сопоставили однонуклеотидные полиморфизмы (SNP) с сайтами связывания лигандов и консервативными водными позициями в базе данных Protein Data Bank. Результаты показали, что патогенные варианты значительно обогащены в позициях CWM, особенно в участках связывания лигандов. Для установления механизмов исследователи провели молекулярно-динамическое моделирование на примере глукосилцерамидазы (GCase), кодируемой геном GBA1 и связанной с болезнью Гоше и риском болезни Паркинсона. Удаление одной консервативной молекулы воды в диком типе белка воспроизвело ключевые структурные особенности патогенного варианта L444P, тогда как стабилизация этой воды в мутанте восстановила нативное поведение. Эти данные предоставляют прямые доказательства того, что нарушение консервативных молекул воды может вызывать долгосрочные структурные изменения, соответствующие мутациям, ассоциированным с заболеваниями. Работа идентифицирует консервативные молекулы воды как функциональные структурные элементы, чьё нарушение представляет собой рецидивирующий механизм дисфункции белка.

вычислительная биология структурная биология генетика+3

bioRxiv — Bioinformatics Оригинал

Новость6531 мар.

Исследование представляет PatchMAN2 — улучшенную версию вычислительного протокола для докинга пептидов к белкам, который решает задачу поиска связывающих сайтов и конформаций пептидов. Методология основана на биомеханическом подходе, рассматривающем докинг как проблему фолдинга белка, с использованием структурных мотивов из решённых структур в качестве шаблонов, которые затем уточняются с помощью Rosetta FlexPepDock. Ключевые инновации PatchMAN2 включают стратегическую фильтрацию фрагментов и локальные режимы докинга, которые фокусируют поиск на релевантных поверхностях или известных связывающих регионах. Бенчмаркинг показал, что PatchMAN2 удаляет 30-70% ненужных фрагментов при сохранении точности, что существенно сокращает время вычислений и повышает практическую эффективность докинга пептид-белковых взаимодействий. Это критически важно для разработки лекарств, так как пептид-белковые взаимодействия часто являются транзиторными и структурно неуловимыми, требуя вычислительных подходов для их идентификации. Результаты делают метод более практичным для рутинного использования в исследовательских и фармацевтических лабораториях.

вычислительная биология drug discovery пептиды+2

bioRxiv — Bioinformatics Оригинал

Новость5530 мар.

Исследование представляет метод CCIDeconv — иерархическую модель машинного обучения (классификация и регрессия) для деконволюции клеточно-клеточных взаимодействий (CCI) на субклеточном уровне в данных транскриптомики одиночных клеток. Метод использует модифицированный скоринг CellChat для атрибуции взаимодействий к субклеточным компартментам — цитоплазме и ядру. Исследователи валидировали подход на девяти публичных наборах данных пространственной транскриптомики (sST) из различных тканей человека, проведя кросс-валидацию с исключением одного набора данных (leave-one-dataset-out). Результаты показали, что обучение на множестве типов тканей обеспечивает устойчивую производительность деконволюции на невидимых наборах данных. Ключевое открытие: модели без пространственных признаков достигли схожей производительности с моделями, включающими пространственные данные, при увеличении количества обучающих наборов, что открывает возможность точного предсказания субклеточных взаимодействий CCI из данных scRNA-seq при достаточном объёме обучающих данных. Метод позволяет исследователям анализировать паттерны субклеточных взаимодействий для понимания биологических механизмов в контексте здоровья и различных заболеваний.

машинное обучение single-cell analysis вычислительная биология+2

bioRxiv — Bioinformatics Оригинал

Новость6530 мар.

Исследование представляет Cellector — вычислительный метод для выявления редких клеток с чужеродным генотипом в данных одноядерного секвенирования РНК (scRNAseq). Инструмент разработан для анализа биологических условий, включающих пациентов после трансплантации, естественный микрохимеризм между материнскими и фетальными тканями, а также образцы рака с достаточной мутационной нагрузкой. Ключевое применение — мониторинг пациентов с лейкозом после гемопоэтической трансплантации костного мозга (HCT), где выявление клеток с генотипом пациента (измеримая остаточная болезнь, MRD) критически важно для определения рецидива. Cellector демонстрирует высокую точность обнаружения микрохимерических клеток на уровне 0,05% или ниже от общего количества клеток. Точная оценка MRD имеет прямое значение для принятия клинических решений по лечению пациентов с лейкозом. Метод использует алгоритмический подход к анализу геномных данных, что представляет собой пример применения вычислительных методов в персонализированной онкологии и трансплантологии.

биоинформатика онкология геномика+3

bioRxiv — Bioinformatics Оригинал

Новость9230 мар.

Исследование представляет новую методологию на основе многокритериального обучения с подкреплением для задачи обратного сворачивания белков — фундаментальной проблемы в дизайне белков и разработке лекарств. Авторы предлагают фреймворк Symmetric Self-play Preference Optimization (SSP), который разделяет оптимизацию нескольких структурных целей путём обучения отдельных моделей предпочтений с различными сигналами вознаграждения, при этом обеспечивая взаимодействие через общий пул выборки. Ключевое отличие от существующих подходов заключается в том, что традиционные методы используют одну модель с скаляризованным вознаграждением, что смещает оптимизацию в сторону доминирующих целей и ограничивает разнообразие решений. Эксперименты на задачах обратного сворачивания как для естественных, так и для de novo биндеров демонстрируют, что SSP стабильно улучшает согласованность последовательностей по сравнению с одно-модельными и существующими базовыми методами. Дополнительный анализ показывает, что различные структурные цели лишь частично согласованы и индуцируют различные направления оптимизации, что подтверждается корреляцией метрик и white-box анализами. Результаты исследования имеют прямое значение для разработки новых терапевтических белков и лекарств, так как качество дизайна белков напрямую влияет на их функциональность и специфичность связывания. Методология SSP открывает перспективы для более эффективного дизайна белков с заданными структурными и функциональными свойствами.

дизайн белков обратное сворачивание обучение с подкреплением+2

bioRxiv — Bioinformatics Оригинал

Новость8530 мар.

Исследователи представили ClumPyCells — новый статистический фреймворк для анализа пространственной организации клеток в тканях с коррекцией на морфологические различия. Ключевая проблема, которую решает инструмент: различия в размерах клеток вводят значительные смещения при количественной оценке агрегации клеток или их молекулярных признаков, что может приводить к ошибочным интерпретациям данных пространственной транскриптомики и протеомики. Методология включает алгоритмы, позволяющие измерять агрегацию клеток и маркеров в ткани, одновременно корректируя влияние размера морфологии и исключая мешающие типы клеток или не связанные с исследованием области ткани. Валидация проводилась на нескольких типах опухолей, включая меланому и колоректальный рак, демонстрируя способность инструмента выявлять новые паттерны и структуры ткани без морфологических помех. Это имеет практическое значение для онкологических исследований, где точное понимание пространственной организации клеток критично для понимания развития опухоли, гомеостаза и патогенеза заболеваний. Инструмент позволяет исследователям интерпретировать пространственную агрегацию, обходя помехи от интерферирующих типов клеток.

пространственная транскриптомика онкология вычислительная биология+3

bioRxiv — Bioinformatics Оригинал

Новость5825 мар.

Статья представляет EvoMut — вычислительную платформу residue-level для оценки окислительной уязвимости белков и возможности их мутации в терапевтических и промышленных применениях. Метод интегрирует структурные особенности, локальный функциональный контекст, химическую восприимчивость и эволюционную консервативность для оценки риска окисления аминокислотных остатков (метионин, цистеин, тирозин, триптофан). Ключевая особенность EvoMut — явное разделение оценки риска окисления и feasibility мутации: кандидаты оцениваются только после ранжирования высоко-рисковых остатков по эволюционным паттернам замещения. Применение к множеству белков с экспериментальной валидацией показало, что окислительно-чувствительные остатки существенно различаются по инженерному потенциалу. Платформа различает остатки, которые одновременно чувствительны к окислению и эволюционно пермиссивны, от химически уязвимых, но функционально ограниченных. Это обеспечивает механистические инсайты для рационального дизайна окислительно-устойчивых терапевтических белков. Метод доступен как бесплатный веб-сервер.

биоинформатика инженерия белков разработка лекарств+1

bioRxiv — Bioinformatics Оригинал

Новость6524 мар.

Исследователи разработали вычислительную методику для реконструкции сигнальных сетей EGFR (рецептор эпидермального фактора роста) с использованием алгоритмов обхода графов — поиска в ширину (BFS) и поиска с лучом (Beam Search). Метод преобразует количественные данные фосфопротеомики в бинарные состояния активации белков во времени, затем применяет алгоритмы к базе данных белковых взаимодействий STRING для восстановления путей передачи сигналов. Исследование проведено на трёх условиях: клетки HeLa, клетки тройного негативного рака молочной железы MDA-MB-468 и те же клетки после обработки ингибитором SHP099. Получено 260 путей в HeLa (117 уникальных топологий), 293 пути в MDA-MB-468 (155 уникальных) и 292 пути при ингибировании SHP2 (85 уникальных). Клетки HeLa показали архитектуру с доминированием SRC и эффекторов ERBB2/SHC1, тогда как MDA-MB-468 демонстрировали двойную ось PIK3CA/PTPN11. Ингибирование SHP2 устранило PTPN11-опосредованные пути и вызвало доминирование PIK3CA (69,2% первого шага) с компенсаторным вовлечением ERBB3. Методология позволяет систематически преобразовывать фосфопротеомные данные в механистические гипотезы для моделирования лекарственной устойчивости в онкологии.

онкология вычислительная биология алгоритмы поиска+3

bioRxiv — Bioinformatics Оригинал

Новость9522 мар.

Исследователи представили RNASTOP — новую вычислительную платформу, сочетающую глубокое обучение с эвристическим поиском для одновременного предсказания и оптимизации химической стабильности молекул мРНК. Проблема химической нестабильности мРНК ограничивает долгосрочную эффективность мРНК-вакцин, и существующие методы предсказания деградации имеют ограниченную точность. RNASTOP демонстрирует улучшение точности на 13% по сравнению с лучшей моделью в конкурсе Stanford OpenVaccine и показывает устойчивую обобщаемость при предсказании деградации полноразмерных последовательностей мРНК. При применении к оптимизации кодонов мРНК для вакцины против вируса ветряной оспы (Varicella-Zoster Virus) система снизила минимальную свободную энергию на 75,73% при сохранении высокой эффективности трансляции. Разработанная модель представляет собой мощный инструмент для ускорения разработки мРНК-терапевтических средств, что особенно актуально в контексте пандемии COVID-19 и создания вакцин нового поколения. Исследование открывает перспективы для рационального дизайна мРНК-препаратов с улучшенной стабильностью и эффективностью. Исходный код проекта доступен в открытом доступе на GitHub.

мРНК глубокое обучение вакцины+4

bioRxiv — Bioinformatics Оригинал

вычислительная биология

Масштабируемый вывод микробиомных сетей: устранение разреженности и вычислительных узких мест в моделях со случайными эффектами

Псевдоперплексия как инструмент исследования запоминания в белковых языковых моделях

MOAflow: как перепроектирование конвейера с использованием Nextflow оптимизирует анализ данных

HORI-EN: Энергетическое профилирование на атомном уровне и идентификация сетей взаимодействий высшего порядка в структурах белков

S2F-agent: Агент с привязкой к навыкам для вычислительных геномных рабочих процессов Sequence-to-Function

Метаболическая самоорганизация: возникновение автономной агентности в метаболически ограниченных LLM

Сквозное картирование мембранного транспорта: от химической структуры до микроорганизмов

Ограниченное эволюционное проектирование аналогов Matrixyl: баланс между проницаемостью и сохранением функциональности с помощью вычислительной оптимизации

Структурно-ориентированный вычислительный анализ влияния линкеров в scFv, нацеленных на гуанилатциклазу C

'Может ли это действительно сработать?': Почему Big Pharma переходит в квантовую сферу

Агентные системы эффективно решают четко определенные и верифицируемые задачи в вычислительной биологии

Консервативные молекулы воды как структурные лиганды, модулирующие патогенные вариации в сайтах связывания белков человека

Стратегическое фильтрация шаблонов ускоряет фрагмент-ориентированный докинг пептидов

CCIDeconv: Иерархическая модель для деконволюции субклеточных клеточно-клеточных взаимодействий в данных одиночных клеток

Cellector: инструмент для обнаружения чужеродных генотипических клеток в данных scRNAseq с применением в лейкозе и микрохимеризме

Симметричная самоиграющая онлайн-оптимизация предпочтений для обратного сворачивания белков

ClumPyCells устраняет пространственную агрегацию в сложных тканях, преодолевая размерные смещения

EvoMut: Вычислительная платформа для инженерии окислительной стабильности белков

RNASTOP: Рамка глубокого обучения для предсказания и оптимизации химической стабильности мРНК