протеомика

ai4medисследования · новости · регуляторика

протеомика — ai4med

протеомика

34 статей

Новость10025 маяОбзор

В исследовании представлена AINN-P1 — компактная белковая языковая модель (PLM) с 167 миллионами параметров, обученная исключительно на необработанных аминокислотных последовательностях из базы UniRef. В отличие от тяжеловесных моделей, требующих множественного выравнивания последовательностей (MSA) или структурных данных, AINN-P1 использует архитектуру мультипликативного LSTM (mLSTM). Эта рекуррентная архитектура без механизмов внимания обеспечивает линейную масштабируемость по длине последовательности и отсутствие роста кэша key-value при инференсе. В ходе тестирования на бенчмарке ProteinGym модель показала средний коэффициент корреляции Спирмена (rho) 0,441 в четырех категориях задач (активность, связывание, экспрессия и стабильность) и достигла выдающегося результата 0,625 в предсказании стабильности, что является лучшим показателем среди сравниваемых моделей, работающих только с последовательностями. Благодаря отсутствию квадратичной зависимости памяти от длины последовательности, модель идеально подходит для быстрого развертывания и использования в качестве эффективного фильтра на ранних этапах разработки лекарств. Исследование подчеркивает возможность использования компактных фундаментных моделей для высокопроизводительного скрининга без необходимости дорогостоящего дообучения всей сети.

белковая инженерия drug discovery NLP машинное обучение биоинформатика протеомика

bioRxiv — Bioinformatics Оригинал

Новость8512 июн.

В исследовании представлен PeptiDIA — инновационный фреймворк на базе машинного обучения, предназначенный для решения проблемы компромисса между пропускной способностью и глубиной анализа в протеомике. Основная задача метода заключается в повышении эффективности масс-спектрометрии с использованием метода независимой от данных (DIA) при работе с быстрыми хроматографическими градиентами. Авторы использовали градиентный бустинг на решающих деревьях, обучив модель на парах данных, полученных из идентичных образцов при длинных (эталонных) и быстрых градиентах. Модель интегрирует выходные данные DIA-NN с инженерными дескрипторами пептидов и применяет изотоническую регрессию для калибровки вероятностей. Тестирование на наборах данных человека и мыши (ткани, Orbitrap Exploris 480) показало, что PeptiDIA увеличивает количество идентифицированных пептидов на 25–34% при контролируемом уровне расхождения с референсом (RDR 1%). Кроме того, число белковых групп, содержащих хотя бы один «спасенный» пептид, выросло на 15–17%, что значительно расширяет аналитическую глубину без изменения протоколов сбора данных. Инструмент доступен в виде веб-приложения и командной строки.

машинное обучение протеомика масс-спектрометрия+2

bioRxiv — Bioinformatics Оригинал

Новость9512 июн.

В статье представлен DLDN-Bench — новый специализированный фреймворк, предназначенный для стандартизированной оценки моделей глубокого обучения, применяемых в секвенировании пептидов de novo. Метод de novo критически важен для масс-спектрометрии, так как позволяет идентифицировать новые пептиды без привязки к существующим базам данных белков. Авторы разработали набор эталонных датасетов на основе данных масс-спектрометрии биопсии мышц человека, полученных из репозитория PRIDE и аннотированных методом консенсуса нескольких поисковых движков. В рамках исследования был проведен системный сравнительный анализ четырех современных моделей глубокого обучения и традиционных подходов, используя метрики точности (precision) и полноты покрытия (coverage). Разработанный бенчмарк решает проблему гетерогенности методов оценки и обеспечивает сопоставимость новых нейросетевых инструментов. Результаты тестирования и сам фреймворк опубликованы в открытом доступе, что создает базу для дальнейшего развития ИИ-инструментов в области протеомики.

протеомика глубокое обучение масс-спектрометрия+2

bioRxiv — Bioinformatics Оригинал

Новость9511 июн.

В исследовании представлен инновационный метод прогнозирования выживаемости пациентов, основанный на данных пространственной протеомики (imaging mass cytometry). Авторы решают проблему ограничения традиционного анализа, который опирается на усредненные показатели экспрессии белков, игнорируя пространственную гетерогенность тканей. Предложенный фреймворк использует пространственную сплайн-регрессию для создания «пространственно скорректированных белковых сводок» (SAPS), включающих скорректированное среднее значение экспрессии и остаточную дисперсию. Эти параметры позволяют учесть как общие пространственные тренды, так и вариабельность между клетками, не объясненную архитектурой ткани. При тестировании на данных масс-цитометрии при раке молочной железы метод показал превосходство над существующими моделями в точности прогнозирования исходов. Результаты демонстрируют высокую трансляционную ценность метода, позволяя извлекать биологически интерпретируемые паттерны из сложных пространственных данных для персонализированной медицины.

протеомика онкология прогнозирование выживаемости+3

bioRxiv — Bioinformatics Оригинал

Новость8511 июн.

В данном исследовании представлен новый метод механистической интерпретируемости под названием VFUSE, предназначенный для аудита генеративных моделей белков на предмет создания опасных патогенов. Авторы обучают разреженные автоэнкодеры (SAE) на активациях диффузионных трансформеров, чтобы выявлять скрытые признаки, связанные с вирулентностью. Методология была протестирована на популярных моделях RoseTTAFold3 и RFDiffusion3, используемых для фолдинга и синтеза белков. Результаты показали, что линейные зонды, работающие в латентном пространстве SAE, обнаруживают опасные дизайны значительно эффективнее, чем стандартные представления моделей. Исследователям удалось идентифицировать моносемантические признаки, которые активируются исключительно на опасных структурах, достигнув показателя AUROC 0,84 при высокой статистической значимости (q < 10^-13). Данная работа имеет критическое значение для обеспечения биобезопасности при использовании ИИ в протеомике и синтетической биологии.

биобезопасность генеративный ИИ протеомика+2

bioRxiv — Bioinformatics Оригинал

Новость8511 июн.

Исследование посвящено проблеме предсказания структур «ложных» (spurious) белков — аномальных последовательностей, возникающих из-за ошибок в предсказании генов, которые теоретически не должны иметь стабильной структуры. Авторы провели сравнительный анализ трех передовых методов: AlphaFold2, AlphaFold3 и ESMFold, чтобы выяснить, способны ли они отличить реальные белки от ошибочных. Результаты показали, что все три модели неожиданно присваивают коротким ложным последовательностям из базы AntiFam высокие показатели достоверности (pLDDT), однако способность к дискриминации улучшается на последовательностях длиннее 100 аминокислот. В ходе работы ученые выявили два вероятных ложных открытых рамки считывания (ORF) в базе Swiss-Prot и один потенциально реальный белок. На основе анализа расхождений между показателями pTM и pLDDT была разработана модель на базе гауссовского процесса, которая позволяет масштабируемо идентифицировать ложные белки в базе AlphaFold DB. Данный подход значительно повышает точность верификации протеомных данных при использовании в сочетании с другими методами биоинформатики.

биоинформатика AlphaFold структурная биология+2

bioRxiv — Bioinformatics Оригинал

Новость4510 июн.

Исследование представляет ECMME (ECM Molecular Evolution) — новый биоинформатический ресурс, предназначенный для анализа эволюции внеклеточного матрикса (ECM) у млекопитающих. Авторы провели детальный поаминокислотный анализ селективного давления на 272 основных белка матриома у человека, используя ортологичные последовательности от 228 видов плацентарных млекопитающих. С помощью автоматизированного конвейера, интегрирующего методы MEME и FUBAR из пакета HyPhy, было выявлено преобладание сильного очищающего отбора, что подтверждает структурную незаменимость компонентов матрикса. При этом обнаружен эпизодический положительный отбор, который проявляется у коллагенов значительно сильнее, чем у гликопротеинов и протеогликанов. Разработанный веб-браузер ECMME позволяет визуализировать метрики селекции непосредственно на топологиях белков, предоставляя исследователям инструмент для идентификации функционально значимых сайтов без необходимости локальной установки ПО.

биоинформатика эволюционная биология внеклеточный матрикс+2

bioRxiv — Bioinformatics Оригинал

Новость8510 июн.

В исследовании представлена CLASPP — инновационная унифицированная модель глубокого обучения, предназначенная для одновременного предсказания различных типов посттрансляционных модификаций (PTM) на основе первичной аминокислотной последовательности белка. Основная проблема существующих методов — фрагментация и дисбаланс данных между редкими и распространенными типами модификаций — решается с помощью стратегии контрастного обучения (contrastive learning) и метода недосэмплирования на основе обучения без учителя. Модель использует предобученную языковую модель белка для извлечения структурных и последовательных признаков, что позволяет ей эффективно работать с 12 основными типами PTM. Результаты тестирования подтверждают, что CLASPP превосходит существующие инструменты по точности предсказания во многих биологических организмах. В качестве проверки применимости модели авторы экспериментально подтвердили сайты убиквитинирования в малоизученной киназе DCLK3. Исследование также предлагает стандартизированный набор данных и иерархическую организацию данных, что значительно улучшает репрезентативность редких модификаций и открывает новые возможности для функциональной протеомики.

протеомика глубокое обучение биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость7510 июн.

В исследовании представлен инновационный метод построения пангеномов, основанный на использовании эмбеддингов белковых языковых моделей (Protein Language Models). В отличие от традиционных методов, опирающихся на выравнивание нуклеотидных или белковых последовательностей, данный подход позволяет выявлять отдаленные ортологи и семантические связи, выходящие за рамки простого сходства последовательностей. Методология включает поиск ближайших соседей с использованием GPU-ускорения, динамическую пакетную обработку и оптимизацию ONNX, что обеспечивает линейную масштабируемость при анализе миллионов белков. Сравнительный анализ с инструментом SCARAP показал, что новый метод формирует более специфичные кластеры. При тестировании на наборе данных CAFA5, содержащем экспериментально подтвержденные данные, предложенный подход значительно превзошел SCARAP по всем метрикам функциональной согласованности и когерентности. Практическая значимость подтверждена успешной характеристикой пангенома 1034 геномов Streptomyces. Разработчики предоставили открытый исходный код на GitHub для масштабирования биоинформатических исследований.

белковые языковые модели биоинформатика пангеномика+2

bioRxiv — Bioinformatics Оригинал

Новость9525 мая

Исследователи представили DualLoc — новую модель глубокого обучения для многократного предсказания субклеточной локализации белков в десяти различных компартментах. В отличие от существующих методов, таких как DeepLoc 2.0, которые используют облегченную настройку, DualLoc применяет полнопараметрическую тонкую настройку (full-parameter fine-tuning) каскадной архитектуры двойных трансформеров. В качестве базовых моделей (backbones) использовались ProtBERT, ESM-2 и ProtT5. Результаты кросс-валидации на базе Swiss-Prot и независимой проверки на Human Protein Atlas показали превосходство над современными аналогами. Лучшая конфигурация, DualLoc-ProtT5, достигла точности 0.5872, micro-F1 0.8271 и macro-F1 0.7811. Особое внимание заслуживает значительный рост коэффициента корреляции Мэтьюса для ядра (+0.13), клеточной мембраны (+0.13) и внеклеточного пространства (+0.07). Анализ взаимной информации также подтвердил биологическую достоверность модели, выявив корреляцию между аппаратом Гольджи и эндоплазматическим ретикулумом (PMI = 0.25, P < 10^-6), что отражает реальные механизмы секреторного пути.

биоинформатика протеомика трансформеры+2

bioRxiv — Bioinformatics Оригинал

Новость8520 мая

В исследовании представлена инновационная модель глубокого обучения PeptideGNN, основанная на архитектуре графовых нейронных сетей (GNN), предназначенная для моделирования поведения пептидов при жидкостной хроматографии. Авторы решают проблему ограниченного понимания взаимодействий между пептидами и колонками, что является критическим барьером в протеомике. Модель была обучена на десяти различных протеомных наборах данных и продемонстрировала превосходство над существующими предикторами времени удерживания. С помощью метода картирования значимости (saliency mapping) исследователи смогли интерпретировать механизмы удержания, выявив влияние соседних аминокислот, посттрансляционных модификаций (PTM), типа хроматографических колонок и добавок в подвижную фазу. Результаты работы позволяют не только точнее предсказывать параметры разделения, но и глубже понимать физико-химические взаимодействия на молекулярном уровне, что критически важно для повышения точности идентификации белков в масс-спектрометрии.

протеомика графовые нейронные сети машинное обучение+2

bioRxiv — Bioinformatics Оригинал

Новость9520 мая

Представлена новая аналитическая платформа Shiny AMMOA, разработанная как графический интерфейс (GUI) на базе R Shiny для упрощения интегративного анализа мультиомных данных при изучении старения мышей. Инструмент позволяет исследователям проводить сквозной анализ транскриптомных, протеомных и метаболомных данных без необходимости глубоких навыков программирования. Платформа поддерживает тестирование дифференциальной экспрессии, анализ обогащения путей и визуализацию молекулярных изменений на диаграммах KEGG. В ходе тестирования Shiny AMMOA успешно воспроизвела ключевые результаты существующих исследований, выявив возрастные изменения в таких процессах, как ответ на несвернутые белки (UPR), организация внеклеточного матрикса и метаболические пути. Продукт демократизирует доступ к сложным биоинформатическим методам, позволяя экспериментальным биологам быстро приоритизировать биологические мишени и генерировать гипотезы на системном уровне. Платформа доступна как локально через GitHub, так и в облегченном веб-варианте.

мультиомика старение биоинформатика+4

bioRxiv — Bioinformatics Оригинал

Исследование9518 мая

В статье представлена SpecGP — инновационная модель на базе архитектуры Transformer, разработанная для предсказания структурных спектров N-гликопептидов. Ключевой особенностью модели является способность учитывать различные уровни энергии столкновения (collision energies), что позволяет прогнозировать спектры фрагментарных ионов с высокой точностью. Исследование направлено на решение критической проблемы дифференциации изомеров гликопептидов, которая часто затруднена при стандартных методах масс-спектрометрии. Использование SpecGP значительно расширяет покрытие фрагментарных ионов, что напрямую повышает достоверность идентификации сложных гликозилированных структур. Внедрение модели в процессы рескоринга (rescoring) позволяет существенно увеличить уверенность в результатах масс-спектрометрического анализа. Данная разработка имеет высокую значимость для протеомики и биомедицинских исследований, где точная характеристика гликозилирования критична для понимания механизмов заболеваний.

масс-спектрометрия гликомика трансформеры+3

Nature Machine Intelligence Оригинал

Новость4518 мая

Представлен Manchester Proteome Profiler (MPP) — новое программное обеспечение с открытым исходным кодом на базе R Shiny, предназначенное для автоматизации анализа количественных протеомных данных. Платформа совместима с результатами работы таких популярных инструментов, как MaxQuant, FragPipe и Proteome Discoverer, позволяя проводить фильтрацию, нормализацию, импутацию и анализ дифференциальной экспрессии белков. MPP поддерживает как сравнение одиночных, так и двойных наборов данных, а также интегрирует алгоритм SAINTexpress для анализа экспериментов по аффинной очистке и проксимальному мечению. В ходе тестирования на наборе данных проксимального биотинилирования KRAS инструмент успешно выявил воспроизводимые кластеры дифференциально экспрессируемых белков. Исследование показало способность MPP обнаруживать биологически значимые паттерны, такие как обогащение транспортеров растворимых веществ и молекул адгезии. Инструмент предоставляет возможности для функционального обогащения и построения сетей взаимодействий через базы данных Gene Ontology, BioGRID и STRING, что делает его ценным помощником для генерации гипотез в биомедицинских исследованиях.

протеомика биоинформатика анализ данных+2

bioRxiv — Bioinformatics Оригинал

Новость9518 мая

Исследователи представили eSIG-Net (edgetic mutation Sequence-based Interaction Grammar Network) — инновационную последовательностную «языковую модель взаимодействий», предназначенную для прогнозирования того, как одиночные мутации изменяют белковые взаимодействия. В основе метода лежит комбинация различных эмбеддингов белковых последовательностей и специализированный модуль кодирования мутаций, учитывающий синтаксические и эволюционные аспекты. Использование контрастивного обучения позволяет модели эффективно оценивать изменения в профилях взаимодействий, вызванных мутациями. Результаты тестов показали, что eSIG-Net значительно превосходит существующие современные методы, как основанные на последовательностях, так и на структурах белков. Модель способна с высокой степенью уверенности выявлять причинно-следственные варианты мутаций и объяснять их функциональную роль в биологическом контексте. Важным преимуществом является то, что eSIG-Net работает исключительно на основе информации о последовательностях, демонстрируя высокую обобщающую способность без необходимости в сложных структурных данных.

белковые взаимодействия мутации языковые модели+3

bioRxiv — Bioinformatics Оригинал

Новость9518 мая

В статье представлено Carafe2 — инновационное программное обеспечение на базе глубокого обучения, предназначенное для создания высококачественных спектральных библиотек in silico специально для протеомики данных timsTOF. В отличие от существующих инструментов, которые либо не поддерживают ионную подвижность, либо обучаются на данных DDA (data-dependent acquisition), Carafe2 обучается непосредственно на экспериментальных DIA-данных, что минимизирует систематические ошибки. Разработчики провели тонкую настройку моделей предсказания времени удерживания (RT), интенсивности фрагментных ионов и ионной подвижности, используя нативные файлы формата Bruker .d без необходимости предварительной конвертации. Исследования на наборах данных глобального протеома, фосфопротеома и плазменного протеома показали, что модели Carafe2 превосходят предобученные DDA-модели по точности. Сравнительный анализ с такими инструментами, как AlphaPeptDeep и встроенные модели DIA-NN, подтвердил высокую эффективность Carafe2 в обнаружении пептидов. Данная разработка значительно повышает возможности количественного анализа белков в сложных биологических образцах, используя дополнительное измерение ионной подвижности.

протеомика глубокое обучение масс-спектрометрия+2

bioRxiv — Bioinformatics Оригинал

Новость9217 мая

В исследовании представлен PrEditR — новый инструмент с открытым исходным кодом, предназначенный для высокопроизводительного дизайна гидовых РНК (sgRNA) для специализированных скринингов с использованием редакторов оснований CRISPR. В отличие от существующих инструментов, которые ориентированы на ДНК, PrEditR работает на уровне аминокислотных последовательностей белков, что позволяет напрямую связывать генетические изменения с функциональными свойствами белков. Платформа позволяет пользователям выбирать конкретные аминокислотные остатки и автоматически проектировать протоспейсерные последовательности для создания миссенс-мутаций в эндогенных генах. Это критически важно для изучения посттрансляционных модификаций (PTM), функции которых до сих пор остаются малоизученными. Разработанный подход обеспечивает бесшовную интеграцию с результатами масс-спектрометрической протеомики, позволяя проводить масштабные фенотипические скрининги. Использование PrEditR значительно ускоряет процесс функционального анализа белков, предоставляя точный инструмент для направленного редактирования аминокислотного состава.

CRISPR редактирование генома протеомика+3

bioRxiv — Bioinformatics Оригинал

Новость7517 мая

В исследовании проводится глубокий анализ влияния параметров хроматографического сэмплирования на точность количественного анализа в методе DIA-протеомики (Data-Independent Acquisition). Авторы изучают, как количество точек данных на пик (DPPP) и другие характеристики хроматографии влияют на пределы обнаружения (LOD) и количественного определения (LOQ). Результаты показывают, что снижение DPPP минимально влияет на LOD, но существенно ухудшает LOQ, что критично для обнаружения низкокопийных белков. С помощью моделирования признаков было установлено, что площадь пика предшественника является наиболее сильным предиктором LOQ, в то время как влияние DPPP носит контекстно-зависимый характер. При тестировании на 40 образцах плазмы (20 раковых и 20 контрольных) с использованием системы Seer Proteograph было доказано, что уменьшение плотности сэмплирования ведет к потере статистической значимости для белков с низкой концентрацией. Исследование подчеркивает необходимость оптимизации DIA-протоколов с упором на метрики LOQ и статистической мощности, а не только на общее количество идентификаций.

протеомика DIA-протеомика масс-спектрометрия+3

bioRxiv — Bioinformatics Оригинал

Новость9516 мая

В исследовании представлен комплексный бенчмарк эффективности белковых языковых моделей (PLM), таких как ESM2 (650M и 3B параметров) и ProtT5-XL, для предсказания номеров Enzyme Commission (EC), что критически важно для аннотации геномов и биоинженерии. Авторы протестировали 1296 моделей, комбинируя три архитектуры PLM с девятью нейросетевыми архитектурами на четырех уровнях иерархии EC и различных порогах идентичности последовательностей. Результаты показали, что простые MLP-классификаторы достигают точности до 98.0% на уровне EC1 и около 97.0% на уровне EC4, сопоставимо с BLAST для белков из обучающей выборки. Однако при работе с эволюционно отдаленными эукариотами (например, Giardia lamblia) модели на базе PLM показали колоссальное превосходство над BLAST, увеличив точность на 31.8 процентных пункта по сравнению с базовой линией в 90 тысяч последовательностей. Для прокариотических протеомов среднее преимущество PLM перед BLAST составило +16.9 процентных пункта на уровне EC4. Исследование также выявило, что архитектура MLP является наиболее эффективной, а использование ESM2-650M практически не уступает по результатам значительно более крупной модели ESM2-3B.

белковые языковые модели биоинформатика ферменты+3

bioRxiv — Bioinformatics Оригинал

Новость9515 мая

Исследователи разработали TriCyP (Tri-state Cysteine Predictor) — эффективную двухслойную нейронную сеть на базе эмбеддингов белковой языковой модели ESM-2, предназначенную для классификации функциональных состояний цистеина. Модель способна различать три состояния: координацию металлов, образование дисульфидных связей и наличие свободных тиолов. В ходе тестирования на независимом наборе данных TriCyP продемонстрировала исключительную точность с показателем AUROC = 0,99, превзойдя существующие методы прогнозирования. Авторы применили инструмент к масштабу протеома, проанализировав 2,7 миллиона остатков цистеина в 0,9 миллионах репрезентативных доменов ECOD. Исследование выявило закономерности распределения: дисульфидные связи преобладают в внеклеточных белках эукариот, а координация металлов сосредоточена в ядерных белках, что связано с обилием цинк-пальцевых транскрипционных факторов. Кроме того, метод позволил обнаружить ранее неизвестные семейства металл-связывающих белков и выявить области структурной неопределенности в моделях AlphaFold. Полученный каталог доступен сообществу как ресурс для дальнейших биоинформатических исследований.

белковые языковые модели биоинформатика структурная биология+2

bioRxiv — Bioinformatics Оригинал

протеомика

AINN-P1: Компактная белковая языковая модель, работающая только с последовательностями, достигает конкурентоспособных результатов в предсказании фитнеса на ProteinGym

PeptiDIA: Фреймворк машинного обучения для улучшенной идентификации пептидов в протеомике с использованием DIA-масс-спектрометрии на быстрых градиентах

DLDN-Bench: Фреймворк для бенчмаркинга глубокого обучения при секвенировании пептидов de novo в протеомике

Интеграция пространственно скорректированных белковых сводок для прогнозирования выживаемости в пространственной протеомике

VFUSE: Понимание вирулентных признаков с помощью разреженных автоэнкодеров

Складывание нескладываемого 2: использование AlphaFold и ESMFold для исследования ложных белков

ECMME: атлас селективного давления на внеклеточный матрикс млекопитающих выявляет контрастные эволюционные динамики

CLASPP: Унифицированная модель для предсказания посттрансляционных модификаций

Использование белковых языковых моделей для построения пангеномов

DualLoc: Полнопараметрическая тонкая настройка каскадных двойных трансформеров для предсказания субклеточной локализации белков

Прогнозирование и выяснение механизмов удержания пептидов с помощью графовых сетей внимания

Shiny AMMOA: интерактивная платформа для интегративного мультиомного анализа старения мышей

SpecGP: трансформерная модель для прогнозирования структурных спектров гликопептидов с учетом адаптации к энергии

Manchester Proteome Profiler: удобная платформа для количественного протеомного анализа

eSIG-Net: Точное предсказание возмущений белковых взаимодействий, вызванных одиночными мутациями, с помощью языковой модели

Carafe2 обеспечивает высококачественную генерацию in silico спектральных библиотек для протеомики данных timsTOF с независимым сбором данных (DIA)

PrEditR: Белково-ориентированная платформа для дизайна sgRNA при использовании редакторов оснований CRISPR

Белковые языковые модели превосходят BLAST при предсказании функций эволюционно отдаленных ферментов: систематический бенчмарк предсказания номеров EC

Каталогизация цистеинов в доменах ECOD с использованием белковой языковой модели