языковые модели

Исследование9511 июн.

Исследовательская группа Yang et al. представила CrossDNA — инновационную и параметрически эффективную языковую модель, предназначенную для моделирования двуцепочечной структуры ДНК. В отличие от традиционных подходов, CrossDNA учитывает динамику взаимодействия между цепями ДНК, что позволяет более точно интерпретировать биологические функции последовательностей. Модель демонстрирует высокие показатели в стандартных бенчмарках, превосходя существующие аналоги в задачах понимания контекста генома. Ключевое практическое применение разработки заключается в интерпретации регуляторных областей генома и приоритизации не кодирующих вариантов (non-coding variants), что критически важно для генетической диагностики. Использование CrossDNA позволяет значительно повысить точность предсказания функциональных последствий мутаций, которые ранее было сложно классифицировать. Данная технология открывает новые возможности для персонализированной медицины и глубокого анализа геномных данных.

геномика языковые модели биоинформатика+2

Nature Machine Intelligence Оригинал

Новость9529 мая

Исследование представляет ST-PARM — инновационный фреймворк для выравнивания (alignment) замороженных языковых моделей белков, предназначенный для решения задач многокритериального дизайна. Основная проблема инженерии белков заключается в конфликте свойств: улучшение одного параметра часто ведет к деградации другого. Авторы предложили использовать сглаженную скаляризацию по методу Чебышёва и модель вознаграждения, учитывающую неопределенность (uncertainty-aware), что позволяет эффективно обходить невыпуклые области Парето. В ходе тестирования на дизайне флуоресценции/стабильности GFP и стабильности/растворимости нанотел IL-6, метод ST-PARM продемонстрировал более широкое покрытие фронта Парето и лучшую точность отслеживания предпочтений по сравнению с базовыми моделями PARM и MosPro. Использование стратегий построения пар в латентном пространстве обеспечивает высокую контролируемость генерации последовательностей даже при наличии шума в оценках. Результаты исследования закладывают фундамент для создания практических инструментов генерации белков с заданными, сбалансированными свойствами для последующих лабораторных испытаний.

дизайн белков машинное обучение языковые модели+2

bioRxiv — Bioinformatics Оригинал

Новость9528 мая

В исследовании представлен EvoRMD — инновационный фреймворк для прогнозирования типов модификаций РНК, который преодолевает ограничения существующих методов, рассматривающих каждый тип модификации как независимую задачу. В отличие от традиционных подходов, EvoRMD учитывает биологический контекст, интегрируя эмбеддинги последовательностей из крупномасштабной языковой модели РНК со структурированными метаданными: видом организма, органом, типом клеток и субклеточной локализацией. Модель использует облегченный механизм внимания (attention mechanism) для выделения информативных позиций в последовательности и общий многоклассовый классификатор для распределения вероятностей между 11 типами модификаций (включая Am, Cm, Um, Gm, D, pseudouridine, m1A, m5C, m5U, m6A, m7G). Архитектура позволяет учитывать специфику данных, где в одной позиции может присутствовать только одна модификация, а остальные остаются неразмеченными. Результаты демонстрируют высокую прогностическую точность и обеспечивают интерпретируемость через анализ профилей внимания и мотивов. Данная разработка имеет критическое значение для понимания механизмов посттранскрипционной регуляции экспрессии генов и может быть использована для приоритизации целей в молекулярной биологии.

ИИ в биологии моделирование РНК языковые модели+3

bioRxiv — Bioinformatics Оригинал

Новость9518 мая

Исследователи представили eSIG-Net (edgetic mutation Sequence-based Interaction Grammar Network) — инновационную последовательностную «языковую модель взаимодействий», предназначенную для прогнозирования того, как одиночные мутации изменяют белковые взаимодействия. В основе метода лежит комбинация различных эмбеддингов белковых последовательностей и специализированный модуль кодирования мутаций, учитывающий синтаксические и эволюционные аспекты. Использование контрастивного обучения позволяет модели эффективно оценивать изменения в профилях взаимодействий, вызванных мутациями. Результаты тестов показали, что eSIG-Net значительно превосходит существующие современные методы, как основанные на последовательностях, так и на структурах белков. Модель способна с высокой степенью уверенности выявлять причинно-следственные варианты мутаций и объяснять их функциональную роль в биологическом контексте. Важным преимуществом является то, что eSIG-Net работает исключительно на основе информации о последовательностях, демонстрируя высокую обобщающую способность без необходимости в сложных структурных данных.

белковые взаимодействия мутации языковые модели+3

bioRxiv — Bioinformatics Оригинал

Новость9517 мая

Исследование посвящено изучению механизмов интерпретируемости предобученных геномных языковых моделей (gLM), в частности модели InstaDeeps Nucleotide Transformer v2 с 500 миллионами параметров. Авторы применили метод разреженных автоэнкодеров (SAE) ко всем 24 слоям энкодера для анализа латентных признаков. В ходе работы были построены графы знаний «последовательность-признак» для исследования пространства признаков SAE и проведено сравнение сообществ ДНК, связывающихся с цисплатином, и не связывающихся с ним с использованием центральности PageRank. Экспериментальные интервенции с использованием декодера и CNN-классификатора связывания показали асимметричные эффекты: подавляющие признаки могли полностью разрушить прогностический сигнал, в то время как признаки, связанные со связыванием, вызывали кумулятивный сдвиг предсказаний. Результаты доказывают, что представления gLM кодируют высокогранулярный синтаксис последовательностей и паттерны консервативности, ориентируясь на локальные биофизические ограничения, а не на сложные распределенные регуляторные логики. Это объясняет высокую эффективность моделей в молекулярных задачах при их относительной слабости в широком регуляторном выводе.

геномика языковые модели интерпретируемость ИИ+2

bioRxiv — Bioinformatics Оригинал

Новость9516 мая

В данном исследовании представлен новый унифицированный бенчмарк BGCs-Bench, предназначенный для оценки эффективности геномных языковых моделей (gLM) с поддержкой длинного контекста. Основное внимание уделено анализу биосинтетических генных кластеров (BGC) через решение трех ключевых задач: предсказание биосинтетического класса, таксономическая классификация и аннотация кодирующих последовательностей. Авторы провели систематическую послойную оценку эмбеддингов, доказав, что выбор конкретных слоев модели критически влияет на точность выполнения прикладных задач. С помощью анализа logit lens для авторегрессионных моделей на базе архитектуры StripedHyena было выявлено, что ранние слои отвечают за кодирование биологически значимой информации из последовательностей ДНК, в то время как глубокие слои оптимизированы для генерации последовательностей. Результаты работы предоставляют методологическую базу для более эффективной разработки и применения специализированных ИИ-моделей в геномике и синтетической биологии.

геномика языковые модели биоинформатика+2

bioRxiv — Bioinformatics Оригинал

Новость9515 мая

Данная научная работа представляет собой комплексный систематический обзор современных возможностей использования больших языковых моделей (LLM) в задачах обработки медицинских текстовых данных. Исследование фокусируется на методологиях применения архитектур трансформеров для извлечения структурированной информации из неструктурированных клинических записей, электронных медицинских карт и научной литературы. Авторы анализируют эффективность различных моделей в таких ключевых задачах, как суммаризация анамнеза, классификация диагнозов и извлечение сущностей (NER). В обзоре рассматриваются как успехи в точности распознавания медицинских терминов, так и критические проблемы, включая галлюцинации моделей и вопросы конфиденциальности данных пациентов. Результаты подчеркивают потенциал интеграции ИИ в рабочие процессы врачей для автоматизации рутинного документирования. Работа служит важным ориентиром для разработчиков медицинского ПО и исследователей, стремящихся внедрить NLP-решения в клиническую практику.

NLP анализ медицинских текстов языковые модели+2

Artificial Intelligence in Medicine Оригинал

Новость9515 апр.

Исследование представляет новый фреймворк для предсказания аффинности связывания белков (protein-protein binding affinity) исключительно на основе их последовательностей, что критически важно для оптимизации антител и разработки биопрепаратов. Авторы предложили метод метрического обучения, где две белковые последовательности проецируются в общее латентное пространство, а косинусное сходство между ними напрямую коррелирует с экспериментальной аффинностью. Модель использует эффективную тонкую настройку параметров (PEFT) языковых моделей белков. В тестах на бенчмарке PPB-Affinity модель достигла коэффициента корреляции Пирсона r = 0,89 на случайном разделении и продемонстрировала высокую обобщающую способность на эволюционно далеких белках (r = 0,61 при идентичности последовательностей <30%). На наборе данных AB-Bind метод с использованием всего 30% данных (r = 0,756, RMSE = 0,688) превзошел модели, обученные на 90% данных. Важной особенностью является интерпретируемость: анализ на уровне остатков показал, что модель фокусирует внимание на интерфейсных остатках, соответствующих экспериментально подтвержденным «горячим точкам» взаимодействия. Это открывает масштабируемый путь к дизайну терапевтических антител без необходимости получения сложных 3D-структур.

белковая инженерия языковые модели дизайн лекарств+3

bioRxiv — Bioinformatics Оригинал

Новость7512 апр.

Исследователи представили HalluCodon — кастомизируемый фреймворк, использующий мультимодальные языковые модели для проектирования кодирующих последовательностей, адаптированных под конкретные виды растений. Методология основана на стратегии дизайна через «галлюцинацию», где процесс направляется двумя предиктивными модулями: CodonNAT, оценивающим естественность кодонов, и CodonEXP, прогнозирующим потенциал экспрессии. Система позволяет пользователям дообучать (fine-tune) предобученные белковые и РНК-языковые модели на собственных наборах данных. Текущая реализация включает базовые модели, обученные на кодирующих последовательностях и протеомах 15 различных видов растений. Бенчмарк-тесты подтвердили, что сгенерированные последовательности точно воспроизводят паттерны использования кодонов хозяина и обеспечивают высокие уровни экспрессии в растительных системах. Данная разработка имеет высокую значимость для синтетической биологии, молекулярного земледелия и создания трансгенных культур.

синтетическая биология языковые модели мультимодальные модели+2

bioRxiv — Bioinformatics Оригинал

Новость9512 апр.

Исследователи представили IDiom — новую авторегрессионную языковую модель белка, специально разработанную для генеративного дизайна внутренне неупорядоченных областей белков (IDR). В отличие от традиционных методов, ориентированных на стабильные структуры, IDiom обучалась на массиве из 37 миллионов последовательностей неупорядоченных регионов, отобранных из базы данных AlphaFold. Использование метода аугментации данных 'fill-in-the-middle' позволяет модели генерировать последовательности как в контексте окружающих структурированных доменов, так и в виде полностью неупорядоченных белков. Ключевым достижением стало применение обучения с подкреплением (RL) с использованием модели вознаграждения за субклеточную локализацию, что позволило создавать последовательности с заданными свойствами распределения по клеточным компартментам. Модель успешно воспроизводит биологически релевантные эволюционные статистические характеристики природных IDR. Данная разработка открывает новые возможности для рационального дизайна белков, которые ранее считались недоступными для классических методов моделирования.

генеративный ИИ белковый дизайн языковые модели+2

bioRxiv — Bioinformatics Оригинал

Новость5510 апр.

Российская языковая модель «ГигаЧат» получила масштабное обновление, расширив свои возможности в области многоязычного понимания и генерации текста. Теперь ИИ-помощник поддерживает более 30 языков, включая языки народов России и стран СНГ, что значительно повышает доступность технологий для различных этнических групп. Основное внимание при разработке было уделено улучшению качества лингвистических конструкций и точности передачи контекста на менее распространенных языках. Это обновление позволяет использовать нейросеть для локализации контента, автоматического перевода и создания персонализированных текстовых ответов в многоязычной среде. Технология имеет высокую значимость для развития цифровой инклюзивности и интеграции ИИ в региональные сервисы коммуникации. Внедрение таких языковых мощностей открывает новые возможности для автоматизации поддержки пользователей и образовательных проектов в мультикультурных регионах.

NLP языковые модели технологии+1

CNews Healthcare Оригинал

Новость6531 мар.

Исследование представляет новый подход к генерации декой-баз данных в протеомике с использованием языковых моделей белков (PLM) для оценки ложных открытий при идентификации пептидов. Авторы сравнивают PLM-декои с классическими методами (реверс и перемешивание) через три уровня контроля качества: сепарабельность на уровне последовательности, спектральные диагностические метрики и полные конвейеры масс-спектрометрии. Результаты показывают, что PLM-декои сложнее для нейросетей, работающих только с последовательностью, что указывает на меньшее количество артефактов на уровне последовательности. Однако спектральный анализ выявил, что короткие пептиды занимают особенно перенаселённое пространство целевой-декоя и подвержены локальным коллизиям при всех генераторах. В полных поисковых конвейерах обратные декои остаются сильным базовым уровнем, а текущие PLM-генераторы не обеспечивают явного общего преимущества. Исследователи рассматривают PLM-декои не как универсальную замену, а как настраиваемые инструменты для бенчмаркинга, диагностики, стресс-тестирования и будущей адаптивной оптимизации декой-баз.

протеомика языковые модели масс-спектрометрия+2

bioRxiv — Bioinformatics Оригинал

Новость8721 мар.

Исследование посвящено улучшению надежности трансформерных языковых моделей для геномики (GLM), которые демонстрируют высокую эффективность в задачах предсказания на генетических данных, но склонны к излишней уверенности при работе с зашумленными или неизвестными данными. Авторы анализируют влияние нескольких методов оценки неопределенности (uncertainty quantification, UQ), включая температурное масштабирование и эпистемические нейронные сети, на надежность предсказаний моделей в различных доменах геномных и метабаргеномных задач. Сравнение поведения моделей на данных из распределения (in-distribution) и вне распределения (out-of-distribution) показывает, что предложенные методы способны значительно улучшить надежность классификации. Результаты демонстрируют универсальность подхода, так как он работает на нескольких архитектурах GLM и в различных предметных областях. Разработка критически важна для геномики, где неизвестные виды и новые генетические варианты встречаются часто, и надежность предсказаний напрямую влияет на клинические решения. Полученные модели могут применяться для диагностики генетических заболеваний, персонализированной медицины и анализа микробиома. Исходный код проекта доступен в открытом доступе на GitHub, что позволяет исследователям и практикам внедрять эти методы в свои рабочие процессы.

геномика языковые модели трансформеры+3

bioRxiv — Bioinformatics Оригинал

языковые модели

Сжатие ДНК с помощью геномных языковых моделей: токенизация, бенчмаркинг и карта информационной плотности

Явные динамические межцепочечные взаимодействия для языкового моделирования последовательностей ДНК

ST-PARM: Парето-полное выравнивание во время инференса для многокритериального дизайна белков

EvoRMD: Интеграция биологического контекста и эволюционных языковых моделей РНК для интерпретируемого прогнозирования модификаций РНК

eSIG-Net: Точное предсказание возмущений белковых взаимодействий, вызванных одиночными мутациями, с помощью языковой модели

Геномика скрытых состояний: графовый анализ активности признаков разреженных автоэнкодеров в геномных языковых моделях

Бенчмаркинг геномных языковых моделей с длинным контекстом на биосинтетических генных кластерах

Языковые модели искусственного интеллекта для анализа медицинских текстов: систематический обзор

Объяснимое предсказание аффинности связывания белков с помощью тонкой настройки языковых моделей белков

HalluCodon: оптимизация кодонов для конкретных видов с использованием мультимодальных языковых моделей

Генеративный дизайн внутренне неупорядоченных областей белков с помощью IDiom

«ГигаЧат» освоил более 30 языков народов России и стран СНГ

Декои на основе языковой модели белков для целевого соревнования декоями в протеомике: оценка качества и бенчмарки

Повышение надежности языковых моделей для геномики при сдвиге распределения