бенчмарк

Новость9523 маяОбзор

В статье представлен SurgWound-Bench — специализированный набор данных и методология оценки (бенчмарк) для проверки эффективности алгоритмов искусственного интеллекта в диагностике хирургических ран. Исследование направлено на решение проблемы нехватки стандартизированных данных для обучения нейросетей, способных распознавать осложнения после операций. Методология включает в себя создание структурированной базы изображений и метрик, позволяющих объективно сравнивать различные модели машинного обучения. Ключевым результатом является разработка инструмента, который позволяет оценить точность автоматизированного мониторинга состояния швов и ран. Данная разработка имеет высокую практическую значимость для интеграции ИИ в послеоперационный уход, позволяя снизить риск инфекций и ускорить процесс заживления за счет раннего обнаружения патологий.

диагностика хирургия компьютерное зрение бенчмарк машинное обучение

npj Digital Medicine Оригинал

Новость9213 июн.

В исследовании представлен ProMiSE — первый специализированный бенчмарк, предназначенный для оценки способности моделей ИИ учитывать динамическую природу белков и их переходы между различными конформационными состояниями. Авторы разработали уникальный набор данных, объединяющий механизмы внутренних, лиганд-индуцированных и белок-индуцированных изменений. В ходе тестирования передовых моделей, включая AlphaFold3 и современные генеративные подходы, было выявлено, что существующие системы плохо справляются с моделированием множественных состояний и часто игнорируют биологический контекст. Анализ внутренних представлений показал, что обучение на доминирующих структурах смещает предсказания моделей в сторону наиболее часто встречающихся состояний, подавляя альтернативные биологически важные формы. При этом использование модели BioEmu продемонстрировало, что снижение предвзятости на этапе декодирования позволяет существенно улучшить точность сэмплирования многосостояний без необходимости радикальной переработки архитектуры парных представлений. Данная работа критически важна для развития структурной биологии и разработки ИИ-инструментов для точного дизайна лекарств.

структурная биология генеративный ИИ AlphaFold3+3

bioRxiv — Bioinformatics Оригинал

Новость9514 апр.

В статье представлен PsychiatryBench — специализированный комплексный бенчмарк, разработанный для оценки способностей больших языковых моделей (LLM) в области психиатрии. Исследователи создали многозадачную платформу, которая позволяет тестировать модели на знание клинических протоколов, способность к диагностическому рассуждению и навыки ведения терапевтического диалога. Методология включает в себя проверку моделей на различных сценариях, имитирующих реальную клиническую практику психиатра. Ключевым результатом является выявление существенных различий в производительности современных LLM при решении задач, требующих глубокого понимания ментального здоровья и нюансов человеческого поведения. Данная разработка имеет критическое значение для интеграции ИИ в психиатрическую помощь, обеспечивая стандартизированный способ проверки безопасности и точности нейросетевых помощников. Использование PsychiatryBench позволит разработчикам более эффективно настраивать модели для поддержки врачей-психиатров и минимизировать риски ошибочных клинических рекомендаций.

психиатрия LLM бенчмарк+2

npj Digital Medicine Оригинал

Новость959 апр.

Исследователи представили CompBioBench — новый бенчмарк, состоящий из 100 разнообразных задач, предназначенных для оценки возможностей агентных ИИ-систем в области вычислительной биологии. В отличие от математики, биологические данные характеризуются высокой зашумленностью, поэтому авторы применили уникальную стратегию создания задач: использование синтетических данных и метод перемешивания метаданных реальных датасетов для получения задач с единственным верным ответом. Бенчмарк охватывает такие области, как геномика, транскриптомика, эпигеномика, анализ единичных клеток и машинное обучение, требуя от ИИ многошагового рассуждения, написания кода и использования внешних инструментов. В ходе тестирования ведущие агентные системы продемонстрировали высокие результаты: Codex CLI (на базе GPT 5.4) достиг точности 83%, а Claude Code (Opus 4.6) — 81%. На наиболее сложных задачах показатели составили 59% и 69% соответственно. Данная работа создает важную платформу для измерения прогресса ИИ в биоинформатике и задает стандарты для разработки будущих систем оценки.

вычислительная биология агентные системы бенчмарк+3

bioRxiv — Bioinformatics Оригинал

бенчмарк

SurgWound-Bench: бенчмарк для диагностики хирургических ран

ProMiSE: Бенчмарк для оценки многосостояний белков в биологическом контексте

PsychiatryBench: мультизадачный бенчмарк для больших языковых моделей в психиатрии

Агентные системы эффективно решают четко определенные и верифицируемые задачи в вычислительной биологии