Исследователи представили CompBioBench — новый бенчмарк, состоящий из 100 разнообразных задач, предназначенных для оценки возможностей агентных ИИ-систем в области вычислительной биологии. В отличие от математики, биологические данные характеризуются высокой зашумленностью, поэтому авторы применили уникальную стратегию создания задач: использование синтетических данных и метод перемешивания метаданных реальных датасетов для получения задач с единственным верным ответом. Бенчмарк охватывает такие области, как геномика, транскриптомика, эпигеномика, анализ единичных клеток и машинное обучение, требуя от ИИ многошагового рассуждения, написания кода и использования внешних инструментов. В ходе тестирования ведущие агентные системы продемонстрировали высокие результаты: Codex CLI (на базе GPT 5.4) достиг точности 83%, а Claude Code (Opus 4.6) — 81%. На наиболее сложных задачах показатели составили 59% и 69% соответственно. Данная работа создает важную платформу для измерения прогресса ИИ в биоинформатике и задает стандарты для разработки будущих систем оценки.