В статье исследуется инновационный подход к оценке качества больших языковых моделей (LLM) в медицине с использованием методов компьютерного адаптивного тестирования (CAT). Традиционные методы бенчмаркинга требуют огромных вычислительных ресурсов и затрат, тогдая предложенная методология позволяет значительно оптимизировать процесс проверки медицинских знаний ИИ. Исследование фокусируется на том, как алгоритмы адаптивного тестирования могут динамически подбирать сложность вопросов в зависимости от ответов модели, что сокращает количество необходимых тестов без потери точности оценки. Основной результат заключается в возможности достижения сопоставимой точности оценки при существенно меньших затратах на токены и время. Данный подход имеет критическое значение для быстрой итерации медицинских ИИ-систем и их регулярного аудита на соответствие клиническим стандартам. Внедрение CAT в процесс валидации LLM может стать новым стандартом в индустрии разработки медицинского искусственного интеллекта.