валидация ИИ

Новость9518 маяОбзор

В статье исследуется инновационный подход к оценке качества больших языковых моделей (LLM) в медицине с использованием методов компьютерного адаптивного тестирования (CAT). Традиционные методы бенчмаркинга требуют огромных вычислительных ресурсов и затрат, тогдая предложенная методология позволяет значительно оптимизировать процесс проверки медицинских знаний ИИ. Исследование фокусируется на том, как алгоритмы адаптивного тестирования могут динамически подбирать сложность вопросов в зависимости от ответов модели, что сокращает количество необходимых тестов без потери точности оценки. Основной результат заключается в возможности достижения сопоставимой точности оценки при существенно меньших затратах на токены и время. Данный подход имеет критическое значение для быстрой итерации медицинских ИИ-систем и их регулярного аудита на соответствие клиническим стандартам. Внедрение CAT в процесс валидации LLM может стать новым стандартом в индустрии разработки медицинского искусственного интеллекта.

LLM валидация ИИ медицинское тестирование методология эффективность

npj Digital Medicine Оригинал

Новость9515 мая

В статье представлен EPPCMinerBen — инновационный набор метрик и стандартов (бенчмарк), разработанный специально для тестирования возможностей больших языковых моделей (LLM) в контексте цифрового взаимодействия пациентов и медицинских работников. Исследование фокусируется на анализе коммуникации, происходящей через порталы пациентов, что является критически важным аспектом современной телемедицины. Авторы предлагают методологию оценки того, насколько точно ИИ может интерпретировать запросы пациентов и генерировать адекватные, клинически безопасные ответы. В работе подчеркивается необходимость создания специализированных инструментов оценки, так как стандартные NLP-метрики не учитывают специфику медицинского контекста и этические аспекты общения. Использование данного бенчмарка позволит разработчикам ИИ-решений минимизировать риски неверной интерпретации симптомов и повысить качество автоматизированной поддержки в здравоохранении. Результаты исследования закладывают фундамент для внедрения более надежных LLM-ассистентов в клиническую практику через электронные медицинские системы.

NLP телемедицина электронные медкарты+3

Artificial Intelligence in Medicine Оригинал

Новость9515 мая

Исследование сравнивает точность и надежность моделей Claude, Gemini и GPT при оценке риска систематической ошибки в нерандомизированных исследованиях. Результаты показали, что Gemini демонстрирует наиболее сбалансированную точность, однако на текущий момент готовые LLM не могут надежно заменять экспертов при использовании инструмента ROBINS-I.

LLM клиническая методология анализ данных+1

BMJ Digital Health & AI

валидация ИИ

Использование компьютерного адаптивного тестирования для экономически эффективной оценки больших языковых моделей в медицинском бенчмаркинге

EPPCMinerBen: новый бенчмарк для оценки больших языковых моделей в электронном общении между пациентом и врачом через порталы пациента

Сравнение способности трех больших языковых моделей оценивать риск систематической ошибки с помощью инструмента ROBINS-I