Данное исследование, опубликованное в журнале Artificial Intelligence in Medicine, посвящено критическому анализу способности больших языковых моделей (LLM) предоставлять точную и безопасную медицинскую информацию. В центре внимания находится процесс извлечения данных, касающихся специфических аспектов эпидуральной анестезии, что является критически важным для клинической практики. Авторы проводят сравнительный анализ различных архитектур моделей, проверяя их на предмет галлюцинаций, фактических ошибок и соответствия доказательной медицине. Методология включает оценку точности ответов на сложные клинические вопросы, где цена ошибки крайне высока. Результаты исследования ставят под сомнение прямую корреляцию между количеством параметров модели и качеством её медицинских ответов, указывая на то, что более компактные, но специализированные модели могут демонстрировать сопоставимую или даже превосходящую надежность. Работа подчеркивает необходимость внедрения строгих протоколов верификации для использования LLM в качестве инструментов поддержки принятия врачебных решений.