Группа ученых из США и Израиля провела критическую оценку клинической надежности новой модели GPT-5 от OpenAI, сравнив её с предыдущим поколением GPT-4o. Исследование, опубликованное в журнале Digital Medicine, выявило, что новая модель не демонстрирует значительного прогресса в минимизации рисков, связанных с предвзятостью и уязвимостью к ложным данным. При тестировании на сценариях из практики неотложной помощи было обнаружено, что склонность моделей к «галлюцинациям» (додумыванию ошибочной информации) даже усилилась. Авторы зафиксировали, что ошибки и несоответствия в принятии решений сохраняются в 65% случаев при анализе социально-демографических факторов. Результаты подчеркивают сохраняющуюся проблему предвзятости алгоритмов в медицинских решениях. Данная работа указывает на необходимость более строгого регулирования и дополнительной верификации LLM перед их внедрением в критически важные медицинские процессы.