В статье представлен PsychiatryBench — специализированный комплексный бенчмарк, разработанный для оценки способностей больших языковых моделей (LLM) в области психиатрии. Исследователи создали многозадачную платформу, которая позволяет тестировать модели на знание клинических протоколов, способность к диагностическому рассуждению и навыки ведения терапевтического диалога. Методология включает в себя проверку моделей на различных сценариях, имитирующих реальную клиническую практику психиатра. Ключевым результатом является выявление существенных различий в производительности современных LLM при решении задач, требующих глубокого понимания ментального здоровья и нюансов человеческого поведения. Данная разработка имеет критическое значение для интеграции ИИ в психиатрическую помощь, обеспечивая стандартизированный способ проверки безопасности и точности нейросетевых помощников. Использование PsychiatryBench позволит разработчикам более эффективно настраивать модели для поддержки врачей-психиатров и минимизировать риски ошибочных клинических рекомендаций.