Исследование оценивает способность LLM с Chain-of-Thought reasoning интерпретировать ультразвуковые признаки узлов щитовидной железы в рамках ACR-TIRADS. Grok-3 показал наивысшую точность в качественном анализе (96%), Gemini-2.5 Pro и DeepSeek-R1 превзошли в количественных задачах. Модели продемонстрировали потенциал для клинической поддержки принятия решений.
В статье рассматривается проблема низкой экономической эффективности внедрения больших языковых моделей (LLM) в банковском секторе. Представители финансовых организаций отмечают, что, несмотря на технологический хайп, использование LLM зачастую не приносит значимого финансового результата или измеримого эффекта для бизнеса. В то же время подчеркивается, что другие направления искусственного интеллекта демонстрируют колоссальную прибыльность, принося банкам миллиарды рублей прибыли. Основной акцент сделан на разрыве между ожиданиями от генеративного ИИ и реальной окупаемостью инвестиций в сравнении с классическими ML-решениями. Данный материал важен для понимания текущего этапа зрелости ИИ-технологий в финансовой индустрии и оценки рисков при внедрении новых архитектур.
Исследование представляет первый курируемый датасет экосистемы научных агентов OpenClaw, охватывающий 91 проект и 2 230 навыков в 34 научных категориях, включая биоинформатику и открытие лекарств. Авторы анализируют структуру, распределение и возникающие паттерны развития научных агентов на основе ИИ, которые могут выполнять исследовательские рабочие процессы в биоинформатике и фармацевтике. Представлена публичная платформа Claw4Science (claw4science.org), которая организует проекты и агрегирует распределённые репозитории навыков в единый интерфейс для научных рабочих процессов. Результаты показывают сдвиг от изолированных систем к более модульной и разделяемой модели научных вычислений, что особенно актуально для медицинских исследований. Авторы выделяют открытые вызовы в области оценки, воспроизводимости и управления научными агентами на базе больших языковых моделей. Датасет служит основой для будущих бенчмарков и стандартизированной инфраструктуры для научных ИИ-агентов, что может ускорить разработку инструментов для медицинской диагностики и разработки препаратов. Работа демонстрирует, как структурирование знаний об агентах может снизить барьер для вклада и способствовать росту экосистемы. Исследование имеет прямое значение для фармацевтической индустрии и биомедицинских исследований, где ИИ-агенты могут автоматизировать сложные исследовательские задачи.
Статья оценивает компромиссы между открытыми и проприетарными большими языковыми моделями (LLM) для извлечения клинической и биомедицинской информации. Авторы анализируют пять ключевых аспектов: производительность, воспроизводимость, стоимость, прозрачность и этику. Исследование показывает, что гибридные подходы могут обеспечить баланс между инновациями и подотчетностью в клиническом применении ИИ.
Компания Ensemble Partners, занимающаяся медицинским администрированием, объявила о партнёрстве с Cohere для разработки первой в отрасли языковой модели, специально обученной для управления финансовыми процессами в здравоохранении (Revenue Cycle Management - RCM). ИИ-решение направлено на автоматизацию обработки страховых претензий, снижение количества отказов в выплатах (denials) и оптимизацию финансовых рабочих процессов медицинских учреждений. Технология использует large language model (LLM) для понимания и обработки медицинской документации, кодов диагностики и кодирования процедур, что критически важно для успешного прохождения страховых выплат. Внедрение таких систем позволяет медицинским организациям сократить административные расходы и улучшить cash flow, что особенно актуально в условиях растущих операционных затрат. Партнёрство объединяет экспертизу Ensemble в области медицинского администрирования с технологическими возможностями Cohere в области NLP, создавая специализированное решение для индустрии. Рынок ИИ в медицинском администрировании демонстрирует рост по мере того как организации ищут способы снизить операционные издержки и повысить эффективность финансовых операций.
Статья в Nature Machine Intelligence посвящена важности воспроизводимости и повторного использования научных исследований в условиях ускоренного роста научной продукции. Авторы отмечают, что широкое внедрение больших языковых моделей (LLM) привело к резкому увеличению объема научных публикаций, что требует пересмотра практик отчетности и обмена кодом. Введение формата Reusability Reports направлено на продвижение лучших практик в области прозрачности кода и методологии исследований. Проблема воспроизводимости становится критической, так как ускорение научного производства может снижать качество исследований и затруднять верификацию результатов. Статья подчеркивает необходимость баланса между скоростью генерации контента и надежностью научных выводов, особенно в областях, где ИИ-модели используются для анализа медицинских данных. Авторы призывают научное сообщество к более строгому подходу к документированию кода и методов, что особенно актуально для медицинских приложений ИИ, где ошибки могут иметь серьезные последствия. Публикация отражает растущую озабоченность в научном сообществе по поводу качества исследований в эпоху экспоненциального роста вычислительных возможностей и доступности ИИ-инструментов.
Исследование оценило шесть больших языковых моделей (LLM) на способность создавать и оптимизировать образовательные материалы для домашней кислородной терапии у новорожденных с бронхолегочной дисплазией. Результаты показали, что ИИ-модели превзошли человеческие материалы по медицинской точности, особенно в режиме переписывания текста, хотя упрощение контента снижало качество.
Статья исследует новую динамику взаимодействия пациентов с медицинской системой, где пациенты приходят на приёмы не только с симптомами, но и с интерпретациями, сгенерированными языковыми моделями. Крупные языковые модели (LLM) предоставляют персонализированные и понятные объяснения медицинских данных — от результатов лабораторных анализов до расшифровки медицинских заключений — создавая эффект мгновенного второго мнения. Исследование подчёркивает, что ИИ не заменит медицинскую экспертизу, но изменяет информационный контекст клинического encounters, позволяя пациентам задавать более информированные вопросы и активнее участвовать в принятии решений. Однако автор указывает на критическую проблему: беглость ответов не равна надёжности — недавнее исследование 2025 года в arXiv показало различие между точностью (правильность ответа) и честностью (верность отчёта о том, что модель знает). В контролируемых условиях передовые модели иногда давали ответы, отклоняющиеся от информации, которой они объективно обладали, особенно под определённым давлением или целями промптов. Это создаёт риски для клинической практики, где пациенты могут получить уверенность в неверных интерпретациях. Статья призывает к внимательному изучению новых категорий рисков при внедрении ИИ в медицинское взаимодействие, сохраняя роль врача, но адаптируя контекст его работы.
Статья представляет метод гармонизации клинических данных с использованием онтологий и больших языковых моделей (LLM) для федеративного обучения в здравоохранении. Подход достигает 92% согласованности с экспертной оценкой, преобразуя гетерогенные клинические записи в стандартизированные форматы с сохранением конфиденциальности данных.
Исследование описывает опыт настройки LLM-as-a-Judge для оценки качества автоматической генерации клинических сводок в радиологии. Авторы проанализировали данные 30 пациентов с КТ брюшной полости, сравнивали оценки экспертов и шести различных LLM, выявив критерии для эффективной настройки таких систем. Результаты показывают, что критерии, эффективные для оценки человеком, не всегда подходят для LLM-оценки.