Далее, исследование, которое было посвящено более серьезной проблеме - самолечение пациентов при помощи доступных им БЯМ. Пациенты консультировались у ИИ насчет своих симптомов и получали диагноз и принимали решение - обращаться к врачу или лечиться своими средствами, которые доступны без обращения к врачу. Самолечение пациентов при помощи ИИ дает существенно меньше пользы, чем когда ИИ применяют врачи.
Обзор и перевод
Clinical knowledge in LLMs does not translate to human interactions Современные большие языковые модели (БЯМ или LLM, LLMs - множественное число, несколько ИИ) демонстрируют высокий уровень клинической осведомлённости и успешно проходят профессиональные медицинские тесты. Однако их использование в реальных условиях требует не только знаний, но и способности к эффективному взаимодействию с пользователями.
В статье
«Clinical knowledge in LLMs does not translate to human interactions» исследуется, способны ли LLM действительно помогать обычным людям в распознавании симптомов и принятии решений по обращению за медицинской помощью. Авторы приходят к выводу, что успехи моделей в стандартных бенчмарках не отражают их реальной эффективности в повседневной практике пациентов, которые не обращаются к врачу, а применяют LLM.
Предмет исследования и проблематикаС быстрым развитием LLMs, таких как GPT-4, Llama3 и другие, возникает вопрос: могут ли эти модели стать «новыми воротами» в системе здравоохранения, облегчая доступ к медицинской информации и снижая нагрузку на специалистов? В контексте растущего числа пользователей, обращающихся к ИИ за медицинскими советами, важно оценить,
насколько эффективно такие системы взаимодействуют с непрофессиональными пользователями.
Несмотря на выдающиеся результаты на экзаменационных задачах, включая американский экзамен на медицинскую лицензию USMLE, все больше исследований указывает на
разрыв между теоретическими знаниями моделей и их практической полезностью. Основная гипотеза данной работы заключается в том, что LLMs
могут демонстрировать отличные знания, но при этом не обеспечивают эффективной передачи информации человеку в условиях реального использования.
Методология: постановка и дизайн исследованияАвторы провели
рандомизированное контролируемое исследование (RCT) с участием 1298 взрослых жителей Великобритании. Все участники получали описание одного из
10 медицинских сценариев, составленных командой практикующих врачей. Сценарии охватывали типичные, но потенциально серьёзные клинические случаи — от головной боли и одышки до желудочных болей и сыпи.
Целью участников было:1. Определить возможные медицинские состояния, объясняющие симптомы.
2. Выбрать соответствующую
диспозицию (т.е. уровень медицинской помощи): от «самообслуживания» до вызова скорой помощи.
Группы участников:Контрольная группа: использовали свои привычные средства поиска информации (например, интернет).
Три экспериментальные группы: пользовались одним из LLMs — GPT-4, Llama3 или Command R+ — для получения подсказок и консультаций в режиме диалога.
Дополнительно авторы провели:
Оценку LLMs без участия пользователей (модели решали медицинские задачи самостоятельно).
Эксперимент с симулированными пользователями, также управляемыми LLMs.
Оценка результатов проводилась по двум основным критериям:Точность диспозиции — насколько корректно был выбран уровень медицинской помощи.
Выявление релевантных состояний — попадание в перечень диагнозов, составленный врачами-экспертами.
Ключевые результаты исследования: 1. Участники с LLMs не показали улучшенияНесмотря на то, что
LLMs самостоятельно определяли правильные диагнозы в ~95% случаев, их совместное использование с людьми, то есть - с пациентами
не приводило к повышению точности.
Участники с помощью LLMs
реже определяли правильные состояния (до 34,5%), чем те, кто действовал без них (
до 47% в контрольной группе). То есть, пользователи, взаимодействующие с этими же моделями,
правильно определяют диагнозы менее чем в 34,5% случаев.
По выбору диспозиции (обращаться к врачу или самому полечиться обычными средствами)
разницы между группами не было, точность была ~43% — выше случайного выбора, но всё ещё неудовлетворительная.
2. Причина провала - сбои во взаимодействии пациента и модели LLMАнализ текстов взаимодействия показал:
Пользователи не сообщали моделям ключевую информацию (например, «резкая» головная боль или сыпь после еды).
LLMs в большинстве случаев предлагали правильные предположения, но
пользователи их не включали в итоговые ответы, не осознавая значимость или игнорируя их.
Даже при наличии правильных подсказок,
интерпретация рекомендаций моделей пользователями оказалась затруднена.
3. Медицинские экзамены, которые проходит ИИ, не отражают реальные сценарии при работе с человекомМодели проходили MedQA (экзаменационные медицинские вопросы) с результатами выше 80%, но это
никак не коррелировало с успешностью при работе с людьми.
В 26 из 30 случаев точность на бенчмарке была выше, чем в живом эксперименте с человеком.
4. Симуляции ИИ напротив ИИ не могут заменить реальных пользователейВ экспериментах с
виртуальными пациентами (LLM общается с другим LLM) точность определения диспозиции и диагноза
превышала 60%.
Однако такие результаты
не отражают поведения реальных пользователей — различия по сценариям оказались слабо коррелированными (R² близка к нулю).
Следовательно,
тестирование только на симулированных данных — ненадёжно.
5. Самолечение при помощи LLM может быть опаснымLLMs не готовы к самостоятельному использованию в здравоохранении без надзора специалиста.Обширные знания моделей не гарантируют улучшения в принятии решений обычными людьми, которые принимают их за врача.
Необходима
разработка моделей, способных эффективно взаимодействовать с пользователем, включая:
- запрос недостающей информации;
- упрощённые, но точные рекомендации;
- визуализацию вариантов и последствий решений;
- обучение пользователя в процессе.
Авторы подчёркивают: системы здравоохранения и регуляторы должны включать пациентские пользовательские тесты в оценку безопасности и пригодности ИИ-моделей, особенно при планируемом публичном внедрении.
Работа даёт важное предостережение: даже модели, успешно прошедшие медицинские экзамены, могут не справляться с практическими задачами взаимодействия с реальными людьми, с пациентами. Это требует смещения фокуса от исключительно технической оценки знаний к оценке интерактивных, человеко-ориентированных качеств моделей.
Только так возможно безопасное и эффективное внедрение ИИ в здравоохранение.