Искусственный Интеллект не может заменить врача

LMM или искусственный интеллект хорошо помогает врачам и гораздо менее полезен для пациентов

Содержание:

Два исследования, согласно одному - ИИ - прекрасное подспорье врачу и хорошо выдерживает испытания и экзамены по медицине
ИИ в медицине: обладает знаниями, но не очень удачно взаимодействует с пациентами

Во всем мире мы сейчас наблюдаем бум развития технологий искусственного интеллекта. Я размышляю о роли ИИ в клинической практике. На днях вышла отличная статья, опубликованная группой ученых из США и Великобритании.

В этом исследовании авторы продемонстрировали, что ИИ может прекрасно анализировать теоретические медицинские знания и даже сдавать экзамены на получение медицинской лицензии с почти идеальными результатами.
Однако, когда исследователи проверили способность этих же устройств помогать обычным людям в самостоятельной постановке диагнозов и принятии решений о том, что делать дальше, результаты оказались неутешительными: участники, использующие ИИ, правильно определили свое состояние менее чем в 34,5% случаев, а правильные дальнейшие рекомендации были даны в 44,2% случаев.

Интересно, что эти данные диаметрально отличаются от другого исследования, опубликованного буквально неделей ранее в Nature, где авторы показали точность результатов ИИ около 90%. Почему же такая огромная разница между двумя исследованиями?

Два исследования, согласно одному - ИИ - прекрасное подспорье врачу, хорошо выдерживает испытания и экзамены по медицине

Авторы пришли к выводу, что непосредственное взаимодействие с обычным пользователем представляет собой серьезную проблему при использовании большой языковой модели (LLM, БЯМ, ИИ) для тех ситуаций, когда пациент самостоятельно консультируется с помощью ИИ для диагностики и принятия решений.

Мы, врачи, обучены специальным образом расспрашивать пациента, интерпретировать и структурировать жалобы, часто сложные, расплывчатые, а порой и весьма странные, и также информацию об истории заболевания. Именно такая, четкая структурированная информация и требуется искусственному интеллекту, чтобы он раскрыл весь свой потенциал.

Это означает, что когда пациенты используют LLM самостоятельно для постановки диагнозов или поиска рекомендаций по лечению, вероятность ошибки очень высока. И вот мы снова приходим к выводу, что только хорошо образованный и опытный врач может взаимодействовать с LLM таким образом, чтобы получать точные и содержательные выводы. Но это не относится к возможностям пациента получить верные и безопасные рекомендации от LLM.

Статья о том, что LLM могут быть хорошим подспорьем для врача
https://www.nature.com/articles/s41586-025-08869-4

В статье из Nature описывается исследование с применением специально обученного ИИ на основе базы медицинской информации. Показано, что врачи, пользовавшиеся Articulate Medical Intelligence Explorer (AMIE), были точнее в постановке диагноза и затрачивали меньше времени, чем другая группа врачей, получавших такие же анамнезы, но без доступа к консультациям c ИИ. То есть, специализированный ИИ для врачей может представлять действительно полезный инструмент.

ИИ в медицине: обладает знаниями, но не очень удачно взаимодействует с пациентами

Далее, исследование, которое было посвящено более серьезной проблеме - самолечение пациентов при помощи доступных им БЯМ. Пациенты консультировались у ИИ насчет своих симптомов и получали диагноз и принимали решение - обращаться к врачу или лечиться своими средствами, которые доступны без обращения к врачу. Самолечение пациентов при помощи ИИ дает существенно меньше пользы, чем когда ИИ применяют врачи.
Обзор и перевод Clinical knowledge in LLMs does not translate to human interactions

Современные большие языковые модели (БЯМ или LLM, LLMs - множественное число, несколько ИИ) демонстрируют высокий уровень клинической осведомлённости и успешно проходят профессиональные медицинские тесты. Однако их использование в реальных условиях требует не только знаний, но и способности к эффективному взаимодействию с пользователями.

В статье «Clinical knowledge in LLMs does not translate to human interactions» исследуется, способны ли LLM действительно помогать обычным людям в распознавании симптомов и принятии решений по обращению за медицинской помощью. Авторы приходят к выводу, что успехи моделей в стандартных бенчмарках не отражают их реальной эффективности в повседневной практике пациентов, которые не обращаются к врачу, а применяют LLM.

Предмет исследования и проблематика

С быстрым развитием LLMs, таких как GPT-4, Llama3 и другие, возникает вопрос: могут ли эти модели стать «новыми воротами» в системе здравоохранения, облегчая доступ к медицинской информации и снижая нагрузку на специалистов? В контексте растущего числа пользователей, обращающихся к ИИ за медицинскими советами, важно оценить, насколько эффективно такие системы взаимодействуют с непрофессиональными пользователями.

Несмотря на выдающиеся результаты на экзаменационных задачах, включая американский экзамен на медицинскую лицензию USMLE, все больше исследований указывает на разрыв между теоретическими знаниями моделей и их практической полезностью. Основная гипотеза данной работы заключается в том, что LLMs могут демонстрировать отличные знания, но при этом не обеспечивают эффективной передачи информации человеку в условиях реального использования.

Методология: постановка и дизайн исследования

Авторы провели рандомизированное контролируемое исследование (RCT) с участием 1298 взрослых жителей Великобритании. Все участники получали описание одного из 10 медицинских сценариев, составленных командой практикующих врачей. Сценарии охватывали типичные, но потенциально серьёзные клинические случаи — от головной боли и одышки до желудочных болей и сыпи.

Целью участников было:

1. Определить возможные медицинские состояния, объясняющие симптомы.
2. Выбрать соответствующую диспозицию (т.е. уровень медицинской помощи): от «самообслуживания» до вызова скорой помощи.

Группы участников:
Контрольная группа: использовали свои привычные средства поиска информации (например, интернет).
Три экспериментальные группы: пользовались одним из LLMs — GPT-4, Llama3 или Command R+ — для получения подсказок и консультаций в режиме диалога.

Дополнительно авторы провели:
Оценку LLMs без участия пользователей (модели решали медицинские задачи самостоятельно).
Эксперимент с симулированными пользователями, также управляемыми LLMs.

Оценка результатов проводилась по двум основным критериям:
Точность диспозиции — насколько корректно был выбран уровень медицинской помощи.
Выявление релевантных состояний — попадание в перечень диагнозов, составленный врачами-экспертами.

Ключевые результаты исследования:
1. Участники с LLMs не показали улучшения

Несмотря на то, что LLMs самостоятельно определяли правильные диагнозы в ~95% случаев, их совместное использование с людьми, то есть - с пациентами не приводило к повышению точности.

Участники с помощью LLMs реже определяли правильные состояния (до 34,5%), чем те, кто действовал без них (до 47% в контрольной группе). То есть, пользователи, взаимодействующие с этими же моделями, правильно определяют диагнозы менее чем в 34,5% случаев.

По выбору диспозиции (обращаться к врачу или самому полечиться обычными средствами) разницы между группами не было, точность была ~43% — выше случайного выбора, но всё ещё неудовлетворительная.

2. Причина провала - сбои во взаимодействии пациента и модели LLM

Анализ текстов взаимодействия показал:
Пользователи не сообщали моделям ключевую информацию (например, «резкая» головная боль или сыпь после еды).
LLMs в большинстве случаев предлагали правильные предположения, но пользователи их не включали в итоговые ответы, не осознавая значимость или игнорируя их.
Даже при наличии правильных подсказок, интерпретация рекомендаций моделей пользователями оказалась затруднена.

3. Медицинские экзамены, которые проходит ИИ, не отражают реальные сценарии при работе с человеком

Модели проходили MedQA (экзаменационные медицинские вопросы) с результатами выше 80%, но это никак не коррелировало с успешностью при работе с людьми.

В 26 из 30 случаев точность на бенчмарке была выше, чем в живом эксперименте с человеком.

4. Симуляции ИИ напротив ИИ не могут заменить реальных пользователей

В экспериментах с виртуальными пациентами (LLM общается с другим LLM) точность определения диспозиции и диагноза превышала 60%.

Однако такие результаты не отражают поведения реальных пользователей — различия по сценариям оказались слабо коррелированными (R² близка к нулю).

Следовательно, тестирование только на симулированных данных — ненадёжно.

5. Самолечение при помощи LLM может быть опасным

LLMs не готовы к самостоятельному использованию в здравоохранении без надзора специалиста.
Обширные знания моделей не гарантируют улучшения в принятии решений обычными людьми, которые принимают их за врача.

Необходима разработка моделей, способных эффективно взаимодействовать с пользователем, включая:

запрос недостающей информации;
упрощённые, но точные рекомендации;
визуализацию вариантов и последствий решений;
обучение пользователя в процессе.

Авторы подчёркивают: системы здравоохранения и регуляторы должны включать пациентские пользовательские тесты в оценку безопасности и пригодности ИИ-моделей, особенно при планируемом публичном внедрении.
Работа даёт важное предостережение: даже модели, успешно прошедшие медицинские экзамены, могут не справляться с практическими задачами взаимодействия с реальными людьми, с пациентами. Это требует смещения фокуса от исключительно технической оценки знаний к оценке интерактивных, человеко-ориентированных качеств моделей.
Только так возможно безопасное и эффективное внедрение ИИ в здравоохранение.

Прием психиатра в Москве

Фобические расстройства - агорафобия

ОКР или обсессивно-компульсивное расстройство, симптомы и лечение

БАР или биполярное расстройство, симптомы и лечение

Подпишитесь на блог, чтобы быть в курсе
свежих новостей