ChatGPT впервые сдал экзамен по неврологии

Последнее обновление OpenAI своей большой языковой модели (LLM), ChatGPT-4.0, прошло клинический неврологический экзамен, получив 85% правильных ответов в ходе проверочного исследования. Авторы исследования полагают, что после некоторой доработки LLM могут иметь «значительные применения» в клинической неврологии.

Результаты эксперимента, проведенного группой исследователей из университетской больницы Гейдельберга и Немецкого онкологического исследовательского центра в Гейдельберге, были опубликованы 7 декабря. В тесте, проведенном 31 мая, участвовали два LLM: ChatGPT-3.5 и его более поздняя версия ChatGPT-4.0.

Исследователи использовали банк вопросов для экзамена по неврологии от Американского совета психиатрии и неврологии с небольшой группой вопросов от Европейского совета по неврологии.

Связанный: Демо-версию Gemini от Google теперь обвиняют в «фейковости»

В то время как старая версия ChatGPT набрала 66,8%, правильно ответив на 1306 из 1956 вопросов, более поздняя модель ChatGPT-4.0 набрала 85% с 1662 правильными ответами. Средний балл человека составил 73,8%. ChatGPT-4.0 превзошел пользователей-людей в вопросах поведенческого, когнитивного и психологического характера и эффективно «сдал» экзамен по неврологии, поскольку 70% правильных ответов обычно считаются проходным баллом в учебных заведениях.

Однако обе модели продемонстрировали более низкую эффективность в задачах, требующих «мышления более высокого порядка», чем в вопросах, требующих только «мышления более низкого порядка».

По мнению группы исследователей, проводивших эксперимент, эти результаты служат рекомендацией к использованию LLM в клинической неврологии после некоторых модификаций:

«Эти результаты показывают, что при дальнейших усовершенствованиях большие языковые модели могут найти существенное применение в клинической неврологии».

Исследователи отмечают, что есть еще несколько оговорок. Хотя существует ясная перспектива применения LLM в системах документации и поддержки принятия решений, неврологам следует с осторожностью использовать их на практике, поскольку они все еще несовершенны в отношении когнитивных задач высокого порядка. В беседе с один из авторов исследования, доктор Варун Венкатарамани, сказал:

«Мы рассматриваем наше исследование скорее как подтверждение концепции возможностей LLM. Все еще требуется разработка и, возможно, даже конкретная доработка LLM, чтобы сделать их пригодными для клинической неврологии».

ИИ уже работает над некоторыми важными задачами в сфере здравоохранения, такими как поиск лекарства от рака для AstraZeneca или борьба с чрезмерным назначением антибиотиков в Гонконге.

Журнал: Страхи и сомнения законодателей стимулируют предлагаемые правила криптовалюты в США