有名な生成 AI である ChatGPT は、小児医療ケースを診断する能力がテストされています。この結果は、特に子供が罹患する病気に関しては、あまり期待できるものではありません。
JAMA Pediatrics に今週掲載された研究では、ChatGPT-4、最新バージョンのチャットボットでは、100 件のまれなケースの診断に直面した場合、正解率は 17% にすぎませんでした。この率は、昨年の同様のテストで ChatGPT-3 によって得られた 39% の精度を大幅に下回っています。
ニューヨークのコーエン小児医療センターの研究者らが主導したこの研究は、複雑な診断に AI チャットボットを使用することの限界と課題を浮き彫りにしています。特に子供たちにとっては。研究者らは、小児の症例では患者の年齢や発達段階に細心の注意を払う必要があり、子供やその親から症状を引き出すためのより多くのコミュニケーションスキルが必要であると強調している。
こちらもお読みください–ChatGPT が獣医師の誤診から犬の命を救う
研究者らは、2013年から2023年の間にJAMA PediatricsとNEJMに掲載された100件の小児症例を使用した。これらの症例は、慎重な分析と推論を必要とする珍しいまたは異常な状態を伴うため、医師の診断スキルをテストするように設計されていた。研究者らは症例のテキストをChatGPTに転送し、診断を提供するよう依頼した。。次に、2 人の医師兼研究者がチャットボットの応答を評価し、正解、不正解、または部分的に正解としてスコアを付けました。
ChatGPT が正しかったのは 17 件のみで、72 件は間違っており、11 件は部分的に正しかった。部分的に正しいケースとは、ChatGPT が正しい診断に関連する診断を与えたが、正確であると考えるには曖昧または一般的すぎる診断を示したケースです。
研究者らも次のことに気づいたChatGPT は、人間の医師が容易に認識できるようなさまざまな病状間の関係を特定することが困難でした。。たとえば、ChatGPT は自閉症と壊血病を関連付けることができませんでしたが、どちらもビタミン C 欠乏症と関連しており、腎臓結石と腎臓がんを混同するなど、同じ臓器系に関連するエラーも犯しました。
研究者らは、ChatGPT が医学書を使用してトレーニングされ、よりリアルタイムの医療データにアクセスできるようにすることで、パフォーマンスを向上できる可能性があると示唆しています。私たちはすでに見ることができていました医師17人が気づかなかった病気の診断にAIが成功, そのため、数年以内にAIが一部の医師よりも有能になることも不可能ではありません。