AIチャットボットは、がんに関する質問に正確に答えられるか?
米国国立がん研究所(NCI) がん研究ブログ
人工知能(AI)技術は、多くの人々にとって日常生活の一部となり、オンラインショッピングやSNSの利用といったありふれた行為に役立っている。しかし、AIを活用したチャットボットは、がんやがん治療に関する正確な情報を人々に提供できるのだろうか。
2つの新しい研究によると、「まだ提供できない」というのがその答えかもしれない。研究者らは、AIチャットボットは信頼できる情報源からがん情報を収集することが可能であるが、その回答には誤りや脱落、患者向けではなく医療専門家向けの文言が含まれる可能性があることがわかった。
今回の研究の1つを統括したDanielle Bitterman医師(ボストン、Mass General Brigham社 医学における人工知能プログラム)は、「私たちはまだAI黎明期にあります。AIチャットボットは、医学情報を合成することはできますが、患者からの臨床的な質問に対して信頼できる回答を一貫して生成することは、まだできません」と話す。
Bitterman医師らはChatGPTバージョン3.5に対して、「ステージIの乳がんの治療法は?」等、さまざまな形態のがんへの基本的な治療アプローチについて説明するよう尋ねた。
チャットボットのほぼすべての回答には、専門家向けの臨床ガイドラインと一致する治療アプローチが1つ以上含まれていた。しかし、回答の約3分の1は、診療ガイドラインと一致しない推奨事項が少なくとも1つあった。
2つ目の研究では、ChatGPTバージョン3.5など4つのチャットボットに対し、一般的ながんについての質問(「前立腺がんとは何ですか?」など)をした。チャットボットはほとんどの場合、がんについての正確な情報を提供したが、回答の多くは一般の患者には専門性が高すぎることがわかった。
両グループは8月24日に、JAMA Oncology誌に研究結果を発表した。
ヘルスコミュニケーションの研究者であり、これらの研究には関与していないWen-Ying Sylvia Chou博士(NCIがん管理・集団科学部門)は、「今回の研究は、がん情報を得るうえで、私たちがこれらのツールに頼ったり、患者や一般市民にその利用を促したりできる段階には至っていないとする理由を示しています」と述べた。
同博士は次のようにも続けた。「ですが、AI技術は存在し続けます。本研究は、がんのコミュニケーションおよびケアにおけるAIの利益と害について、思慮深い議論への扉を開くものです」。
既存のチャットボットを検証する
人工知能とは、学習、推論、問題解決など、一般に人間の知的行動と考えられている機能を実行するためのコンピュータの能力を指す。
チャットボットは、大規模言語モデルとして知られるAIの一種である。質問を解釈し、あたかも人が書いたかのようなテキスト回答を生成することができる。このモデルは、インターネット上の文章などから、大量の情報を学習する。
これらの研究で評価されたチャットボットは「既製品」であり、恐らく、選択された医療情報については学習していない。しかし、Atul Butte医学博士(カリフォルニア大学サンフランシスコ校 Bakar Computational Health Sciencces Institute責任者)は、医療分野で特定の学習トレーニングが施された新規モデルがリリースされているところだ、と付随論説で書いている。
今回の2研究は、いくつかのチャットボットの将来性とそれらの現在の限界を浮き彫りにしている。例えば、チャットボットは治療の正しい推奨事項と誤った推奨事項を継ぎ目なく組み合わせることができるため、専門家であってもその誤りを発見することは難しい、とBitterman医師は指摘する。
またBitterman医師は、「大規模言語モデルは、ある文章の中で次に来る単語を予測するようトレーニングされています。大規模言語モデルの主な目標は、流暢で言語的に意味のある回答を出すことですから、正しくない回答には驚きませんでした」とも話した。
一般的ながんについて、チャットボットに質問する
Bitterman医師のチームは、3つの一般的がん種である乳がん、肺がん、前立腺がんに焦点を当てた。チームは、早期(つまり「局所」)乳がんや進行肺がんなど、これらのがんの26の異なる診断への治療方針について、微妙に異なる4つの質問(プロンプト)を用意した。
研究者らは、回答とこれらのがんに対する米国総合がんセンターネットワーク(NCCN)ガイドラインを比較した。本研究では、2021年9月までのデータをもとに開発されたChatGPT (GPT-3.5-turbo-0301)が使用されたため、2021年のNCCNガイドラインをベンチマークとして使用した。
腫瘍医3名が104件の回答を採点した。チャットボットは、104件のプロンプトのうち102件(98%)に対し1つ以上の推奨事項を提供した。しかし、これら102件中35件(34.3%)は、ガイドラインの推奨と一致しない治療法を1つ以上推奨していることも判明した。
さらに、ChatGPTの回答の正確性については腫瘍医の間で意見が分かれることが多かった。研究者らは、このような意見の相違はNCCNガイドラインが複雑であることや、ChatGPTの回答が不明瞭であったり、解釈が困難な場合があることによると考えている。
注目すべきは、回答の13%にどの推奨治療にも該当しない治療方針が含まれていたことである。これらの回答には、ガイドラインに全く記載のない治療方針や、AI研究者らが「幻覚」と呼ぶ意味不明な治療方針が含まれていた。
4つのチャットボットを検証する
2つ目の研究では、5つの最も一般的ながん(皮膚がん、肺がん、乳がん、大腸がん、前立腺がん)に関するプロンプトに対してチャットボットChatGPT-3.5、Perplexity、Chatsonic、Bing AIが出した100件の回答が評価された。
「大腸がんスクリーニング」、「乳がんの徴候」、「メラノーマ」といったプロンプトは、2021年から2022年にかけてこれらのがんに関するグーグル検索クエリにおいて上位であったことに由来している。
チャットボットのうち3つが、アメリカがん協会(ACS)、メイヨークリニック、米国国立がん研究所(NCI)、疾病管理予防センターなど、評判の高い情報源からのがん情報を用いて回答していたことがわかった。
しかし研究者らは、チャットボットはテキストのみでは複雑な医療概念を説明できないかもしれないと述べている。例えば、リンパ節腫脹などの概念は、図や視覚的な補助なしでは説明が難しいだろうと指摘している。
一部の回答は大学生の読解力レベルで書かれており、研究者らは注意を促している。研究者らは、今後の研究で、よりわかりやすい回答を得るのに役立つであろうプロンプトを検証する計画だ。
研究リーダーのAbdo Kabarriti医師(ニューヨーク州立大学ダウンステート健康科学大学)は、「チャットボットの回答の多くは、平均的な患者が理解するには複雑過ぎました」と語った。
また同医師は、「チャットボットは非常に賢いかもしれません。しかし、患者からのがんの質問に回答するという点では、医師の代わりにはなりません」とも述べている。
チャットボットの精度がさらに上がれば、この技術のより適切な役割は、がん患者やその家族にとっての追加的な情報源になることだろう、と研究者たちは示唆した。
Kabarriti医師は、多くの患者は、診察時に大量の情報を耳にするため、すべてを記憶することは難しいことがあると述べた。また同医師は、このような議論から得られた一般的なアイデアのいくつかを「再強調」することでチャットボットが役に立つ可能性がある、とも付け加えた。
チャットボットの医療への応用を拡大する
Butte博士は、「今回の新しい研究は、大規模言語モデルをがんの研究やケアにどのように活用できるかを検討した初めての研究の一つです」と述べ、さらに多くの研究が実施されるだろう、とつけ加えた。
チャットボットは、ヘルスコミュニケーションですでに有望視されている。ある研究では、AIを活用したツールが、オンラインフォーラムに投稿された患者の質問に親身に回答したことがわかった。研究者らは、この結果から、多忙な医師が患者にメールで回答する際にAIが役立つだろうことが示唆されると述べた。
また、ChatGPT-3.5が最近、医師国家試験の一部に合格したことを受け、大規模言語モデルの使用により医学教育や臨床上の意思決定を支援できるかもしれないと示唆する研究者もいた。
しかし、チャットボットは個々の患者の医療に関する質問に答えるよりも、医師国家試験の質問に答える方が得意かもしれないと、Bitterman医師は指摘する。同医師が心配しているのは、患者がチャットボットからのアドバイスを額面通りに受け取ってしまうことだ。
Bitterman医師は、「AI技術の将来性は本当にエキサイティングですが、患者の安全に妥協はできません。私たちは今、これらの大規模言語モデルを最適化し、その性能と安全性を評価するために時間を費やさねばなりません」と述べた。
がん情報を得るための新規AIシステムを開発する
AI技術は急速に変化しており、研究者らが評価したチャットボットの一部はすでに時代遅れになっている可能性がある。
AIが進化するのと同様に、がん治療に対する推奨も変化する可能性がある。AI技術を開発する組織や企業は、チャットボットが最新の医療知識を確実に使用できるようにする方法を考え出さなければならない、と複数の専門家が述べている。
Chou医師は、がん情報を検索するために現在どのようにAIが使用されているかを詳しく知ることは、将来のAIシステムについての意思決定に役立つだろう、と述べた。
またChou医師は、これらのシステムの構築にあたり、どの言語モデルを「トレーニング」に使用するかの決定が結果に影響を及ぼす可能性があることを研究者らは認識する必要がある、と続けた。例えば、そのデータが特定の患者グループを除外したものであれば、そのバイアスが回答に反映されることになるだろう。
Bitterman医師は、「医療関係者として私たちは、さらなる臨床応用に向かうにあたり、これらのモデルの評価方法に関するベンチマークや基準を開発する必要があります」と述べた。
- 監訳 辻村信一(獣医学・農学博士、メディカルライター)
- 翻訳担当者 宮武洋子
- 原文を見る
- 原文掲載日 2023/10/03
【この記事は、米国国立がん研究所 (NCI)の了承を得て翻訳を掲載していますが、NCIが翻訳の内容を保証するものではありません。NCI はいかなる翻訳をもサポートしていません。“The National Cancer Institute (NCI) does not endorse this translation and no endorsement by NCI should be inferred.”】
【免責事項】
当サイトの記事は情報提供を目的として掲載しています。
翻訳内容や治療を特定の人に推奨または保証するものではありません。
ボランティア翻訳ならびに自動翻訳による誤訳により発生した結果について一切責任はとれません。
ご自身の疾患に適用されるかどうかは必ず主治医にご相談ください。
がんに関連する記事
若年AYA世代を質の高いがんケアにつなぐプログラム
2024年10月30日
毎年、約9万人の青年・若...
パンデミック後の新規がん診断件数、予想されたリバウンドはみられず
2024年10月22日
健康成人のマルチビタミン毎日摂取は、死亡リスク低下と関係がない
2024年7月11日
進行がん患者の終末期全身療法は予後を改善しない
2024年5月26日
進行が著しい固形がんを有する患者は全身療法を受けても全生存期間に有意な改善...