第 7 データ解析の使用例
チャプターリード: David Madigan
OHDSIのコラボレーションは、通常、請求データベースや電子健康記録データベースの形態で実世界のヘルスケアデータから信頼できるエビデンスを生成することに焦点を当てています。OHDSIが焦点を当てる使用例は、以下の3つの主要なカテゴリに分かれます:
- 特徴分析
- 集団レベルの推定
- 患者レベルの予測
これらを以下で詳細に説明します。すべての使用例について、生成するエビデンスはデータの限界を継承します; これらの限界については、エビデンスの質に関する本のセクション(Chapters 14 - 18)で詳しく議論します。
7.1 特徴分析
特徴分析は次の質問に答えようとします
彼らに何が起こったのか?
データを使用して、コホート全体やデータベース全体における人物の特性、ヘルスケアの実践、およびこれらの変化を時間とともに研究する質問に答えることができます。
データが答えを提供できる質問の例は次のとおりです:
- 新たに心房細動と診断された患者のうち、何人がワルファリンの処方を受けるか?
- 股関節置換術を受けた患者の平均年齢は?
- 65歳以上の患者の肺炎の発生率は?
典型的な特徴分析の質問は次のように定式化されます:
- 何人の患者が…?
- どのくらいの頻度で…?
- 何割の患者が…?
- ラボの数値の分布はどのようになっているか…?
- 患者のHbA1cレベルは…?
- 患者のラボ値は…?
- 患者の曝露期間の中央値は…?
- 時間の経過に伴う傾向は?
- これらの患者が使用している他の薬は何か?
- 併用療法は?
- …の症例が十分にあるか?
- Xを研究することが可能か?
- …の人口統計学は?
- …のリスク要因は?(特定のリスク要因を識別する場合、推定か予測)
- …の予測因子は?
望ましい出力は次のとおりです:
- カウントまたはパーセンテージ
- 平均
- 記述統計
- 発生率
- 有病率
- コホート
- ルールベースの表現型
- 薬剤利用
- 病気の自然史
- アドヒアランス
- 共病プロファイル
- 治療パスウェイ
- 治療ライン
7.2 集団レベルの推定
限られた範囲で、データはヘルスケア介入の効果に関する因果推論をサポートすることができ、次の質問に答えます
因果効果は何か?
行動の結果を理解するために因果効果を理解したいです。例えば、特定の治療を行うことに決めた場合、将来に何が起こるかがどのように変わるかを理解したいです。
データが答えを提供できる質問の例は次のとおりです:
- 新たに心房細動と診断された患者において、治療開始後最初の1年間で、ワルファリンはダビガトランよりも多くの主要な出血を引き起こすか?
- メトホルミンの下痢に対する因果効果は年齢によって異なるか?
典型的な集団レベルの効果推定の質問は次のように定式化されます:
- …の効果は?
- 介入…を行った場合は?
- どの治療がより良いか?
- Yに対するXのリスクは?
- …のイベントまでの時間は?
望ましい出力は次のとおりです:
- 相対リスク
- ハザード比
- オッズ比
- 平均治療効果
- 因果効果
- 関連
- 相関
- 安全監視
- 比較効果
7.3 患者レベルの予測
データベースに収集された患者の健康履歴に基づいて、将来の健康イベントに関する患者レベルの予測を行い、次の質問に答えます
私には何が起こるのか?
データが答えを提供できる質問の例は次のとおりです:
- 新たに重度うつ病と診断された特定の患者について、診断後最初の1年間でその患者が自殺を試みる確率は?
- 新たに心房細動と診断され、ワルファリンで治療を開始した特定の患者について、治療開始後最初の1年間で脳梗塞を発症する確率は?
典型的な患者レベルの予測の質問は次のように定式化されます:
- この患者が…する可能性は?
- …の候補は誰か?
望ましい出力は次のとおりです:
- 個人の確率
- 予測モデル
- 高リスク/低リスクグループ
- 確率的表現型
集団レベルの推定と患者レベルの予測はある程度重なることがあります。例えば、重要な予測の使用例として、薬剤Aが処方された場合の特定患者に対する結果を予測し、薬剤Bが処方された場合の同じ結果を予測するというものがあります。現実にはこれらの薬のうちどちらか一方の薬(例えば薬剤A)が実際に処方されるため、Aの治療後の結果が実際にどうなるかを観察することができます。薬剤Bが処方されなかったため、Bでの治療後の結果は予測可能ではありますが、「反事実」であり、実際には観察されません。これらの予測タスクの各々は患者レベルの予測に該当します。しかし、結果の差(または比)は単位レベルの因果効果であり、因果効果推定方法を使用して推定する必要があります。
人々は予測モデルを因果モデルとして誤解釈する傾向があります。しかし、予測モデルは相関のみを示すことができ、因果関係を示すことはできません。例えば、糖尿病薬の使用は心筋梗塞(MI)の強力な予測因子であるかもしれませんが、それは糖尿病がMIの強力なリスク要因だからです。しかし、それは糖尿病薬を中止することでMIを予防できるということを意味しません!
7.4 高血圧における使用例
あなたは、ACE阻害薬単独療法とチアジド系利尿薬単独療法が高血圧の初期治療として急性心筋梗塞や血管浮腫の結果に及ぼす影響を研究することに興味がある研究者です。OHDSIの文献に基づいて、集団レベルの効果推定の質問をしていることを理解していますが、まず、この特定の治療に関する特徴解析を行うための準備を行う必要があります。
7.4.1 特徴分析の質問
急性心筋梗塞は高血圧患者に発生する可能性のある心血管合併症であり、高血圧に対する効果的な治療法はリスクを軽減するべきです。血管浮腫はACE阻害薬の既知の副作用であり、稀であるが潜在的に深刻です。あなたは、対象の曝露(ACE阻害薬の新規使用者およびチアジド系利尿薬の新規使用者)のコホートを作成することから始めます(Chapter 10を参照)。曝露集団のベースライン特性を要約するための特徴分析(Chapter 11を参照)解析を実行し、人口統計学的特性、併存疾患、および併用薬を含みます。この曝露集団内で選択されたアウトカムの発生率を推定するための別の特徴解析を実行します。ここで、「ACE阻害薬およびチアジド系利尿薬に曝露された期間に急性心筋梗塞および血管浮腫がどのくらいの頻度で発生するか?」という質問をします。これらの特徴分析により、集団レベルの効果推定研究を実施することの実行可能性を評価し、2つの治療グループが比較可能かどうかを評価し、患者の治療選択を予測する‘リスク因子’を特定することができます。
7.4.2 集団レベルの推定質問
集団レベルの効果推定研究(Chapter 12を参照)は、急性心筋梗塞と血管浮腫のアウトカムに対するACE阻害薬対チアジド導入治療の相対リスクを推定します。ここで、診断およびネガティブコントロールを通じて、平均治療効果の信頼できる推定を生成できるかどうかをさらに評価します。
7.4.3 患者レベルの予測質問
曝露の因果効果とは独立して、アウトカムのリスクが最も高い患者を特定しようとすることにも興味があります。これは患者レベルの予測問題です(Chapter 13を参照)。ここで、ACE阻害薬の新規使用者の中で、治療開始後の1年間に急性心筋梗塞を発症するリスクが最も高い患者を評価する予測モデルを開発します。このモデルにより、ACEを初めて処方された患者について、その医療履歴から観察されたイベントに基づき、次の1年間でAMIを経験する確率を予測することができます。 ## 観察研究の限界
OHDSIデータベースでは回答できない重要な医療質問が多く存在します。これらには以下が含まれます:
- プラセボと比較した介入の因果効果。治療と非治療を比較する因果効果を考えることは可能な場合もありますが、プラセボ治療と比較することはできません。
- 市販薬に関連するすべてのこと。
- 多くの成果やその他の変数は、ほとんど記録されていないか、まばらにしか記録されていません。これには、死亡率、行動成果、ライフスタイル、社会経済的地位が含まれます。
- 患者は体調が悪いときにしか医療システムに遭遇しない傾向があるため、治療の利益を測定することが困難です。
7.4.4 誤ったデータ
OHDSIデータベースに記録されている臨床データは、臨床現実から逸脱することがあります。例えば、患者の記録に心筋梗塞のコードが含まれているが、実際には心筋梗塞を経験していない場合があります。同様に、検査値が誤っている場合や、手技の誤ったコードがデータベースに現れることもあります。(ref?)(DataQuality)および@ref(ClinicalValidity)の各章でこれらの問題について議論し、できる限り多くのこれらの問題を特定して修正するための良い実践方法を紹介しています。それにもかかわらず、誤ったデータはある程度残り続け、その後の分析の妥当性を損なう可能性があります。データの誤りを考慮した統計推論の調整に焦点を当てた文献は豊富であり、例えば@fuller2009measurementを参照してください。
7.4.5 欠損データ
OHDSIデータベースにおける欠損は微妙な課題を呈します。データベースに記録されるべき健康イベント(例:処方、検査値など)が記録されていない場合、それは「欠損」しています。統計学の文献では、「完全にランダムに欠損している」、「ランダムに欠損している」、および「非ランダムに欠損している」などの欠損のタイプを区別し、それらのタイプに対処する方法の複雑さを増す方法を試みます。(perkins2017principledはこのトピックに関する有用な入門書を提供しています?)。
7.5 まとめ
観察研究では、3つの大きな使用例のカテゴリーを区別します。
特性化は「彼らに何が起こったか?」という質問に答えようとします。
集団レベルの推定は「因果効果は何か?」という質問に答えようとします。
患者レベルの予測は「私には何が起こるか?」という質問に答えようとします。
予測モデルは因果モデルではありません。強力な予測因子に介入しても結果に影響を与える理由はありません。
観察医療データを使用して回答できない質問があります。
7.6 演習
演習 7.1 これらの質問はどの使用例カテゴリーに属しますか?
最近NSAIDsに曝露された患者の消化管(GI)出血率を計算します。
基本的な特徴に基づいて、特定の患者が次の年にGI出血を経験する確率を計算します。
セレコキシブと比較してジクロフェナクによるGI出血のリスク増加を推定します。
演習 7.2 ジクロフェナクと非曝露(プラセボ)を比較してGI出血のリスク増加を推定したいと考えています。これは観察医療データを使用して行うことができますか?
推奨される回答は、Appendix (ref?)(UseCasesanswers)にあります。