第 16 臨床的妥当性

章のリード: Joel Swerdel, Seng Chan You, Ray Chen & Patrick Ryan

物質をエネルギーに変換する可能性は、鳥がほとんどいない国で暗闇の中で鳥を撃つようなものだ。 アインシュタイン, 1935

OHDSIのビジョンは「観察研究が健康と病気の包括的な理解を生み出す世界」である。後ろ向きデザインは既存のデータを使用する研究の手段を提供するが、第14章で述べたように、有効性のさまざまな側面に対する脅威で満たされている場合がある。データの質や統計手法から臨床的妥当性を分離することは簡単ではないが、ここでは臨床的妥当性に関して、医療データベースの特性、コホートの妥当性確認、そしてエビデンスの一般化可能性という3つの側面に焦点を当てる。人口レベルの推定の例(第12章)に戻ってみよう。ここで私たちは「ACE阻害薬はチアジドまたはチアジド様利尿剤と比較して血管浮腫を引き起こすか」という質問に答えようとした。この例では、ACE阻害薬はチアジドまたはチアジド様利尿剤よりも多くの血管浮腫を引き起こしたことを示した。この章では、「実施された分析がどの程度まで臨床的意図に一致するか」という質問に答えることを目的としている。

16.1 医療データベースの特性

ここで見つけたのは、ACE阻害薬の処方と血管浮腫の関係であり、ACE阻害薬の使用と血管浮腫の関係ではないかもしれない。データの質については前章(15章)で既に議論した。コモンデータモデル(CDM)への変換されたデータベースの質は、元のデータベースを超えることはできない。ここでは、ほとんどの医療利用データベースの特性について話している。OHDSIで使用される多くのデータベースは、行政請求データまたは電子健康记录(EHR)から派生している。請求データとEHRはそれぞれ異なるデータキャプチャプロセスを持っており、どちらも研究が主な目的ではない。請求記録のデータ要素は、臨床医と支払者の間の経済取引のためにキャプチャされ、提供者が患者に提供したサービスが支払機関によって合意されるように十分に正当化されることを目的としている。EHR記録のデータ要素は、臨床ケアと管理運用をサポートするためにキャプチャされ、通常、特定の医療システム内の提供者が現在のサービスを記録し、同一システム内でのフォローアップケアに必要なコンテキストを提供するために必要と感じる情報のみを反映している場合がある。患者の完全な医療履歴を表さず、健康システム間のデータを統合していない可能性がある。

観察データから信頼できる証拠を生成するためには、患者がケアを求めた瞬間からそのケアを反映するデータが分析に使用される瞬間までデータがどのような道筋をたどるかを研究者が理解することが有用である。例として、「薬物曝露」は臨床医が書いた処方箋、薬局のディスペンシング記録、病院の手続き的投与、または患者自身が報告した薬物履歴など、さまざまな観察データソースから推測される可能性がある。データソースは、薬物の使用者が誰であるか、いつ、そしてどのくらいの期間使用されたかについての推論に対する信頼度に影響を与える可能性がある。データキャプチャプロセスは、無料サンプルや店頭販売薬が記録されない場合、または処方箋を書かれた患者が処方箋を埋めない、または処方された薬を従順に摂取しない場合など、曝露の過小評価を引き起こす可能性がある。曝露と結果の確定における潜在的なバイアスを理解し、さらに理想的にはこれらの測定誤差を定量化し、調整することが、利用可能なデータから導き出される証拠の妥当性に対する信頼度を高めることができる。 ## コホートバリデーション {#CohortValidation}

G. Hripcsak and Albers (2017) は、「表現型は生物の観察可能で潜在的に変化する状態の仕様であり、遺伝子型とは区別される。遺伝子型は生物の遺伝的構成から派生するものである。表現型という用語は、電子健康記録(EHR)データから推測される患者の特性に適用される。研究者たちは、インフォマティクスの初期から、構造化データとナラティブデータの両方からEHR表現型化を行ってきた。その目的は、生のEHRデータ、クレームデータ、または他の臨床的に関連するデータに基づいてターゲットとなる概念について結論を導き出すことである。表現型アルゴリズムとは、表現型を識別または特徴付けるアルゴリズムのことであり、ドメインエキスパートや知識工学の専門家によって生成される場合もあれば、最近の知識工学または多様な形式の機械学習による研究を含む、データの新しい表現を生成することでもある。」

この説明は、臨床的有効性を考える上で強調するのに役立ついくつかの属性を明確に示している。1) 観察可能なものであることを明確にしており(したがって観察データにキャプチャされる可能性がある)、2) 表現型仕様に時間の概念を含んでいる(人の状態は変わる可能性があるため)、3) 表現型を望ましい意図として区別し、表現型アルゴリズムをその意図の実装として区別している。

OHDSIは、一定期間の一つまたは複数の包含基準を満たす人物の集合を定義するために「コホート」という用語を採用している。「コホート定義」は、観察ベースデータベースに対してコホートを具現化するために必要なロジックを表している。この点で、コホート定義(または表現型アルゴリズム)は、対象となる臨床状態に属する人物を表現することを意図したコホートを作成するために使用される。

臨床的特徴づけ、集団レベルの効果推定、患者レベルの予測を含むほとんどのタイプの観察研究には、研究プロセスの一部として一つまたは複数のコホートの確立が必要である。これらの分析によって生成された証拠の有効性を評価するためには、各コホートについて次の質問を考慮する必要がある:コホート定義と利用可能な観察データに基づいてコホートに識別された人物が、実際に表現型に属する人物をどの程度正確に反映しているか?

集団レベルの推定の例(Chapter 12) “ACE阻害薬はチアジドまたはチアジド様利尿薬と比較して血管浮腫を引き起こすのか?”に戻ると、3つのコホートを定義する必要がある:ACE阻害薬の新規使用者の対象コホート、チアジド利尿薬の新規使用者の比較コホート、および血管浮腫を発症する人物の結果コホート。すべてのACE阻害薬またはチアジド利尿薬の使用が完全にキャプチャされていることにどれだけ自信があるだろうか?これにより、「新規使用者」は初めて観察された暴露によって特定され、以前の使用が考慮されることはないのか。ACE阻害薬の暴露記録を持つ人物が実際に薬に暴露されたことを推測でき、薬の暴露がない人物が実際には暴露されていないことを推測できるのか?薬の使用開始または中止時に「ACE阻害薬使用」状態として分類される期間を定義することに不確実性があるのか?「血管浮腫」状態を持つと記録された人物が実際に皮膚下の速やかな腫れを経験し、他の種類の皮膚アレルギー反応と区別されるのか?血管浮腫を発症した患者のうち、観察データを基にコホート定義に基づいてこれらの臨床ケースを特定するために医療を受けた患者の割合はどれくらいか?薬による誘発の可能性のある血管浮腫イベントが、食物アレルギーやウイルス感染症など他の要因によるイベントとどれだけうまく区別されるのか?疾病発症のタイミングが十分にキャプチャされているのか、暴露状態と結果発生の時間的関連性に自信を持てるのか?このような質問に答えることが、臨床的有効性の核心にある。

この章では、コホート定義の検証方法について説明する。最初に、コホート定義の有効性を測定するために使用する指標について説明し、次にこれらの指標を推定するための2つの方法について述べる:1) ソースレコード検証による臨床評価と、2) 診断予測モデリングを使用した半自動化方法であるPheValuator。

16.1.1 コホート評価指標

研究のためのコホート定義が確定したら、その定義の有効性を評価することができる。一般的な有効性評価手法は、定義されたコホート内の一部または全部の人物を参照となる「ゴールドスタンダード」と比較し、結果をコンフュージョンマトリックス(2×2のクロス集計表)に表現するものである。コンフュージョンマトリックスの要素は図 16.1 に示されている。

コンフュージョンマトリックス

図 16.1: コンフュージョンマトリックス

コホート定義の真偽の結果は、定義を特定の人物グループに適用することによって決定される。定義に含まれる人物は健康状態のポジティブと見なされ、「真」とラベル付けされる。コホート定義に含まれない人物は健康状態のネガティブと見なされ、「偽」とラベル付けされる。コホート定義で考慮される人物の健康状態の絶対的な真実を確定することは非常に困難であるが、ゴールドスタンダードを確立するための複数の方法があり、そのうちの2つはこの章で後述するいずれかの方法を利用する。使用される方法に関係なく、これらの人物のラベル付けはコホート定義に記述されたものと同じである。

二項表示の表現型指定におけるエラーに加えて、健康状態のタイミングも incorrect と なる可能性がある。例えば、コホート定義が人物を表現型に属すると正しくラベル付けしたとしても、その定義が人物がその状態になる日時を正しく指定しない場合はエラーとなる。このエラーは、生存時間分析の結果、例えばハザード比などの効果評価にバイアスを加える。

次のステップは、ゴールドスタンダードとコホート定義の一致度を評価することである。ゴールドスタンダード法とコホート定義の両方で「真」とラベル付けされた人物は「真陽性」である。ゴールドスタンダード法で「偽」とラベル付けされ、コホート定義で「真」とラベル付けされた人物は「偽陽性」と呼ばれ、これらの人物は実際にはその状態に属していないのにコホート定義で誤って分類されたものである。ゴールドスタンダード法とコホート定義の両方で「偽」とラベル付けされた人物は「真陰性」と呼ばれる。ゴールドスタンダード法で「真」とラベル付けされ、コホート定義で「偽」とラベル付けされた人物は「偽陰性」と呼ばれ、これらの人物は実際には表現型に属するにもかかわらずコホート定義によって誤って分類されたものである。コンフュージョンマトリックスの4つのセルのカウントを使用して、人物グループの表現型状態を分類するためのコホート定義の精度を定量化することができる。コホート定義のパフォーマンスを測定するための標準的な指標は以下の通りである:

  1. コホート定義の感度 – コホート定義に基づいて健康状態を持っていると正しく識別された表現型に属する人物の割合はどれくらいか?これは次の式で決定される:

    感度 = 真陽性 / (真陽性 + 偽陰性)

  2. コホート定義の特異度 – コホート定義に基づいて健康状態を持たないと正しく識別された表現型に属さない人物の割合はどれくらいか?これは次の式で決定される:

    特異度 = 真陰性 / (真陰性 + 偽陽性)

  3. コホート定義の陽性的中率(PPV) – コホート定義に基づいて健康状態を持っていると識別された人物のうち実際に表現型に属する割合はどれくらいか?これは次の式で決定される:

    PPV = 真陽性 / (真陽性 + 偽陽性)

  4. コホート定義の陰性的中率(NPV) – コホート定義に基づいて健康状態を持っていないと識別された人物のうち実際に表現型に属さない割合はどれくらいか?これは次の式で決定される:

    NPV = 真陰性 / (真陰性 + 偽陰性)

これらの指標の完璧なスコアは 100% である。観察データの性質上、完璧なスコアは通常は異例である。Rubbo et al. (2015) は、心筋梗塞のコホート定義を検証する研究をレビューした。検討した33の研究のうち、1つのデータセットで1つのコホート定義がPPVの完璧なスコアを達成した。全体として、33の研究のうち31がPPVが70%以上であると報告していた。しかし、33の研究のうち11のみが感度を、5が特異度を報告していた。PPVは感度、特異度、および有病率の関数である。すなわち、異なる有病率のデータセットは、感度と特異度を一定に保ったままで異なるPPV値を生成する。感度と特異度がなければ、不完全なコホート定義によるバイアスを補正することはできない。また、健康状態の誤分類が差別的である場合、すなわちコホート定義が一つのグループに対して比較グループに対して異なるパフォーマンスを示す場合、または非差別的である場合、コホート定義が両方の比較グループに対して同様に機能する場合、それぞれのバイアスが発生する可能性がある。このような潜在的な差別的誤分類を検証する以前のコホート定義の検証研究はないが、これは効果推定に強いバイアスをもたらす可能性がある。

コホート定義のパフォーマンス指標が確立されたら、これらはその定義を使用する研究結果の調整に使用される可能性がある。理論的には、これらの測定誤差推定値による研究結果の調整は十分に確立されている。しかし、実際には、パフォーマンス特性の取得の難しさのため、これらの調整を検討することはめったにない。 このセクションの残りの部分では、ゴールドスタンダードを決定するために使用される方法について説明する。 ## ソースレコード検証

コホート定義を検証するために一般的に用いられる方法の一つに、ソースレコード検証を通じた臨床的判定があります。これは、対象とする臨床状態や特性を適切に分類するために十分な知識を持つ一人または複数の領域の専門家による個人の記録の徹底的な調査です。カルテレビューは一般的に以下のステップを踏みます:

  1. カルテレビューを含む研究を実施するために、地域の倫理審査委員会(IRB)や必要に応じて個人の許可を取得する。
  2. 評価するコホート定義を使用してコホートを生成する。リソースが足りない場合は、手動でレビューするためにコホートの一部の人々を抽出する。
  3. 個人の記録をレビューするための十分な臨床専門知識を持つ一人または複数の者を特定する。
  4. 対象の臨床状態または特性に対して陽性または陰性と判断するためのガイドラインを決定する。
  5. 臨床専門家がサンプル内の人々の全データをレビューして、各人が表現型に該当するかどうかを分類する。
  6. コホート定義による分類と臨床判定による分類を混同行列にまとめ、収集したデータから可能なパフォーマンス特性を計算する。

カルテレビューの結果は通常、陽性適中率(PPV)という1つのパフォーマンス特性の評価に限られます。これは、評価対象のコホート定義が望ましい状態や特性を持っていると考えられる個人のみを生成するためです。したがって、コホートサンプルの各個人は臨床判定に基づいて真陽性か偽陽性かに分類されます。コホート定義によって特定されなかった全人口(表現型)のすべての人々についての知識がない限り、偽陰性を特定することはできず、混同行列の残りの部分を埋めることができないため、残りのパフォーマンス特性を生成することもできません。ポテンシャルな方法としては、全データベースのカルテレビューや、腫瘍登録などの包括的な臨床レジストリの利用があります(下記の例参照)。代替案として、コホート定義に該当しない人々をサンプルし予測陰性の部分集合を作成し、上記のステップ3-6を繰り返してこれらの患者が本当に対象の臨床状態や特性を欠いているかどうかを確認することができます。これにより、陰性適中率(NPV)の推定が可能になり、表現型の有病率の適切な推定ができれば感度と特異度も推定できます。

ソースレコード検証を通じた臨床的判定にはいくつかの制限があります。前述したように、カルテレビューは非常に時間とリソースを要するプロセスであり、PPVなどの単一メトリックの評価にさえ困難を伴います。この制限により、全人口を評価して完全な混同行列を埋めることの実用性が大幅に阻害されます。さらに、上記のプロセスの複数のステップには研究結果にバイアスをもたらす可能性があります。例えば、EHRがアクセスしづらい場合や、EHRが存在しない場合、もしくは個別の患者の同意が必要な場合、評価対象のサブセットが真にランダムでなく、サンプリングバイアスや選択バイアスが導入される可能性があります。また、手動での判定は人的エラーや誤分類に影響されるため、必ずしも完璧に正確なメトリックを表わしているわけではありません。多くの研究では、過半数決定に基づくコンセンサスを得るプロセスが含まれ、人々に対してバイナリ分類を導くが、評価者間の不一致を反映していません。

16.1.2 ソースレコード検証の例

コホート定義を検証するためのカルテレビューのプロセスの例として、コロンビア大学アービング医療センター(CUIMC)の研究が挙げられます。この研究では、国立がん研究所(NCI)のフィージビリティスタディの一環として、複数のがんに対するコホート定義を検証しました。以下のステップは、これらのがんの一つである前立腺がんに関する検証の例です:

  1. 提案書を提出し、OHDSIがんフェノタイピング研究のためにIRBの同意を取得。
  2. 前立腺がんのコホート定義を開発:ATHENAとATLASを使用してボキャブラリを探索し、前立腺の悪性腫瘍(概念ID 4163261)の状態発生を含むすべての患者を含むコホート定義を作成し、前立腺の二次性新生物(概念ID 4314337)や前立腺の非ホジキンリンパ腫(概念ID 4048666)を除外。
  3. ATLASを使用してコホートを生成し、手動レビューのために100人の患者をランダムに選択し、各PERSON_IDをマッピングテーブルを使用して患者MRNに戻す。100人の患者はPPVのパフォーマンス指標の望ましい統計的精度を達成するために選ばれた。
  4. 入院および外来のさまざまなEHRを手動でレビューし、ランダムサブセットの各人が真陽性か偽陽性かを判断。
  5. 手動レビューと臨床判定は1名の医師によって行われたが、将来的にはコンセンサスや評価者間の信頼性を評価するために多数のレビュアーによるより厳格な検証研究が理想的である。
  6. 参照標準の決定は、利用可能なすべての電子患者記録に文書化されている臨床文書、病理報告、検査、薬物、および手顺に基づいて行われた。
  7. 患者は1)前立腺がん2)前立腺がんではない3)判断不能のいずれかに分類。
  8. 以下を利用してPPVの控えめな推定値を計算:前立腺がん/(前立腺がんではない患者+判断不能)。
  9. さらにCUIMC全体の患者に対する参照標準を特定するための追加のゴールドスタンダードとして腫瘍レジストリを使用し、コホート定義によって正確に特定された腫瘍レジストリ内の患者数をカウントし、これらの値を真陽性および偽陰性として感度を推定。
  10. 推定感度、PPV、および有病率を使用して、このコホート定義の特異度を推定。

前述したように、このプロセスは非常に時間と労力を要し、各コホート定義は個別に手動のカルテレビューを通じて評価され、CUIMCの腫瘍レジストリと関連付けられてすべてのパフォーマンスメトリクスを特定する必要がありました。IRBの承認プロセスだけでも迅速なレビューにもかかわらず数週間かかり、腫瘍レジストリへのアクセスを取得し、手動カルテレビュー自体のプロセスにもさらに数週間かかりました。

心筋梗塞(MI)コホート定義の検証努力のレビューでは、Rubbo et al. (2015) によって、研究で使用されたコホート定義や検証方法、報告された結果に有意な異質性があることが示されました。著者らは急性心筋梗塞に対するゴールドスタンダードコホート定義が存在しないと結論付けました。また、このプロセスが費用と時間がかかり、ほとんどの研究が小さなサンプルサイズで検証を行っており、パフォーマンス特性の推定に広範な変動があることも指摘しました。33の研究の中で、すべての研究が陽性適中率を報告していたが、感度を報告したものは11研究のみであり、特異度を報告したものは5研究のみでした。前述のように、感度と特異度の推定なしには、誤分類バイアスの統計的補正を行うことはできません。 ## PheValuator

OHDSIコミュニティでは、診断予測モデルを用いたゴールドスタンダードの構築に別のアプローチを開発しました。(Swerdel, Hripcsak, and Ryan 2019) 一般的な考え方は、臨床医がソースレコードの検証で行う健康アウトカムの確認をエミュレートすることであり、これを自動化し、スケールで適用できるようにすることです。このツールは、PheValuatorというオープンソースのRパッケージとして開発されています。38 PheValuatorは、Patient Level Predictionパッケージの関数を使用します。

プロセスは以下の通りです:

  1. 極めて特定の(“xSpec”)コホートを作成する:診断予測モデルを訓練する際に、関心のあるアウトカムを持つ可能性の非常に高い一群を使用して、ノイズの多い正のラベルとするためのコホートを決定します。
  2. 極めて感度の高い(“xSens”)コホートを作成する:アウトカムを持つ可能性のある誰もが含まれるべき一群を決定します。このコホートは、その逆を識別するために使用されます:アウトカムを持たないと確信できる一群。これを、診断予測モデルの訓練時にノイズの多い負のラベルとして使用します。
  3. xSpecおよびxSensコホートを用いて予測モデルを適合させる:Chapter 13で述べたように、広範な患者の特徴を予測因子として使用してモデルを適合させ、xSpecコホート(アウトカムを持っていると考えられる)またはxSensコホートの逆(アウトカムを持たないと考えられる)を予測します。
  4. 適合済みモデルを適用して、コホート定義の性能を評価するための検証セットの人々のアウトカム発生確率を推定する:モデルからの予測因子のセットを個人のデータに適用して、その個人が表現する表現型に属する予測確率を推定します。これらの予測を確率的なゴールドスタンダードとして使用します。
  5. コホート定義の性能特性を評価する:予測確率をコホート定義の二値分類(混同行列のテスト条件)と比較します。テスト条件と真の条件に対する推定値を使用して、全ての性能特性、すなわち感度、特異度、予測値の完全なセットを推定することができます。

このアプローチの主な制限は、その人が健康アウトカムを持つ確率の推定がデータベース内のデータによって制約されることです。データベースによっては、臨床医のメモなど重要な情報が利用できない場合があります。

診断予測モデリングでは、疾患を持つ人と持たない人を区別するモデルを作成します。Patient-Level Prediction章(Chapter 13)で述べたように、予測モデルはターゲットコホートアウトカムコホートを使用して開発されます。ターゲットコホートは健康アウトカムを持つ人と持たない人を含みます。アウトカムコホートは、ターゲットコホートの中で健康アウトカムを持つ人を特定します。PheValuatorプロセスでは、非常に特定のコホート定義、すなわち“xSpec”コホートを使用して、予測モデルのアウトカムコホートを決定します。xSpecコホートは、関心のある疾患を持つ可能性が非常に高い人々を見つけるための定義を使用します。xSpecコホートは、関心の国関連の健康アウトカムの複数の状態発現記録を持つ人として定義されることがあります。例えば、心房細動の場合、心房細動の診断コードを10回以上持つ人を含むかもしれません。MIの急性アウトカムの場合、5回のMI発生を使用し、少なくとも2回の入院設定からの発生を含めるかもしれません。予測モデルのターゲットコホートは、関心のある健康アウトカムを持つ可能性が低い人々とxSpecコホートに含まれる人々の合併から構成されます。関心のある健康アウトカムを持つ可能性が低い人々を決定するために、データベース全体からサンプルを取り、xSpecコホートを定義するために使用された概念を含む記録を持つ人を除外することが典型的です。この方法には制限があります。xSpecコホートの人々は、他の疾患を持つ人々とは異なる特性を持つかもしれません。また、これらの人が平均患者よりも初診後の観察期間が長かったかもしれません。予測モデルを生成するためにLASSOロジスティック回帰を使用します。(Suchard et al. 2013) このアルゴリズムは簡潔なモデルを提供し、通常、データセット全体に存在する可能性のある多くの共線連続因子を除去します。PheValuatorソフトウェアの現バージョンでは、全ての人のデータ(全観察期間)に基づいてアウトカムの有無が評価され、コホート開始日の正確さは評価されません。

16.1.3 PheValuatorによる検証例

急性心筋梗塞を経験した人々を特定する必要がある研究において、コホート定義の完全な性能特性を評価するためにPheValuatorを使用することができます。

MIのコホート定義をテストするための手順は次のとおりです:

ステップ 1: xSpec コホートの定義

高確率でMIを持つ人々を決定します。私たちは、心筋梗塞またはその子孫の概念を使用した状態発生記録を要求し、病院における入院訪問から5日以内にMIが一回以上記録され、365日以内に患者記録にMIが4回以上記録されていることを必要としました。図 16.2 はATLASにおけるMIのxSpecコホート定義を示しています。

心筋梗塞の極めて特定されたコホート定義(xSpec)。

図 16.2: 心筋梗塞の極めて特定されたコホート定義(xSpec)。

ステップ 2: xSens コホートの定義

次に、非常に感度の高いコホート(xSens)を開発します。このコホートは、医療歴においていつでも心筋梗塞の概念を含む状態発生記録を少なくとも1回持っている人々として定義されるかもしれません。図 16.3 はATLASにおけるMIのxSensコホート定義を示しています。

心筋梗塞の極度に感度の高いコホート定義(xSens)。

図 16.3: 心筋梗塞の極度に感度の高いコホート定義(xSens)。

ステップ 3: 予測モデルの適合

createPhenoModel 関数は評価コホートの中で関心のある健康アウトカムを持つ確率を評価するための診断予測モデルを開発します。この関数を使用するために、ステップ1と2で開発したxSpecおよびxSensコホートを利用します。xSpecコホートはxSpecCohortパラメーターとして関数に入力されます。xSensコホートはモデリングプロセスで使用されるターゲットコホートから除外すべきであることを示すために、exclCohortパラメーターとして入力されます。これを除外することで、健康アウトカムを持つ可能性の低い人々を決定することができます。このグループは「ノイズの多い負の」人物として考えることができます。すなわち、健康アウトカムの否定的である可能性が高い一群ですが、いくつかの人が健康アウトカムを持つ可能性があることを許容します。また、prevCohortパラメーターとしてxSensコホートを使用することができます。このパラメーターは、母集団における健康アウトカムの概算な有病率を決定するプロセスで使用されます。通常、データベースからの大規模なランダムサンプルは、関心のあるアウトカムの有病率に比例して、関心のあるアウトカムを持つ人が約含まれる母集団を生成するべきです。我々が説明した方法を使用することで、もはやランダムサンプルを持たないため、アウトカムを持つ人と持たない人の割合をリセットして予測モデルを再キャリブレートする必要があります。

xSpecコホートを定義するために使用されたすべての概念はモデリングプロセスから除外されなければなりません。これを行うために、excludedConceptsパラメーターをxSpec定義に使用される概念のリストに設定します。例えば、MIの場合、心筋梗塞の概念とそのすべての子孫を使用してATLASに概念セットを作成しました。この例では、excludedConceptsパラメーターを4329847、心筋梗塞の概念IDに設定し、addDescendantsToExcludeパラメータをTRUEに設定して、除外された概念の子孫も除外されることを示しています。

モデリングプロセスに含まれる人々の特性を指定するために使用できるいくつかのパラメーターがあります。モデルに含まれる人々の年齢をlowerAgeLimitパラメーターとupperAgeLimitパラメーターを設定して年齢の下限と上限を設定することで指定できます。特定の年齢層に対して作成される予定のコホート定義の場合、たとえば、子供の1型糖尿病のコホート定義が計画されている場合、5歳から17歳までの年齢を開発モデルに限定することができます。このようにして、テストされるコホート定義によって選択される人々に関連する特徴を持つモデルを生成することができます。性別を含む場合は、genderパラメーターに男性または女性の概念IDを設定します。デフォルトでは、パラメーターは男性と女性の両方を含むように設定されています。前立腺癌のような性特異的な健康アウトカムに役立ちます。記録上の最初の訪問に基づいて参加者の年齢をstartDate ファイルでログ付けし開始日時をテスト、観察します。プロジェクトディレクトリの保存 pcdfプロジェクトフィールドで指定します。 次の例を参照してください:

setwd("c:/temp")
library(PheValuator)
connectionDetails <- createConnectionDetails(
  dbms = "postgresql",
  server = "localhost/ohdsi",
  user = "joe",
  password = "supersecret")

phenoTest <- createPhenoModel(
  connectionDetails = connectionDetails,
  xSpecCohort = 10934,
  cdmDatabaseSchema = "my_cdm_data",
  cohortDatabaseSchema = "my_results",
  cohortDatabaseTable = "cohort",
  outDatabaseSchema = "scratch.dbo", #書き込み権限が必要
  trainOutFile = "5XMI_train",
  exclCohort = 1770120, #xSens コホート
  prevCohort = 1770119, #有病率決定のコホート
  modelAnalysisId = "20181206V1",
  excludedConcepts = c(312327, 314666),
  addDescendantsToExclude = TRUE,
  cdmShortName = "myCDM",
  mainPopnCohort = 0, #全人口を使用
  lowerAgeLimit = 18,
  upperAgeLimit = 90,
  gender = c(8507, 8532),
  startDate = "20100101",
  endDate = "20171231")

この例では、“my_results” データベースに定義されたコホートを使用し、コホートテーブルの位置(cohortDatabaseSchema、cohortDatabaseTable - “my_results.cohort”)と、モデルが条件、薬物曝露などを見つける場所(cdmDatabaseSchema - “my_cdm_data”)を指定しています。モデルに含まれる人々は、2010年1月1日から2017年12月31日の間にCDMでの最初の訪問を持つ人々です。また、xSpec コホートの作成に使用された概念ID312327、314666、およびその子孫を特に除外しています。最初の訪問時の彼らの年齢は18歳から90歳です。上記のパラメーターにより、このステップの出力される予測モデルの名前は以下の通りです:“c:/temp/lr_results_5XMI_train_myCDM_ePPV0.75_20181206V1.rds”

ステップ 4: 評価コホートの作成

createEvalCohort関数は、PatientLevelPredictionパッケージのapplyModel関数を使用して、各人に関心のある健康アウトカムの予測確率を持つ大規模なコホートを生成します。この関数には、xSpecコホートを指定する(xSpecCohortパラメータにxSpecコホートIDを設定)のが必要です。また、前のステップで行ったように、評価コホートに含まれる人々の特性を指定することができます。これには、年齢の下限および上限(それぞれlowerAgeLimitおよびupperAgeLimit引数で設定)、性別(genderパラメータに男性および/または女性の概念IDを設定)、開始および終了日(それぞれstartDateおよびendDate引数で設定)、および選択する母集団を指定するmainPopnCohortを使用して大規模な母集団を指定することが含まれます。

例えば:

setwd("c:/temp")
connectionDetails <- createConnectionDetails(
  dbms = "postgresql",
  server = "localhost/ohdsi",
  user = "joe",
  password = "supersecret")

evalCohort <- createEvalCohort(
  connectionDetails = connectionDetails,
  xSpecCohort = 10934,
  cdmDatabaseSchema = "my_cdm_data",
  cohortDatabaseSchema = "my_results",
  cohortDatabaseTable = "cohort",
  outDatabaseSchema = "scratch.dbo",
  testOutFile = "5XMI_eval",
  trainOutFile = "5XMI_train",
  modelAnalysisId = "20181206V1",
  evalAnalysisId = "20181206V1",
  cdmShortName = "myCDM",
  mainPopnCohort = 0,
  lowerAgeLimit = 18,
  upperAgeLimit = 90,
  gender = c(8507, 8532),
  startDate = "20100101",
  endDate = "20171231")

この例では、関数がモデルファイル「c:/temp/lr_results_5XMI_train_myCDM_ePPV0.75_20181206V1.rds」を使用して評価コホートファイル「c:/temp/lr_results_5XMI_eval_myCDM_ePPV0.75_20181206V1.rds」を生成することを指定しています。このステップで作成されたモデルと評価コホートファイルは、次のステップで提供されるコホート定義の評価に使用されます。

ステップ 5: コホート定義の作成とテスト

次のステップは、評価対象のコホート定義を作成しテストすることです。コホートの使用目的に応じて、所望の性能特性が異なる場合があります。ある ## 証拠の一般化可能性 {#GeneralizabilityOfEvidence}

コホートが適切に定義され、特定の観察データベースの文脈内で完全に評価されたとしても、その臨床的妥当性は、結果が関心のある対象集団に対してどの程度一般化可能と見なされるかによって制限されます。ある主題に関する多数の観察研究は異なる結果を示すことがありますが、それは設計や分析法だけでなく、データソースの選択にも起因します。(madigan_2013は?)、データベースの選択が観察研究の結果に影響を与えることを実証しました。彼らは10の観察データベースにわたり、53の薬物-結果ペアと2つの研究デザイン(コホート研究および自己対照症例シリーズ)における結果の異質性を体系的に調査しました。研究デザインを一定に保ったとしても、効果推定値に大きな異質性が観察されました。

OHDSIネットワーク全体では、観察データベースは代表する集団(例えば、小児 vs. 高齢者、民間保険の従業員 vs. 公共保険の失業者)、データが収集されるケア設定(例えば、入院患者 vs. 外来患者、プライマリケア vs. 二次/専門ケア)、データ収集プロセス(例えば、行政請求データ、電子健康記録、臨床レジストリ)、およびケアが基づく国や地域の医療システムに大きな違いがあります。これらの違いは、疾患と医療介入の効果を研究するときに観察される異質性として現れることがあり、またネットワーク研究の中で証拠を提供する各データソースの質に対する信頼にも影響を与える可能性があります。OHDSIネットワーク内のすべてのデータベースはCDMに標準化されていますが、標準化は集団全体に存在する本来の異質性を減少させるものではなく、ネットワーク全体で異質性を調査し、より良く理解するための一貫したフレームワークを提供するものにすぎません。OHDSI研究ネットワークは、世界中のさまざまなデータベースに同じ分析プロセスを適用する環境を提供し、研究者が他の方法論的側面を一定に保ちながら、複数のデータソースにわたる結果を解釈できるようにします。OHDSIのネットワーク研究におけるオープンサイエンスへの協力的アプローチは、参加するデータパートナー間で臨床分野の知識を持つ者と分析の専門知識を持つ方法論者が共に協力し合うことで、データの臨床的妥当性の集団的理解に到達する一つの方法です。これにより、これらのデータを使用して生成された証拠に対する信頼の基盤を構築することが期待されます。

16.2 要約

  • 臨床的妥当性は、基礎データソースの特性を理解し、分析内のコホートのパフォーマンス特性を評価し、研究が対象とする集団に対してどの程度一般化できるかを評価することで確立できます。
  • コホート定義は、定義に基づいてコホート内で識別された人物が、利用可能な観察データに基づいて真に表すべきフェノタイプに属する人物を正確に反映しているかどうかの程度で評価できます。
  • コホート定義の検証には、感度、特異度、および陽性予測値を含む複数のパフォーマンス特性を推定し、測定誤差を完全に要約して調整可能にすることが必要です。
  • ソースレコード検証による臨床評価およびPheValuatorは、コホート定義検証を推定するための2つの代替アプローチを表しています。
  • OHDSIネットワーク研究は、データソースの異質性を検討し、実世界の証拠の臨床的妥当性を向上させるために結果の一般化可能性を拡大するメカニズムを提供します。

References

Hripcsak, G., and D. J. Albers. 2017. High-fidelity phenotyping: richness and freedom from bias.” J Am Med Inform Assoc, October.
Rubbo, B., N. K. Fitzpatrick, S. Denaxas, M. Daskalopoulou, N. Yu, R. S. Patel, H. Hemingway, et al. 2015. Use of electronic health records to ascertain, validate and phenotype acute myocardial infarction: A systematic review and recommendations.” Int. J. Cardiol. 187: 705–11.
Suchard, M. A., S. E. Simpson, Ivan Zorych, P. B. Ryan, and David Madigan. 2013. “Massive Parallelization of Serial Inference Algorithms for a Complex Generalized Linear Model.” ACM Trans. Model. Comput. Simul. 23 (1): 10:1–17. https://doi.org/10.1145/2414416.2414791.
Swerdel, J. N., G. Hripcsak, and P. B. Ryan. 2019. PheValuator: Development and Evaluation of a Phenotype Algorithm Evaluator.” J Biomed Inform, July, 103258.