第 14 証拠の質

チャプターリード: Patrick Ryan & Jon Duke

14.1 信頼できる証拠の属性

どんな旅にも出発する前に、理想的な目的地がどのように見えるかを想像することが役立つでしょう。データから証拠への旅を支援するために、信頼できる証拠の質を裏付けることができる望ましい属性を強調します。

信頼できる証拠の望ましい属性

図 14.1: 信頼できる証拠の望ましい属性

信頼できる証拠は繰り返し可能であるべきであり、特定の質問に対して同じデータに同じ分析を適用すると、研究者は同一の結果を期待すべきです。この最低要件には、証拠が定義されたプロセスの実行結果であり、途中での手作業の介入や事後的な意思決定の影響を受けることなく、特定の入力に基づいて行われるものであるという考えが暗黙のうちに含まれています。さらに理想的には、信頼できる証拠は再現可能であるべきであり、異なる研究者が特定のデータベースで特定の分析を実行した場合でも、最初の研究者と同じ結果を期待できるべきです。再現可能性とは、プロセスが完全に明記されており、人間が読める形式とコンピュータが実行可能な形式の両方であり、調査者の裁量に任される研究の決定がないことを意味します。繰り返し可能性と再現可能性を達成する最も効率的な解決策は、定義された入力と出力を持つ標準化された分析ルーチンを使用し、これらの手続きをバージョン管理されたデータベースに適用することです。

証拠が複製可能である場合、その証拠が信頼できるものであることに自信を持つ可能性が高まります。つまり、同じ質問に対して類似のデータに対して同じ分析を行った際に、類似の結果が得られることを示す必要があります。例えば、特定の行政請求データベースに対する分析から生成された証拠は、別の保険会社の請求データに対して再現された場合に強化される可能性があります。人口レベルの効果推定の文脈では、この属性はSir Austin Bradford Hillの因果関係の視点における一貫性と良く一致します。「異なる人物、異なる場所、状況、時間で繰り返し観察されているかどうか…偶然が説明であるか、真の危険が明らかにされたかどうかは、状況と観察の繰り返しによってのみ答えられることがある」(Hill 1965) 患者レベルの予測の文脈では、再現性は外部検証の価値を強調し、特定のデータベースでトレーニングされたモデルの性能を他のデータベースに適用した際の識別精度とキャリブレーションを観察することによって評価できる能力を示します。不同のデータベースに対して同一の分析が行われた場合でも一貫して類似の結果が得られる状況では、証拠が一般化可能であることにさらに確信を持つことができます。OHDSI研究ネットワークの重要な価値は、異なる人口、地理、およびデータキャプチャプロセスによって表現される多様性です。(madigan_2013は?)、効果推定値がデータの選択に敏感であることを示しました。各データソースには固有の制限と独自のバイアスがあり、それが個々の発見に対する信頼の制限となるという認識に基づいて、不均一なデータセット全体で類似したパターンが観察されれば、それだけでソース特有のバイアスだけが発見の説明にはならないという可能性が格段に減少します。米国、ヨーロッパ、アジアの複数の請求およびEHRデータベース全体で一貫した人口レベルの効果推定が示される場合、それらは医療介入に関するより広範な医療意思決定に影響を与える強力な証拠と認識されるべきです。

信頼できる証拠は堅牢であるべきであり、分析において主観的な選択肢に対して過度に敏感でないべきです。特定の研究に対して合理的とされる代替統計手法がある場合、異なる手法が同じ結果をもたらすことが確認できれば再保証となり、逆に不一致の結果が明らかになれば警戒のサインとなります。(Madigan, Ryan, and Schuemie 2013) 人口レベルの効果推定において、感度分析は、高レベルの研究デザインの選択(比較コホートデザインまたは自己制御ケースシリーズデザインを適用するかどうか)を含み、またデザイン内の分析検討(比較コホートフレームワーク内で共変数調整戦略として傾向スコアマッチング、層別化または重み付けを行うかどうか)に焦点を当てることができます。

最後に、しかしおそらく最も重要なのは、証拠がキャリブレーションされているべきであるということです。未知の質問に対する答えを生成するシステムがその性能を検証できない場合、そのシステムが生成する結果の解釈の文脈として測定および伝達できるべき特定の動作特性が備わっています。閉じたシステムは、95%信頼区間が95%の被覆確率を持つか、または10%の予測確率を持つコホートが10%の人口における観察された出来事の割合を持つなど、経験的に確立された特性を持つべきです。観察研究には必ずデザイン、方法、およびデータに関する仮定をテストする研究診断が付随しているべきです。これらの診断は、研究の妥当性に対する主な脅威(選択バイアス、交絡、および測定誤差)の評価に焦点を当てるべきです。否定的対照が観察研究における系統的誤差の特定および軽減に強力なツールとして示されています。(Schuemie et al. 2016, 2018; Schuemie, Ryan, et al. 2018)

14.2 証拠の質の理解

しかし、研究の結果が十分に信頼できるかどうかをどうやって知るのでしょうか?臨床現場で利用するために信頼できますか?規制上の意思決定においてはどうでしょうか?将来の研究の基礎として役立つでしょうか?新しい研究が発表または広範囲に配布されるたびに、読者はこれらの質問を考慮する必要があります。これは、その作業がランダム化比較試験、観察研究、または他のタイプの分析であっても同様です。

観察研究および「リアルワールドデータ」の使用に関してよく指摘される懸念の一つは、データの質の問題です。(Botsis et al. 2010; Hersh et al. 2013; Sherman et al. 2016) よく指摘されるのは、観察研究で使用されるデータはもともと研究目的で収集されたものではなく、不完全または不正確なデータキャプチャや固有のバイアスの影響を受ける可能性があるという点です。これらの懸念は、データの質を測定、特徴付け、理想的には改善する方法に関する成長する研究領域を生み出しました。(Michael G. Kahn et al. 2012; Liaw et al. 2013; Weiskopf and Weng 2013) OHDSIコミュニティはこのような研究の強い支持者であり、コミュニティのメンバーはOMOP CDMおよびOHDSIネットワークでのデータ品質に関する多くの研究を主導および参加してきました。(Huser et al. 2016; Michael G. Kahn et al. 2015; Callahan et al. 2017; Yoon et al. 2016)

過去10年間のこの分野の研究結果から明らかになったのは、データの質は完璧ではなく、決して完璧にはならないということです。この考えは、医療情報学の先駆者であるClem McDonald博士のこの引用にうまく表れています:

データが医師の脳から医療記録に移動することで忠実度の損失が始まります。

したがって、コミュニティとして私たちは次の質問をしなければなりません - 不完全なデータを前提に、信頼できる証拠をどのように得ることができるか?

答えは「証拠の質」を包括的に見ることであり、データから証拠へのプロセス全体を調べ、証拠生成プロセスを構成する各コンポーネントを特定し、各コンポーネントの質に対する信頼をどのように築くかを決定し、その過程で学んだことを透明に伝えることです。証拠の質は観察データの質だけでなく、観察分析で使用される方法、ソフトウェア、および臨床定義の妥当性も考慮に入れます。

次の章では、表 14.1 にリストされている証拠の質の4つのコンポーネントを探ります。

表: (#tab:evidenceQuality) 証拠の質の4つのコンポーネント。

証拠の質のコンポーネント 測定するもの
データの質 データが合意された構造と規約に準拠した形で、完全にキャプチャされ信憑性のある値を持つかどうか?
臨床的妥当性 実施された分析が臨床的な意図とどの程度一致しているか?
ソフトウェアの妥当性 データの変換および分析プロセスが意図した通りに機能するかどうか?
方法の妥当性 データの強みと弱点を考慮した上で、その方法論が質問に適しているか?

14.3 証拠品質の伝達

証拠の質の重要な側面は、データから証拠への旅の過程で生じる不確実性を表現する能力です。証拠の質に関するOHDSIの取り組みの包括的な目標は、OHDSIによって生成された証拠が多くの点で不完全であるにもかかわらず、その弱点と強みが一貫して測定され、この情報が厳密でオープンな方法で伝達されたという自信を医療意思決定者に提供することです。 ## まとめ

  • 我々が生成するエビデンスは、繰り返し可能再現可能複製可能一般化可能堅牢 、そして較正済みであるべきです。

  • エビデンスが信頼できるかどうかを判断する際には、データの質だけでなく、エビデンスの質を考慮するべきです:

    • データの質
    • 臨床的妥当性
    • ソフトウェアの妥当性
    • 手法の妥当性
  • エビデンスを伝える際には、エビデンスの質に対する各種の挑戦から生じる不確実性を表現する必要があります。

References

Botsis, Taxiarchis, Gunnar Hartvigsen, Fei Chen, and Chunhua Weng. 2010. “Secondary Use of EHR: Data Quality Issues and Informatics Opportunities.” Summit on Translational Bioinformatics 2010: 1.
Callahan, Tiffany J, Alan E Bauck, David Bertoch, Jeff Brown, Ritu Khare, Patrick B Ryan, Jenny Staab, Meredith N Zozus, and Michael G Kahn. 2017. “A Comparison of Data Quality Assessment Checks in Six Data Sharing Networks.” eGEMs 5 (1).
Hersh, William R, Mark G Weiner, Peter J Embi, Judith R Logan, Philip RO Payne, Elmer V Bernstam, Harold P Lehmann, et al. 2013. “Caveats for the Use of Operational Electronic Health Record Data in Comparative Effectiveness Research.” Medical Care 51 (8 0 3): S30.
Hill, A. B. 1965. THE ENVIRONMENT AND DISEASE: ASSOCIATION OR CAUSATION? Proc. R. Soc. Med. 58 (May): 295–300.
Huser, Vojtech, Frank J. DeFalco, Martijn Schuemie, Patrick B. Ryan, Ning Shang, Mark Velez, Rae Woong Park, et al. 2016. “Multisite Evaluation of a Data Quality Tool for Patient-Level Clinical Data Sets.” EGEMS (Washington, DC) 4 (1): 1239. https://doi.org/10.13063/2327-9214.1239.
Kahn, Michael G., Jeffrey S. Brown, Alein T. Chun, Bruce N. Davidson, Daniella Meeker, P. B. Ryan, Lisa M. Schilling, Nicole G. Weiskopf, Andrew E. Williams, and Meredith Nahm Zozus. 2015. “Transparent Reporting of Data Quality in Distributed Data Networks.” EGEMS (Washington, DC) 3 (1): 1052. https://doi.org/10.13063/2327-9214.1052.
Kahn, Michael G, Marsha A Raebel, Jason M Glanz, Karen Riedlinger, and John F Steiner. 2012. “A Pragmatic Framework for Single-Site and Multisite Data Quality Assessment in Electronic Health Record-Based Clinical Research.” Medical Care 50.
Liaw, Siaw-Teng, Alireza Rahimi, Pradeep Ray, Jane Taggart, Sarah Dennis, Simon de Lusignan, B Jalaludin, AET Yeo, and Amir Talaei-Khoei. 2013. “Towards an Ontology for Data Quality in Integrated Chronic Disease Management: A Realist Review of the Literature.” International Journal of Medical Informatics 82 (1): 10–24.
Madigan, D., P. B. Ryan, and M. Schuemie. 2013. Does design matter? Systematic evaluation of the impact of analytical choices on effect estimates in observational studies.” Ther Adv Drug Saf 4 (2): 53–62.
Schuemie, M. J., G. Hripcsak, P. B. Ryan, D. Madigan, and M. A. Suchard. 2016. Robust empirical calibration of p-values using observational data.” Stat Med 35 (22): 3883–88.
———. 2018. Empirical confidence interval calibration for population-level effect estimation studies in observational healthcare data.” Proc. Natl. Acad. Sci. U.S.A. 115 (11): 2571–77.
Schuemie, M. J., P. B. Ryan, G. Hripcsak, D. Madigan, and M. A. Suchard. 2018. Improving reproducibility by using high-throughput observational studies with empirical calibration.” Philos Trans A Math Phys Eng Sci 376 (2128).
Sherman, Rachel E, Steven A Anderson, Gerald J Dal Pan, Gerry W Gray, Thomas Gross, Nina L Hunter, Lisa LaVange, et al. 2016. “Real-World Evidence—What Is It and What Can It Tell Us.” N Engl J Med 375 (23): 2293–97.
Weiskopf, Nicole Gray, and Chunhua Weng. 2013. “Methods and Dimensions of Electronic Health Record Data Quality Assessment: Enabling Reuse for Clinical Research.” Journal of the American Medical Informatics Association: JAMIA 20 (1): 144–51. https://doi.org/10.1136/amiajnl-2011-000681.
Yoon, D., E. K. Ahn, M. Y. Park, S. Y. Cho, P. Ryan, M. J. Schuemie, D. Shin, H. Park, and R. W. Park. 2016. Conversion and Data Quality Assessment of Electronic Health Record Data at a Korean Tertiary Teaching Hospital to a Common Data Model for Distributed Network Research.” Healthc Inform Res 22 (1): 54–58.