第 3 オープンサイエンス

章リーダー: キース・バン・ボコーブ

OHDSIコミュニティの発足当初から、オープンソースソフトウェアの使用、すべての会議の議事録と資料の公開、生成された医療証拠の透明でオープンアクセスの公開などのオープンサイエンスの価値観に基づいて国際的な協力を確立することが目標でした。しかし、オープンサイエンスとは正確には何でしょうか? そして、非常にプライバシーに敏感で、正当な理由から通常は公開されていない医療データを中心に、OHDSIがオープンサイエンスやオープンデータ戦略をどのように構築できるでしょうか? 分析の再現性がなぜそれほど重要であるのか、OHDSIコミュニティはこれをどのように達成しようとしているのか? これらは、この章で触れるいくつかの質問です。

3.1 オープンサイエンス

「オープンサイエンス」という用語は1990年代から使用されていましたが、2010年代、OHDSIが誕生した同じ時期に本格的に注目されるようになりました。Wikipedia (Wikipedia 2019a) はこれを「科学研究(出版物、データ、物理サンプル、およびソフトウェアを含む)およびその普及を、アマチュアまたは専門家を問わず、探求心のあるすべてのレベルの社会にアクセス可能にする運動」と定義し、通常は共同ネットワークを通じて開発されると述べています。OHDSIコミュニティは明確には「オープンサイエンス」集団またはネットワークとして位置づけられたことはありませんが、この用語はOHDSIの基本的な概念と原則を説明するためによく使われています。例えば、2015年にはジョン・デュークがOHDSIを「医療エビデンス生成へのオープンサイエンスアプローチ」として紹介し、2019年にはEHDENコンソーシアムのイントロダクションウェビナーでOHDSIネットワークアプローチを「21世紀のリアルワールドオープンサイエンス」として称賛しました。実際、この章で詳しく見ていくように、今日のOHDSIコミュニティにはオープンサイエンスの多くの実践が見られます。OHDSIコミュニティは、医療エビデンス生成の透明性と信頼性を向上させるという共通の望みに駆られた草の根オープンサイエンス集団であると言えるでしょう。

オープンサイエンスまたは「科学2.0」アプローチ(Wikipedia 2019b)は、現在の科学実践において認識されているいくつかの問題に対処しようとしています。情報技術により、データ生成と分析方法の爆発的な増加がもたらされ、個々の研究者が自分の専門分野で発表されたすべての文献を追いかけるのは非常に困難になっています。このことは、日常業務として診療を行っている医師にとってさらに当てはまりますが、それでも最新の医療エビデンスを把握する必要があります。さらに、多くの実験が統計設計の不備、発表バイアス、p-hackingおよび類似の統計問題に苦しみ、再現が難しいという懸念が増大しています。これらの懸念を修正するための従来の方法、つまり発表された記事の査読は、しばしばこれらの問題を特定して対処することに失敗します。「再現不可能な研究における課題」に関する2018年のNature特集版[^3]にはこれに関連するいくつかの例が含まれています。自分たちの分野の文献に系統的な査読を適用しようとした著者グループは、さまざまな理由から、特定したエラーを修正するのが非常に困難であると感じました。元々設計が欠陥をもつ実験は特に修正が困難です。Ronald Fisherの言葉を借りれば、「実験が終わった後に統計家に相談することは、しばしば実験が何で死んだのかを尋ねるために彼を頼むようなものです。」(Wikiquote 2019) 著者たちは、統計的有意性に関する誤った結論を導く不適切なランダム化設計、メタ分析における計算ミス、不適切なベースライン比較などの一般的な統計問題に直面しました。(Allison et al. 2016) 物理学からの経験を例に取った同じコレクションの別の論文では、基礎データへのアクセスを提供するだけでなく、データ処理および分析スクリプトを公開して適切な文書を提供することも完全な再現性を達成するために重要であると主張しています。(Chen et al. 2018)

OHDSIコミュニティはこれらの課題に対して独自の方法で取り組んでおり、大規模な医療エビデンス生成の重要性に大きな重点を置いています。(schuemie_2018bに述べられているように?)、現在のパラダイムが「一度に1つの推定を生成し、信頼性が未知の独自の研究デザインを使用して1つの推定を出版(または未出版)すること」に焦点を当てているのに対して、OHDSIコミュニティは「一貫した標準化された手法を使用した大規模な観察研究を実施し、評価、調整およびバイアスのない普及を可能にすることで、より信頼性が高く完全なエビデンスベースを生成すること」を提唱しています。これは、OMOP共通データモデルにデータをマッピングする医療データソースのネットワーク、すべてが使用および検証可能なオープンソースの分析コード、およびhowoften.orgに公開された条件の発生のような大規模なベースラインデータの組み合わせによって達成されます。以下の段落では、具体的な例を挙げ、OHDSIのオープンサイエンスアプローチを、オープンスタンダード、オープンソース、オープンデータ、オープンディスコースの4つの原則をガイドとしてさらに詳しく説明します。この章は、FAIR原則への簡潔な言及とオープンサイエンスの観点から見たOHDSIの展望で締めくくられます。

3.2 オープンサイエンスの実践: スタディアソン

最近のコミュニティの発展として、「スタディアソン」とよばれるものが登場しています:これは、OMOPデータモデルとOHDSIツールを使用して、重要で臨床的に関連性のある研究質問に答えることを目的とした、短期間で集中した多分野の科学者グループの対面集会です。良い例として、2018年のオックスフォードスタディアソンがあります。これは、EHDENウェビナーで説明されており、プロセスのウォークスルーを提供し、オープンに利用可能な結果もハイライトしています。スタディアソンの期間に先立って、参加者は研究する医学的に関連性のある研究質問を提案し、スタディアソン自体で研究する1つまたは複数の研究質問が選ばれます。データはOMOPフォーマットの患者レベルデータにアクセスでき、これらのデータソースにクエリを実行できる参加者によって提供されます。スタディアソンの多くの時間は、統計アプローチの議論(Chapter 2参照)、データソースの適合性、生成された結果、およびこれらの結果によって必然的に提起されるフォローアップ質問に費やされます。オックスフォードスタディアソンの場合、質問は異なる膝置換方法の術後副作用の研究に集中しており、結果はOHDSIフォーラムおよびツールを使用してスタディアソンの間にインタラクティブに公開されました(Chapter 8参照)。ATLASなどのOHDSIツールは、コホート定義の迅速な作成、交換、議論、およびテストを促進し、問題定義および手法選択に対するコンセンサスを達成する初期プロセスを大幅に迅速化します。OMOP共通データモデルを使用するデータソースとOHDSIオープンソース患者レベル予測パッケージの利用可能性13のおかげで、90日間の術後死亡率を予測するモデルを1日で作成し、翌日にはいくつかの大規模データソースで外部検証することができました。スタディアソンはまた、従来の学術論文(Knee Arthroplasty後の患者レベル予測モデルの開発と検証、Ross Williams、Daniel Prieto-Alhambraら、準備中の原稿)にもつながりましたが、査読を通じてプロセスするのに数か月を要しました。しかし、数億患者記録をカバーするいくつかのヘルスケアデータベースでの分析スクリプトと結果が最初から1週間以内に作成、生成、および公開されたという事実は、OHDSIが医療科学にもたらす根本的な改善を示しており、エビデンスが利用可能になるまでの時間を数か月から数日に短縮します。

3.3 オープンスタンダード

OHDSIコミュニティで維持されている非常に重要なコミュニティ資源は、OMOP共通データモデル(Chapter 4参照)と関連する標準化語彙(Chapter 5参照)です。モデル自体は観察的なヘルスケアデータを捉えることを目的としており、もともとは薬物、手続き、デバイスなどの曝露と、条件や測定値などの結果との関連を分析するために設計されました。様々な分析ユースケースに対応するために拡張されています(詳しくは7参照)。しかし、世界中のさまざまなコーディングシステム、ヘルスケアパラダイム、およびさまざまな種類のヘルスケアソースからヘルスケアデータを調和させるには、ソースコードとその最も近い標準化された対応物との間の膨大な「マッピング」が必要です。OMOP標準化語彙はChapter 7でさらに説明されており、世界中で使用されている数百の医療コーディングシステムからのマッピングを含み、OHDSIのAthenaツールを通じて閲覧可能です。これらの語彙とマッピングを無料で利用可能なコミュニティ資源として提供することにより、OMOPとOHDSIコミュニティはヘルスケアデータ分析に大きく貢献しており、世界中の約12億件の医療記録を代表する、この目的のための最も包括的なモデルとされています。[^6] (Garza et al. 2016)

3.4 オープンソース

OHDSIコミュニティが提供するもう一つの重要なリソースはオープンソースのプログラムです。これらは、データをOMOPにマッピングするためのヘルパーツール(第6章参照)、広く使用されている統計手法の強力なスイートを含むOHDSI Methods Library、公開された観察研究のオープンソースコード、ATLAS、Athena、その他OHDSIエコシステムを支えるインフラ関連のソフトウェア(第8章参照)など、いくつかのカテゴリに分けることができます。オープンサイエンスの観点から、最も重要なリソースの一つは、OHDSI Research Network(第20章参照)からの研究の実行コードです。これらのプログラムは、GitHubを介して検査、レビュー、および貢献できる完全なオープンソースのOHDSIスタックを活用しています。例えば、ネットワーク研究はしばしばMethods Libraryに基づいて構築されており、分析の使用ケース全体で統計手法の一貫した再利用を保証します。オープンソースソフトウェアの使用とコラボレーションが生成された証拠の品質と信頼性をいかに支えているかに関する詳細な概要については、第17章を参照してください。

3.5 オープンデータ

医療データのプライバシーセンシティブな性質のため、完全にオープンで包括的な患者レベルのデータセットは通常利用できません。しかし、OMOPにマッピングされたデータセットを活用して、http://howoften.orgやその他の公開された結果セット(http://data.ohdsi.orgに公開されているもの)などの重要な集計データや結果セットを公開することは可能です。また、OHDSIコミュニティは、テストや開発目的でSynPUFなどのシミュレートされたデータセットを提供しており、OHDSI Research Network(第20章参照)を活用して、データをOMOPにマッピングした利用可能なデータソースのネットワークで研究を実行することができます。ソースデータとOMOP CDMの間のマッピングを透明にするために、データソースがOHDSI ETLまたは「マッピング」ツールを再利用し、マッピングコードをオープンソースとして公開することが奨励されています。

3.6 オープンディスコース

オープンスタンダード、オープンソース、オープンデータは素晴らしい資産ですが、それだけでは医療実践に影響を与えません。OHDSIのオープンサイエンスの実践と影響の鍵は、医療証拠生成の実施と科学を医療実践に翻訳することです。OHDSIコミュニティは、米国、ヨーロッパ、アジアで毎年開催されるOHDSIシンポジウムをいくつか開催しているほか、中国と韓国などに専用の実践コミュニティもあります。これらのシンポジウムでは、統計手法の進展、データおよびソフトウェアツール、標準化された語彙、その他のすべてのOHDSIオープンソースコミュニティの側面が議論されます。OHDSIフォーラム[^8]およびウィキ[^9]は、世界中の数千人の研究者が観察研究を実践するのを支援しています。コミュニティコール[^10]およびGithubのコード、問題、プルリクエスト[^11]は、コードやCDMなどのオープンコミュニティ資産を絶えず進化させており、OHDSIネットワーク研究では、世界中の患者記録を使用してオープンかつ透明な方法で観察研究が実践されています。コミュニティ全体でオープン性とオープンディスコースが奨励されており、この本自体もOHDSIウィキ、コミュニティコール、Githubリポジトリを介したオープンプロセスで書かれています。[^12] とはいえ、すべてのOHDSIコラボレーターがいなければ、これらのプロセスやツールは空虚な殻となるでしょう。実際、OHDSIコミュニティの真の価値は、そのメンバーが持つ共同作業とオープンサイエンスによる健康改善のビジョンにあると言えるでしょう。これは第1章で議論されています。

3.7 OHDSIとFAIRガイディングプリンシプルズ

3.7.1 序論

この章の最後の段落では、(wilkinson2016で公表されたFAIRデータガイドラインを使用して?)、現在のOHDSIコミュニティとツールの状況を見ていきます。

3.7.2 検索可能性

OMOPにマッピングされ、分析に使用されるヘルスケアデータベースは、科学的観点から将来の参照と再現性のために持続するべきです。OMOPデータベースの永続的な識別子の使用はまだ広まっていませんが、これは部分的にこれらのデータベースがファイアウォールの背後や内部ネットワークに置かれ、インターネットに接続されていないからです。しかし、データベースの要約を記述レコードとして公開し、引用目的で参照できるようにすることは完全に可能です。例えば、EMIFカタログ[^7]では、データ収集の目的、ソース、語彙と用語、アクセス制御メカニズム、ライセンス、同意などの観点からデータベースの包括的なレコードを提供しています。(Oliveira, Trifan, and Silva 2019) このアプローチは、IMI EHDENプロジェクトでさらに発展しています。

3.7.3 アクセシビリティ

オープンプロトコルを介してOMOPマッピング済みデータにアクセスすることは、通常SQLインターフェースを介して達成されます。これにより、OMOP CDMと組み合わせて、OMOPデータへのアクセスの標準化された方法および良好なドキュメント化された方法を提供します。しかし、前述のように、OMOPソースはインターネット上で直接利用可能ではないことが多く、これはセキュリティ上の理由からです。研究者がアクセスできる安全な世界的なヘルスケアデータネットワークの構築は、IMI EHDENのようなプロジェクトの活動的な研究トピックおよび運用目標です。しかし、複数のOMOPデータベースでの分析結果は、LEGENDやhttp://howoften.orgなどのOHDSIイニシアティブを通じて公開できます。

3.7.4 相互運用性

相互運用性は、OMOPデータモデルとOHDSIツールの強みと言えるでしょう。証拠生成に利用できる強力な医療データソースのネットワークを構築するためには、医療データソース間の相互運用性の実現が重要です。これはOMOPモデルと標準化された語彙を通じて達成されます。しかし、コホート定義と統計的アプローチを共有することで、OHDSIコミュニティはコードマッピングを超えて、医療データの分析方法についての相互運用可能な理解を構築するためのプラットフォームも提供しています。 病院などのヘルスケアシステムがOM

References

Allison, D. B., A. W. Brown, B. J. George, and K. A. Kaiser. 2016. Reproducibility: A tragedy of errors.” Nature 530 (7588): 27–29.
Chen, Xiaoli, Sünje Dallmeier-Tiessen, Robin Dasler, Sebastian Feger, Pamfilos Fokianos, Jose Benito Gonzalez, Harri Hirvonsalo, et al. 2018. “Open Is Not Enough.” Nature Physics 15 (2): 113–19. https://doi.org/10.1038/s41567-018-0342-2.
Garza, M., G. Del Fiol, J. Tenenbaum, A. Walden, and M. N. Zozus. 2016. Evaluating common data models for use with a longitudinal community registry.” J Biomed Inform 64 (December): 333–41.
Oliveira, José Luı́s, Alina Trifan, and Luı́s A. Bastião Silva. 2019. EMIF Catalogue: A Collaborative Platform for Sharing and Reusing Biomedical Data.” International Journal of Medical Informatics 126 (June): 35–45. https://doi.org/10.1016/j.ijmedinf.2019.02.006.
Wikipedia. 2019a. Open scienceWikipedia, the Free Encyclopedia.” http://en.wikipedia.org/w/index.php?title=Open%20science&oldid=900178688.
———. 2019b. Science 2.0Wikipedia, the Free Encyclopedia.” http://en.wikipedia.org/w/index.php?title=Science%202.0&oldid=887565958.
Wikiquote. 2019. “Ronald Fisher — Wikiquote, \url{https://en.wikiquote.org/w/index.php?title=Ronald_Fisher&oldid=2638030}.