第 3 章 オープンサイエンス
著者:Kees van Bochove
OHDSIコミュニティの発足当初から、オープンソースソフトウェアの利用、すべての会議の議事録や資料の公開、生成された医療的エビデンスの透明性あるオープンアクセスによる公開など、オープンサイエンスの価値観に基づいて国際的な共同研究体制を確立することが目標とされてきました。しかし、オープンサイエンスとは具体的にはどのようなものでしょうか? また、プライバシーへの配慮が非常に重要であり、通常は正当な理由から公開されない医療データに関してOHDSIはどのようにオープンサイエンスやオープンデータ戦略を構築できるのでしょうか。分析の再現性がなぜそれほど重要なのでしょうか。OHDSIコミュニティはこれをどのようにしてこれを実現しようとしているのでしょうか。 本章ではこれらの疑問について触れていきます。
3.1 オープンサイエンス
「オープンサイエンス」という用語は1990年代から使われていましたが実際に注目を集めるようになったのは2010年代で、OHDSIが誕生したのと同じ時期です。Wikipedia(Wikipedia 2019a)ではこれを「科学的研究(出版物、データ、物理的サンプル、ソフトウェアを含む)とその普及を、アマチュアか専門家かを問わず、探求心のあるあらゆるレベルの人々が利用できるようにする運動」と定義しており、通常は共同ネットワークを通じて開発されると述べています。OHDSIコミュニティは明確には「オープンサイエンス」集団またはネットワークとして位置づけられたことはありませんが、この用語はOHDSIの基本的な概念や原則を説明する際に頻繁に使われています。例えば、2015年にはJon DukeがOHDSIを「医療エビデンス生成へのオープンサイエンスアプローチ」7と表現し、2019年にはEHDEN (The European Health Data & Evidence Network)コンソーシアムの紹介ウェビナーでOHDSIネットワークアプローチを「21世紀のリアルワールドオープンサイエンス」8として称賛しました。実際、この章で詳しく見ていくように、オープンサイエンスの実践の多くを今日のOHDSIコミュニティに見出すことができます。OHDSIコミュニティは、医療におけるエビデンス生成の透明性と信頼性を向上させるという共通の願いから生まれた草の根的なオープンサイエンスの集合体である、という見方もできるでしょう。
オープンサイエンスまたは「サイエンス2.0」のアプローチ(Wikipedia 2019b)は、現在の科学的手法における多くの認識された問題に対処することを意味します。情報技術はデータの生成と分析方法の爆発的な増加をもたらし、個々の研究者にとっては、専門分野で発表されるすべての文献を把握するのは非常に困難になっています。これは、本業として診療をしながらも最新の医学的エビデンスに遅れずについていく必要のある医師にとっては、なおさらのことです。さらに、多くの試験が統計上のデザインの不備、出版バイアス、P値ハッキング、その他の同様の統計的問題に直面し、再現は困難であるという懸念が高まっています。論文の査読は、こうした懸念を修正する従来の方法でしたが、このような問題を特定し、対処できないことがよくあります。「再現不可能な研究における課題」に関する2018年のNature特集版9には、この問題の例がいくつか紹介されています。ある分野の論文に系統的な査読を適用しようとした著者グループは、さまざまな理由により、彼らが指摘した誤りを修正するのが非常に難しいことを発見しました。特に、最初から欠陥のあるデザインの試験は修正が難しかったのです。ロナルド・フィッシャーの言葉によると、「試験が終了してから統計学者に相談することは、単に死後解剖を依頼するようなものだ。おそらく、その試験がなぜ失敗したのかを教えてくれるだろう」(Wikiquote 2019)。著者らは、ランダム化デザインの不備による統計的有意性についての誤った結論、メタ解析における計算ミス、不適切なベースライン比較など、一般的な統計上の問題に直面しました(Allison et al. 2016)。 同じ特集版の別の論文では、物理学の経験を例に挙げ、完全な再現性を実現するには、基礎データへのアクセスを提供するだけでなく、データ処理と分析のスクリプトを公開し、適切に文書化することが重要であると主張しています(Chen et al. 2018)。
OHDSIコミュニティはこれらの課題に対して独自の方法で取り組んでおり、大規模な医療エビデンスの生成の重要性を強調しています。 Schuemie, Ryan, et al. (2018) によると、現在のパラダイムは「信頼性が不明な独自の研究デザインを用いて、1つずつ推定値を生成し、1つずつ推定値を公表(または不公表)することに重点を置いている」一方で、OHDSIコミュニティは「一貫性のある標準化された方法を用いたハイスループットの観察研究を提唱し、評価、キャリブレーション、偏りのない普及を可能にすることで、より信頼性が高く完全なエビデンスベースを生成する」としています。これは、OMOP CDMにデータをマッピングする医療データソースのネットワーク、誰もが利用・検証可能なオープンソース分析コード、howoften.org で公開されている疾患発生状況などの大規模なベースラインデータの組み合わせによって実現されます。以下では、具体的な例を挙げ、オープンスタンダード、オープンソース、オープンデータ、オープンディスカッションの4つの原則を指針として、OHDSIのオープンサイエンスのアプローチについてさらに詳しく説明します。本章の締めくくりとして、オープンサイエンスの観点からOHDSIのFAIR原則と展望について簡単に言及します。
3.2 オープンサイエンスの実践: Study-a-Thon
コミュニティにおける最近の動きとして、「研究マラソン (Study-a-Thon)」の出現が挙げられます。これは、OMOPCDMとOHDSIツールを使用して、臨床的に重要な研究課題の答えを導くことを目的とした、多分野にわたる科学者グループの短期集中型の対面式集会です。その好い例が、2018年のオックスフォードStudy-a-Thonです。このStudy-a-Thonについては、EHDENのウェビナー10で説明されており、そのプロセスが詳しく紹介されているほか、公開されている結果もについても光が当てられています。Study-a-Thonに先立ち、参加者は医学的に関連性の高い研究課題を提案し、Study-a-Thonで研究する1つもしくは複数の研究課題が選定されました。OMOP CDMの患者レベルデータにアクセスでき、これらのデータソースでクエリを実行できる参加者にデータが提供されました。実際のStudy-a-Thonの時間の多くは、統計的アプローチ(第2章参照)、データソースの適合性、インタラクティブに作成される結果、およびこれらの結果から必然的に生じる追加の質問について議論することに費やされます。オックスフォード大学でのStudy-a-Thonの場合は、さまざまな人工膝関節置換術の術後有害作用の研究に焦点が当てられ、Study-a-Thonの期間中にOHDSIフォーラムとツールを使用してインタラクティブに結果が発表されました(第8章参照)。ATLASなどのOHDSIツールは、コホート定義の迅速な作成、交換、議論、テストを可能にし、定義と方法の選択に関するコンセンサスを達成する初期プロセスを大幅にスピードアップさせます。関連するデータソースがOMOP CDMを使用し、OHDSIのオープンソースでもある患者レベル予測パッケージ(第13章参照)が利用可能であったため、術後90日間の死亡予測モデルを1日で作成し、翌日には複数の大規模データソースで外部検証を行うことができました。また、このStudy-a-Thonは、従来の学術論文(「Development and validation of patient-level prediction models for adverse outcomes following total knee arthroplasty(人工膝関節全置換術後の有害事象に関する患者レベル予測モデルの開発と検証)」、Ross Williams, Daniel Prieto-Alhambra et al., 投稿準備中)の執筆にもつながりました。この論文は、査読に数ヶ月を要しました。しかし、数億件の患者記録を網羅する複数の医療データベースの分析スクリプトと結果が、わずか1週間でゼロから構想、作成、公開されたという事実は、OHDSIが医学にもたらす根本的な改善を示しています。これにより、エビデンスが利用可能になるまでの期間が数か月から数日に短縮されます。
3.3 オープンスタンダード
OHDSIコミュニティで維持されている非常に重要なコミュニティリソースは、OMOP CDM(第4章参照)と関連する標準化ボキャブラリ(第5章参照)です。このモデル自体は観察医療データを収集することを目的としており、もともとは薬剤、処置(プロシージャー)、デバイスなどの曝露と、コンディション(状態・疾患)やメジャーメント(測定)などのアウトカムとの関連性を分析することを目的としていました。様々な分析用途に合わせて拡張されてきました(詳しくは第7章参照)。しかし、世界中のさまざまなコーディング体系、医療パラダイム、さまざまなタイプの医療ソースからヘルスケアデータを調和させるには、ソースコードとその最も近い対応する標準化コードとの間の膨大な「マッピング」が必要になります。OMOP標準化ボキャブラリは第 7章でさらに詳しく説明されており、世界中で使用されている数百の医療コーディング体系からのマッピングを含み、OHDSIのAthenaツールを通じて閲覧可能です。これらのボキャブラリとマッピングを無料で利用可能なコミュニティリソースとして提供することにより、OMOPとOHDSIコミュニティは医療データ分析に多大な貢献を果たしています。また、世界中の約12億件の医療記録を代表する、この目的のための最も包括的なモデルとされています11(Garza et al. 2016)。
3.4 オープンソース
OHDSIコミュニティが提供するもう一つの重要なリソースはオープンソースのプログラムです。これらはいくつかのカテゴリーに分類することができ、例えばOMOPへのデータマッピング支援ツール(第6章参照)、広く使用されている統計手法の強力なパッケージを含むOHDSI Methods Library、公開された観察研究のオープンソースコード、ATLAS、Athena、その他OHDSIエコシステムを支えるインフラ関連のソフトウェア(第8章参照)などがあります。オープンサイエンスの観点から、最も重要なリソースの一つは、OHDSI ネットワーク研究(第20章参照)の実行コードです。これらのプログラムは、GitHubを介して閲覧、レビュー、貢献ができる完全なオープンソースのOHDSIでの蓄積を活用しています。例えば、ネットワーク研究は多くの場合Methods Libraryに基づいて構築されており、分析のユースケース全体で統計手法の一貫した再利用を保証します。オープンソースソフトウェアの利用とコラボレーションが生成されたエビデンスの品質と信頼性をいかに支えているかに関する詳細な概要については、 第17章を参照ください。
3.5 オープンデータ
医療データはプライバシーに関してセンシティブな性質を持つため、完全にオープンで包括的な患者レベルのデータセットは通常は入手できません。しかし、OMOPにマッピングされたデータセットを活用して、前述のhttp://howoften.orgやhttp://data.ohdsi.orgで公開されている他の公開されている結果一覧のように、重要な集計データや結果一覧を公開することは可能です。また、OHDSIコミュニティは、検証や開発目的でSynPUFなどの模擬データセットを提供しており、OHDSI 研究ネットワーク(第20章参照)を活用して、データをOMOP化された利用可能なデータソースのネットワークを活用して研究を実行することもできます。ソースデータとOMOP CDMの間のマッピングの透明性を保つため、、データがOHDSI ETLまたは「マッピング」ツールを再利用し、マッピングコードをオープンソースとして公開することが奨励されています。
3.6 オープンな議論
オープンスタンダード、オープンソース、オープンデータは素晴らしい資産ですが、それだけでは医療行為に影響を与えることはできません。オープンサイエンスの実践とOHDSIのインパクトの鍵となるのは、医療上のエビデンスの生成と科学の医療行為への応用です。OHDSIコミュニティは、米国、欧州、アジアでOHDSIシンポジウムを年に複数回開催しているほか、中国や韓国などでも実践コミュニティを展開しています。これらのシンポジウムでは、統計的手法、データ、ソフトウェアツール、標準化ボキャブラリ、OHDSIオープンソースコミュニティのその他のあらゆる側面における進歩について議論されています。OHDSIフォーラム12やWiki13は、世界中の何千人もの研究者が観察研究を実施する上で役立っています。コミュニティコール14やGitHubのコード、イシュー (Issue)、プルリクエスト (Pull Request)15は、コードやCDMなどのオープンコミュニティの資産を常に進化させており、OHDSIネットワーク研究では、世界中の何億件もの患者レコードを用いて、グローバルな観察研究がオープンかつ透明性の高い方法で実施されています。
コミュニティ全体で開放性とオープンな議論が奨励されており、この本もまさに、OHDSI Wiki、コミュニティコール、GitHub リポジトリによって促進されたオープンなプロセスを通じて執筆されています16。ただし、OHDSI のコラボレーターなしには、プロセスやツールは空虚な殻にすぎないことを強調しておく必要があります。実際、OHDSIコミュニティの真価は、第1章で議論したように、コラボレーションとオープンサイエンスを通じて健康を改善するというビジョンを共有するメンバーにある、という主張も成り立ちます。
3.7 OHDSIとFAIRガイディングプリンシプルズ
3.7.1 序論
この章の最後の段落では、 Wilkinson et al. (2016) で発表されたFAIR原則でOHDSIコミュニティとツールの現状を概観します。
3.7.2 検索可能性(Findability)
OMOPにマッピングされ、分析に用いられる医療データベースは、科学的観点から、将来の参照と再現のために保存されるべきです。OMOPデータベースの永続的な識別子の使用は、まだ広く普及しているとは言えません。その理由の一つとして、これらのデータベースはファイアウォールの内側や内部ネットワークに置かれていることが多く、必ずしもインターネットに接続されているわけではないことが挙げられます。しかし、データベースの概要を記述子レコードとして公開し、引用目的などで参照できるようにすることは十分に可能です。この方法は、例えばEMIF(The European Medical Information Framework)カタログ17で採用されており、データ収集の目的、ソース、ボキャブラリや用語、アクセス制御の仕組み、ライセンス、同意など、データベースの包括的な記録を提供しています (Oliveira, Trifan, and Silva 2019)。このアプローチは、IMI(Innovative Medicine Initiative)のEHDENプロジェクトでさらに発展しています。
3.7.3 アクセシビリティ(Accessibility)
OMOPマッピングされたデータのオープンプロトコルを介したアクセスは、通常、OMOP CDMと組み合わせたSQLインターフェースを通じて実現され、OMOPデータへのアクセス方法として標準化され、十分に文書化された方法を提供します。しかし、前述の通り、セキュリティ上の理由から、OMOPソースはインターネット上で直接利用できないことがよくあります。研究者たちがアクセスできる安全な世界規模の医療データネットワークの構築は、IMI EHDENのようなプロジェクトの活発な研究テーマであり、運営目標でもあります。しかし、LEGENDやhttp://howoften.orgなどのOHDSIイニシアティブを通じて示されているように、複数のOMOPデータベースにおける分析結果は、公開することができます。
3.7.4 相互運用性(Interoperability)
相互運用性は、OMOP CDMとOHDSIツールの強みであるといえるでしょう。エビデンスの生成に活用できる世界中の医療データソースの強固なネットワークを構築するには、医療データソース間の相互運用性を実現することが鍵となります。これはOMOP CDMと標準化ボキャブラリによって達成されます。しかし、コホート定義と統計的手法を共有することで、OHDSIコミュニティはコードマッピングを超え、医療データの分析方法に関する相互運用可能な理解を構築するためのプラットフォームも提供しています。OMOPデータのソースレコードとなるのは病院などの医療システムであることが多いため、HL7 FHIR、HL7 CIMI、openEHRなどの医療業務における相互運用標準規格との整合により、OHDSIアプローチの相互運用性はさらに強化される可能性があります。CDISCや生物医学オントロジーなどの臨床における相互運用標準規格との整合についても同様です。特に腫瘍学などの分野では、これは重要なトピックであり、OHDSIコミュニティの腫瘍学ワークグループや臨床試験ワークグループは、これらの問題が活発に議論されるフォーラムの好例です。他のデータ、特にオントロジー用語への参照という観点では、ATLASとOHDSI Athenaは重要なツールです。これらのツールは、他の利用可能な医療用コード体系との関連でOMOP標準化ボキャブラリの検索を可能にします。
3.7.5 再利用性(Reusability)
再利用に関するFAIR原則は、データライセンス、データの由来(データの発生経緯の明確化)、関連するコミュニティ標準へのリンクなど、重要な問題に焦点を当てています。 データライセンスは、特に所管をまたぐ場合、複雑なトピックであり、本書で詳しく取り上げるには範囲を超えています。しかし、もし自分のデータ(例えば分析結果)を他者に自由に利用してもらいたいのであれば、データライセンスを通じてこれらの許可を明示的に提供することが望ましい、と述べておくことは重要です。これは、インターネット上で見つかるほとんどのデータではまだ一般的な慣行ではなく、OHDSIコミュニティも残念ながら例外ではありません。OMOPデータベースのデータ由来に関しては、メタデータを自動的に利用できるようにするといった改善の余地があります。例えば、CDMバージョン、標準化ボキャブラリのリリース、カスタムコードリストなどです。OHDSI ETLツールは現在、この情報を自動的に生成していませんが、データ品質ワークグループやメタデータワークグループなどのワークグループが積極的に取り組んでいます。もう一つの重要な側面は、基礎となるデータベース自体の由来です。病院や一般開業医の情報システムが置き換えられたり変更されたりしたかどうか、また、既知のデータ欠落やその他のデータの問題がいつ発生したかを知ることは重要です。OMOP CDMにこのメタデータを体系的に添付する方法を検討することは、メタデータワークグループの管轄となっています。
OHDSIコミュニティは、医療におけるエビデンス生成の相互運用性と再現性を積極的に追求するオープンサイエンスのコミュニティと見なすことができます。
また、単一の研究と単一の推定値による医療研究から、大規模な体系的なエビデンス生成へのパラダイムシフトを提唱しています。この大規模な体系的なエビデンス生成では、ベースライン発生率などが明らかになり、エビデンスは実際の医療情報源から介入や治療の効果を統計的に推定することに焦点を当てています。