Chapitre 3 Science ouverte

Responsable du chapitre : Kees van Bochove

Depuis la création de la communauté OHDSI, l’objectif était de former une collaboration internationale en s’appuyant sur les valeurs de la science ouverte, telles que l’utilisation de logiciels open-source, la disponibilité publique de toutes les conférences et du matériel, et la publication transparente en accès libre des preuves médicales générées. Mais qu’est-ce que la science ouverte exactement ? Et comment l’OHDSI pourrait-il construire une stratégie de science ouverte ou de données ouvertes autour de données médicales, qui sont très sensibles en matière de confidentialité et généralement non ouvertes pour de bonnes raisons ? Pourquoi est-il si important d’avoir une reproductibilité de l’analyse, et comment la communauté OHDSI vise-t-elle à y parvenir ? Ce sont là quelques-unes des questions abordées dans ce chapitre.

3.1 Science ouverte

Le terme “science ouverte” est utilisé depuis les années 90, mais il a véritablement gagné en popularité dans les années 2010, période durant laquelle OHDSI est né. Wikipédia (Wikipedia 2019a) le définit comme “le mouvement visant à rendre la recherche scientifique (y compris les publications, les données, les échantillons physiques et les logiciels) et sa diffusion accessible à tous les niveaux d’une société en quête de connaissances, amateur ou professionnel”, et précise qu’il se développe généralement au sein de réseaux collaboratifs. Bien que la communauté OHDSI ne se soit jamais explicitement proclamée comme un collectif ou un réseau de “science ouverte”, le terme est fréquemment utilisé pour expliquer les concepts et principes directeurs d’OHDSI. Par exemple, en 2015, Jon Duke a présenté OHDSI comme “Une approche de science ouverte pour la génération de preuves médicales,”7 et en 2019, le webinaire introductif du consortium EHDEN a salué l’approche du réseau OHDSI comme “Science ouverte du monde réel au 21e siècle.”8 En effet, comme nous le verrons dans ce chapitre, de nombreuses pratiques de la science ouverte se retrouvent aujourd’hui dans la communauté OHDSI. On pourrait dire que la communauté OHDSI est un collectif de science ouverte piloté par un désir partagé d’améliorer la transparence et la fiabilité de la génération de preuves médicales.

Les approches de science ouverte ou “Science 2.0” (Wikipedia 2019b) entendent répondre à un certain nombre de problèmes perçus dans la pratique scientifique actuelle. La technologie de l’information a conduit à une explosion de la génération de données et des méthodes d’analyse, et pour les chercheurs individuels, il est très difficile de suivre toute la littérature publiée dans leur domaine d’expertise. Cela est encore plus vrai pour les médecins qui doivent gérer une pratique au quotidien, mais qui ont besoin de se tenir au courant des dernières preuves médicales. En outre, on s’inquiète de plus en plus du fait que de nombreuses expériences pourraient souffrir de conceptions statistiques pauvres, de biais de publication, de p-hacking et de problèmes statistiques similaires, et qu’elles sont difficiles à reproduire. La méthode traditionnelle de correction de ces préoccupations, l’examen par les pairs des articles publiés, échoue souvent à identifier et à traiter ces problèmes. L’édition spéciale de Nature en 2018 sur les “Challenges in irreproducible research” 9 comprend plusieurs exemples de cela. Un groupe d’auteurs tentant d’appliquer une revue systématique par des pairs sur les articles dans leur domaine a constaté que, pour diverses raisons, il était très difficile de faire rectifier les erreurs qu’ils avaient identifiées. Les expériences qui ont un design défectueux dès le départ sont particulièrement difficiles à corriger. Comme l’a dit Ronald Fisher : “Consulter le statisticien après une expérience revient souvent à lui demander de réaliser une autopsie. Il peut peut-être dire de quoi est mort l’expérience.” (Wikiquote 2019) Les auteurs ont rencontré des problèmes statistiques courants tels que de faibles conceptions de randomisation conduisant à de fausses conclusions sur la signification statistique, des erreurs de calcul dans les méta-analyses et des comparaisons de base inappropriées. (Allison et al. 2016) Un autre article de la même collection, prenant des expériences en physique comme exemple, affirme qu’il est crucial de non seulement fournir un accès aux données sous-jacentes, mais aussi de publier et documenter correctement les scripts de traitement et d’analyse des données pour atteindre une pleine reproductibilité. (Chen et al. 2018)

La communauté OHDSI aborde ces défis à sa manière et accorde une importance significative à la génération de preuves médicales à grande échelle. Comme indiqué dans Schuemie, Ryan, et al. (2018), alors que le paradigme actuel “se concentre sur la génération d’une estimation à la fois en utilisant un design d’étude unique dont la fiabilité est inconnue et la publication (ou non) d’une estimation à la fois,” la communauté OHDSI “prône des études observationnelles à haut débit utilisant des méthodes cohérentes et standardisées, permettant l’évaluation, la calibration et la diffusion impartiale pour générer une base de preuves plus fiable et complète.” Cela est réalisé par une combinaison d’un réseau de sources de données médicales qui mappent leurs données sur le modèle de données commun OMOP, de code d’analyse open-source pouvant être utilisé et vérifié par tous, et de données de référence à grande échelle telles que les occurrences de conditions publiées sur howoften.org. Dans les paragraphes suivants, des exemples concrets sont fournis et l’approche de science ouverte d’OHDSI est détaillée davantage en utilisant les quatre principes des Normes Ouvertes, du Code Source Ouvert, des Données Ouvertes et du Discours Ouvert comme guide. Le chapitre se termine par une brève référence aux principes FAIR et des perspectives pour OHDSI du point de vue de la science ouverte.

3.2 La Science Ouverte en Action : le Study-a-Thon

Un développement récent au sein de la communauté est l’émergence des “study-a-thons” : des réunions brèves et intensives en face-à-face d’un groupe multidisciplinaire de scientifiques visant à répondre à une question de recherche clinique pertinente en utilisant le modèle de données OMOP et les outils OHDSI. Un bel exemple est le study-a-thon d’Oxford en 2018, qui est expliqué dans un webinaire EHDEN 10 qui fournit une vue d’ensemble du processus et met également en évidence les résultats disponibles librement. Dans la période précédant le study-a-thon, les participants proposent des questions de recherche médicales pertinentes à étudier, et une ou plusieurs questions de recherche sont sélectionnées pour être étudiées durant le study-a-thon lui-même. Les données sont fournies par les participants ayant accès à des données de patients en format OMOP et pouvant exécuter des requêtes sur ces sources de données. Une grande partie du temps du study-a-thon est consacrée à discuter de l’approche statistique (voir aussi le chapitre 2), de l’adéquation des sources de données, des résultats produits de manière interactive et des questions de suivi qui ne manquent pas de se poser face à ces résultats. Dans le cas du study-a-thon d’Oxford, les questions portaient sur l’étude des effets indésirables post-opératoires de différentes méthodes de remplacement du genou, et les résultats ont été publiés de manière interactive pendant le study-a-thon en utilisant les forums et outils OHDSI (voir le chapitre 8). Les outils OHDSI tels qu’ATLAS facilitent la création rapide, l’échange, la discussion et les tests de définitions de cohortes, ce qui accélère grandement le processus initial de définition du problème et de choix des méthodes. Grâce à l’utilisation du modèle de données commun OMOP par les sources de données impliquées et à la disponibilité des packages de prédiction au niveau des patients en open-source OHDSI 13, il a été possible de créer un modèle de prédiction pour la mortalité post-opératoire à 90 jours en une journée, et de valider le modèle de manière externe dans plusieurs grandes sources de données dès le lendemain. Le study-a-thon a également abouti à un article scientifique traditionnel (Development and validation of patient-level prediction models for adverse outcomes following total knee arthroplasty, Ross Williams, Daniel Prieto-Alhambra et al., manuscrit en préparation), qui a mis des mois à être traité par l’examen par les pairs. Mais le fait que les scripts d’analyse et les résultats pour plusieurs bases de données de santé couvrant des centaines de millions de dossiers de patients aient été conçus, produits et publiés de zéro en une semaine illustre les améliorations fondamentales que l’OHDSI peut apporter à la science médicale, réduisant le délai pour que les preuves deviennent disponibles de plusieurs mois à quelques jours.

3.3 Normes Ouvertes

Une ressource communautaire très significative maintenue dans la communauté OHDSI est le modèle de données commun OMOP (voir chapitre 4) et les Vocabularies Standardisés associés (voir chapitre 5). Le modèle lui-même est conçu pour capturer des données de santé observationnelles et visait initialement à analyser les associations entre les expositions telles que les médicaments, les procédures, les dispositifs, etc., et les résultats tels que les conditions et les mesures. Il a été étendu pour divers cas d’utilisation d’analyse (voir aussi 7). Cependant, harmoniser les données de santé mondiales provenant d’une grande variété de systèmes de codage, de paradigmes de santé et de différents types de sources de soins de santé nécessite une quantité massive de “mappages” entre les codes sources et leurs homologues standardisés les plus proches. Le Vocabulaire Standardisé OMOP est décrit plus en détail dans le chapitre 7 et inclut des mappages de centaines de systèmes de codage médical utilisés dans le monde entier, et est consultable via l’outil OHDSI Athena. En fournissant ces vocabulaires et mappages comme une ressource communautaire librement disponible, OMOP et la communauté OHDSI apportent une contribution significative à l’analyse des données de santé et est, selon plusieurs comptes, le modèle le plus complet à cette fin, représentant environ 1,2 milliard de dossiers de santé dans le monde. 11 (Garza et al. 2016) ## Open Source

Une autre ressource clé que la communauté OHDSI fournit est constituée par les programmes open source. Ceux-ci peuvent être divisés en plusieurs catégories, telles que les outils auxiliaires pour mapper les données à OMOP (voir chapitre 6), la bibliothèque de méthodes OHDSI qui contient une suite puissante de méthodes statistiques couramment utilisées, le code open source pour les études observationnelles publiées, et ATLAS, Athena et autres logiciels liés à l’infrastructure qui sous-tendent l’écosystème OHDSI (voir chapitre 8). Du point de vue de la science ouverte, l’une des ressources les plus importantes est le code pour l’exécution réelle des études, telles que les études du réseau de recherche OHDSI (voir chapitre 20). En retour, ces programmes exploitent la pile entièrement open source OHDSI, qui peut être inspectée, revue et à laquelle on peut contribuer via GitHub. Par exemple, les études de réseau s’appuient souvent sur la bibliothèque de méthodes, ce qui assure une réutilisation cohérente des méthodes statistiques dans divers cas d’usage analytique. Voir le chapitre 17 pour un aperçu plus détaillé de la manière dont l’utilisation et la collaboration sur le logiciel open source au sein d’OHDSI sous-tendent finalement la qualité et la fiabilité des preuves générées.

3.4 Open Data

En raison de la nature sensible des données de santé en termes de vie privée, des ensembles de données de niveau patient entièrement ouverts et complets ne sont généralement pas disponibles. Cependant, il est possible d’exploiter les ensembles de données mappés à OMOP pour publier des données agrégées et des ensembles de résultats importants, comme mentionné précédemment http://howoften.org et d’autres ensembles de résultats publics qui sont publiés sur http://data.ohdsi.org. De plus, la communauté OHDSI fournit des ensembles de données simulés tels que SynPUF à des fins de test et de développement, et le Réseau de recherche OHDSI (voir 20) peut être exploité pour effectuer des études dans un réseau de sources de données disponibles ayant mappé leurs données à OMOP. Afin de rendre transparent le mappage entre les données sources et le modèle de données OMOP (OMOP CDM), il est encouragé pour les sources de données de réutiliser les outils ETL ou de ‘mappage’ d’OHDSI et de publier leur code de mappage en open source également.

3.5 Open Discourse

Les standards ouverts, les sources ouvertes et les données ouvertes sont de grands atouts, mais laissés à eux-mêmes, ils n’auront pas d’impact sur la pratique médicale. La clé de la pratique de la science ouverte et de l’impact d’OHDSI est la mise en œuvre de la génération de preuves médicales et la traduction de la science en pratique médicale. La communauté OHDSI organise plusieurs symposiums annuels OHDSI, tenus aux États-Unis, en Europe et en Asie, ainsi que des communautés de pratique dédiées, entre autres, en Chine et en Corée. Ces symposiums discutent des avancées dans les méthodes statistiques, les outils de données et de logiciels, les vocabulaires standardisés, et tous les autres aspects de la communauté open source OHDSI. Les forums12 et le wiki13 OHDSI facilitent des milliers de chercheurs dans le monde entier dans la pratique de la recherche observationnelle. Les appels communautaires14 et le code, les problèmes et les demandes de tirage sur Github15 font constamment évoluer les actifs de la communauté ouverte tels que le code et le CDM, et dans les études de réseau OHDSI, la recherche observationnelle mondiale est pratiquée de manière ouverte et transparente en utilisant des centaines de millions de dossiers de patients dans le monde entier. L’ouverture et le discours ouvert sont encouragés dans toute la communauté, et ce livre même est écrit via un processus ouvert facilité par le wiki OHDSI, les appels communautaires et un dépôt GitHub16. Il est cependant important de souligner que sans tous les collaborateurs OHDSI, les processus et les outils seraient des coquilles vides. En effet, on pourrait dire que la véritable valeur de la communauté OHDSI réside chez ses membres, qui partagent une vision d’amélioration de la santé grâce à la collaboration et à la science ouverte, comme discuté dans le chapitre 1.

3.6 OHDSI et les Principes Directeurs FAIR

3.6.1 Introduction

Ce dernier paragraphe du chapitre examine l’état actuel de la communauté et des outils OHDSI, en utilisant les Principes Directeurs FAIR publiés dans Wilkinson et al. (2016).

3.6.2 Findability

Toute base de données de santé mappée à OMOP et utilisée pour les analyses devrait, d’un point de vue scientifique, persister à des fins de référence et de reproductibilité futures. L’utilisation d’identifiants persistants pour les bases de données OMOP n’est pas encore répandue, en partie parce que ces bases de données sont souvent contenues derrière des pare-feu et sur des réseaux internes et pas nécessairement connectées à Internet. Cependant, il est tout à fait possible de publier des résumés des bases de données sous forme de fiches descriptives qui peuvent être référencées par exemple à des fins de citation. Cette méthode est suivie par exemple dans le catalogue EMIF17, qui fournit un enregistrement complet de la base de données en termes d’objectif de collecte de données, sources, vocabulaires et termes, mécanismes de contrôle d’accès, licence, consentements, etc. (Oliveira, Trifan, and Silva 2019) Cette approche est développée plus avant dans le projet IMI EHDEN.

3.6.3 Accessibility

L’accessibilité des données mappées à OMOP via un protocole ouvert est généralement réalisée via l’interface SQL, qui, combinée au CDM OMOP, fournit une méthode standardisée et bien documentée pour accéder aux données OMOP. Cependant, comme discuté plus haut, les sources OMOP ne sont souvent pas directement disponibles sur Internet pour des raisons de sécurité. La création d’un réseau mondial sécurisé de données de santé accessible aux chercheurs est un sujet de recherche actif et un objectif opérationnel de projets comme IMI EHDEN. Cependant, les résultats des analyses dans plusieurs bases de données OMOP, comme montré par les initiatives OHDSI telles que LEGEND et http://howoften.org, peuvent être publiés ouvertement.

3.6.4 Interoperability

L’interopérabilité est sans doute le point fort du modèle de données OMOP et des outils OHDSI. Afin de construire un réseau solide de sources de données médicales dans le monde entier qui peut être exploité pour la génération de preuves, atteindre l’interopérabilité entre les sources de données de santé est essentiel, et cela est réalisé grâce au modèle OMOP et aux vocabulaires standardisés. Cependant, en partageant les définitions de cohortes et les approches statistiques, la communauté OHDSI va au-delà du mappage de code et fournit également une plateforme pour construire une compréhension interopérable des méthodes d’analyse des données de santé. Étant donné que les systèmes de santé tels que les hôpitaux sont souvent la source des données OMOP, l’interopérabilité de l’approche OHDSI pourrait être davantage améliorée par l’alignement avec les standards d’interopérabilité des soins de santé opérationnels tels que HL7 FHIR, HL7 CIMI et openEHR. Il en va de même pour l’alignement avec les standards d’interopérabilité clinique tels que CDISC et les ontologies biomédicales. Surtout dans des domaines tels que l’oncologie, c’est un sujet important, et le Groupe de travail sur l’oncologie et le Groupe de travail sur les essais cliniques de la communauté OHDSI sont de bons exemples de forums où ces questions sont activement discutées. En termes de références à d’autres données et notamment aux termes d’ontologies, ATLAS et OHDSI Athena sont des outils importants, car ils permettent l’exploration des vocabulaires standardisés OMOP dans le contexte d’autres systèmes de codage médical disponibles.

3.6.5 Reusability

Les principes FAIR autour de la réutilisabilité se concentrent sur des questions importantes telles que la licence des données, la provenance (clarifiant comment les données ont été créées) et le lien avec les standards communautaires pertinents. La licence des données est un sujet compliqué, surtout entre juridictions, et il serait hors de portée de ce livre de le couvrir de manière exhaustive. Cependant, il est important de dire que si vous envisagez que vos données (par exemple, les résultats d’analyse) soient librement utilisées par d’autres, il est de bonne pratique de fournir explicitement ces autorisations via une licence de données. Ce n’est pas encore une pratique courante pour la plupart des données que l’on peut trouver sur Internet, et la communauté OHDSI n’est malheureusement pas une exception ici. En ce qui concerne la provenance des données des bases de données OMOP, des améliorations potentielles existent pour rendre les méta-données disponibles de manière automatisée, y compris, par exemple, la version du CDM, la version des vocabulaires standardisés, les listes de codes personnalisées, etc. Les outils ETL OHDSI ne produisent pas actuellement cette information automatiquement, mais des groupes de travail tels que le Groupe de travail sur la qualité des données et le Groupe de travail sur les méta-données y travaillent activement. Un autre aspect important est la provenance des bases de données sous-jacentes elles-mêmes; il est important de savoir si un hôpital ou un système d’information de GP a été remplacé ou modifié, et quand des omissions de données connues ou d’autres problèmes de données ont eu lieu historiquement. Explorer les moyens d’attacher systématiquement ces métadonnées dans le OMOP CDM est le domaine du Groupe de travail sur les méta-données.

  • La communauté OHDSI peut être vue comme une communauté scientifique ouverte qui poursuit activement l’interopérabilité et la reproductibilité de la génération de preuves médicales.

  • Elle plaide également pour un changement de paradigme allant d’une recherche médicale monétude et mono-estimation à une génération de preuves systématiques à grande échelle, où des faits tels que l’occurrence de base sont connus et où les preuves se concentrent sur l’estimation statistique des effets des interventions et des traitements à partir de sources de soins de santé du monde réel.

Références

Allison, D. B., A. W. Brown, B. J. George, and K. A. Kaiser. 2016. Reproducibility: A tragedy of errors.” Nature 530 (7588): 27–29.
Chen, Xiaoli, Sünje Dallmeier-Tiessen, Robin Dasler, Sebastian Feger, Pamfilos Fokianos, Jose Benito Gonzalez, Harri Hirvonsalo, et al. 2018. “Open Is Not Enough.” Nature Physics 15 (2): 113–19. https://doi.org/10.1038/s41567-018-0342-2.
Garza, M., G. Del Fiol, J. Tenenbaum, A. Walden, and M. N. Zozus. 2016. Evaluating common data models for use with a longitudinal community registry.” J Biomed Inform 64 (December): 333–41.
Oliveira, José Luı́s, Alina Trifan, and Luı́s A. Bastião Silva. 2019. EMIF Catalogue: A Collaborative Platform for Sharing and Reusing Biomedical Data.” International Journal of Medical Informatics 126 (June): 35–45. https://doi.org/10.1016/j.ijmedinf.2019.02.006.
Schuemie, M. J., P. B. Ryan, G. Hripcsak, D. Madigan, and M. A. Suchard. 2018. Improving reproducibility by using high-throughput observational studies with empirical calibration.” Philos Trans A Math Phys Eng Sci 376 (2128).
Wikipedia. 2019a. Open scienceWikipedia, the Free Encyclopedia.” http://en.wikipedia.org/w/index.php?title=Open%20science&oldid=900178688.
———. 2019b. Science 2.0Wikipedia, the Free Encyclopedia.” http://en.wikipedia.org/w/index.php?title=Science%202.0&oldid=887565958.
Wikiquote. 2019. “Ronald Fisher — Wikiquote, \url{https://en.wikiquote.org/w/index.php?title=Ronald_Fisher&oldid=2638030}.
Wilkinson, M. D., M. Dumontier, I. J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, et al. 2016. The FAIR Guiding Principles for scientific data management and stewardship.” Sci Data 3 (March): 160018.