coronavirus logo V9 

Participants et sources de données

Retour au sommaire
Aller à la fiche précédente (Quelle place pour la pharmaco-épidémiologie ?)
Aller à la fiche suivante (Variables)

Points clés

  • La population est issue d’une (de plusieurs) source(s) de données
  • Dans une source de données, différents critères de sélection pour identifier les sujets

La population source / la(les) source(s) de données

Les études de pharmaco-épidémiologie se basent dans leur grande majorité sur les données de personnes qui ont été préenregistrées / collectées dans une base de données. Lors de la réalisation d’une étude, les données consultées et analysées sont celles contenues dans une ou plusieurs bases de données qui constituent la « source de données ». Suivant différentes méthodes, les bases de données peuvent être reliées entre elles – on parle de chaînage – afin de maximiser la quantité d’informations disponibles relatives à un patient.

La population source de l’étude est donc indissociable de la source de données.

Il est primordial de s’interroger sur la pertinence du choix de la base de données : votre source de données contient-elle bien l’ensemble des données dont vous avez besoin pour répondre à l’objectif posé ? Manque-t-il des variables d’intérêt ?

Principales sources de données

Les bases médico-administratives

Dans certaines études, la source de données concerne une ou plusieurs bases de données « médico-administratives ». Alors qu’elles ont été créées à des fins administratives ou économiques (assurance, comptabilité des frais de santé, recensement démographique…), il s’agit ici d’utiliser les données déjà collectées à des fins de recherche médicale. Les requêtes dans ces bases de données sont réalisées via des nomenclatures internationales (exemple, Classification Internationale des Maladies, 10ème édition [CIM-10]) et/ou nationales (exemple, classification commune des actes médicaux [CCAM] en France).

En France, le SNDS (Système National des Données de Santé) [4,5] centralise les données de santé des bénéficiaires de l’Assurance Maladie de la quasi-totalité de la population française, ce qui en fait une des plus volumineuses bases de données au monde (environ 66 millions de Français en 2020). Alors que les pays scandinaves ou encore la Corée du Sud possèdent des bases médico-administratives incluant la quasi-totalité de leur population, d’autres pays possèdent des bases plus spécifiques et sélectives. Ces bases peuvent ne pas être représentatives de toute la population du pays considéré (États-Unis, Royaume-Uni), ce qui doit attirer notre vigilance de lecteur.

Outre des données démographiques (âge, sexe, statut vital…), le SNDS fournit des informations concernant les données de remboursements des prestations de soins en ambulatoire (consultations médicales, médicaments, dispositifs médicaux, biologie, imagerie…), et les données du Programme de Médicalisation des Systèmes d’Information (PMSI), qui recueille l’ensemble des données d’hospitalisations dans les établissements de santé publics et privés (séjours hospitaliers, actes médicaux, chirurgicaux, imagerie). Une des limites majeures du SNDS est l’absence de certaines variables importantes (clinique, paraclinique) (cf. fiche Variables).

Les dossiers patients et les bases des données hospitalières

La plupart des structures de santé, notamment hospitalières, ont informatisé les données de leurs patients sous la forme d’un dossier électronique de soin (aussi appelé dossier patient informatisé) qui collige diverses informations démographiques, cliniques et paracliniques (résultats biologiques, d’imagerie…). Certains établissements ont regroupé ces données dans des entrepôts de données intra-hospitaliers pouvant faire l’objet d’une réutilisation à des fins de recherche. [6,7] Principaux atouts : la grande quantité d’information disponible pour chaque patient et la présence de détails cliniques et paracliniques.

Cependant, l’utilisation de ces données se confronte à certaines limites

  1. Une taille d’échantillon souvent modeste
  2. Des informations non exhaustives, restreintes à des passages dans l’établissement concerné et pouvant être le reflet de prises en charge locales
  3. Une structuration des données parfois insuffisante (narration en texte libre de l’histoire clinique et de l’évolution d’un patient) ou hétérogène (codage différent d’un patient à l’autre, voire pour un même patient selon ses séjours de soins).

Les registres

Ils regroupent, de façon anonyme, tous les cas incidents de patients ayant présenté une pathologie spécifique (ex : cancer, accident vasculaire cérébral, mais aussi maladies rares comme la fibrose pulmonaire idiopathique, etc.). Ils permettent de caractériser les patients atteints de la maladie concernée et de suivre leur évolution dans le temps (incluant les données relatives à la prise en charge et aux soins réalisés). Ils comprennent des données démographiques, paracliniques et cliniques, collectées de façon prospective, systématique et exhaustive. Alors qu’à l’international, les registres de maladie peuvent être nationaux, en France, ils sont plus volontiers limités à une zone géographique ou à un nombre donné d’établissements de santé et ne concernent que les patients ayant accepté de faire partie du registre.

Étude ad-hoc vs Étude sur base de données

Lorsque certaines données concernant le patient, le traitement ou encore les effets indésirables sont absentes des bases de données, une étude ad hoc (aussi appelée étude de terrain) doit être menée. Dans ce type d'étude, les données seront recueillies grâce à un questionnaire standardisé auprès des personnes concernées (patients et leur entourage, professionnels de santé etc.), ou à partir des dossiers médicaux.

Identification des sujets

Une fois la source de données choisie, les sujets qui répondent aux critères d’intérêt pour notre étude y sont identifiés, par différents moyens :

  • Par critères sociodémographiques : identification d’une population selon l’âge, le sexe phénotypique, la zone géographique de résidence, l’attribution de certaines prestations sociales.
    Exemple : protection médicale destinée aux personnes en situation de forte précarité économique, bénéficiaires d’une allocation d'Affection Longue Durée pour les patients atteints d’une pathologie chronique engendrant des soins longs et coûteux, etc.
  • Par pathologie :
    • Identification directe : les patients sont recrutés suite à leur attribution, lors d’un séjour hospitalier, d’un code diagnostic correspondant à la pathologie ciblée
      Exemple : un patient a été hospitalisé pour infarctus du myocarde, ce diagnostic remonte sous forme d’un code dans la source de données. On peut ainsi identifier tous les patients de la source qui ont reçu ce code.
    • Identification indirecte : les patients sont recrutés après qu’un médicament spécifique d’une pathologie ciblée leur a été délivré en pharmacie d’officine, objectivé grâce aux données de remboursement (on peut parler de médicament traceur, ou de proxy).
      Exemple : Pour identifier un patient souffrant de diabète, on peut tracer sa consommation d’antidiabétiques. Les antidiabétiques n’ont, en effet, aucune autre indication que le diabète.
  • Par médicament : identification des patients recevant des médicaments (soit dans le logiciel de pharmacie d’un hôpital, soit sur la base de son remboursement en pharmacie d’officine / en rétrocession, etc.)
  • Par algorithme : identification des patients à l’aide de critères combinatoires issus de données enregistrées dans le SNDS, dont la validité a été assurée par un groupe d’experts pluridisciplinaires (Réseau pour l'utilisation des données du système national des Données de Santé – REDSIAM) et/ou des publications scientifiques.
    Exemple : Un patient qui a consulté un cardiologue, a eu un enregistrement longue durée du rythme cardiaque et reçoit un anticoagulant présente vraisemblablement un trouble du rythme supraventriculaire. [8]

Pour aller plus loin : validation de la bonne identification des patients dans les études de pharmaco-épidémiologie

Quand la source de données ne contient pas d’information clinique ou paraclinique, l’entrée indirecte (ex. via des données de remboursement de médicaments) peut induire un biais de sélection, consistant à inclure dans l’étude des patients qui ne sont pas représentatifs de ceux que l’on aimerait étudier.

Exemple : on cherche à identifier les patients hypertendus. Le remboursement d’un inhibiteur de l’enzyme de conversion n’est pas spécifique de l’hypertension artérielle (utilisé dans l’insuffisance cardiaque à fraction d’éjection altérée, dans certaines néphropathies). Si on se sert tout de même des remboursements de médicaments, un biais de sélection s’opère sur la population, elle inclut à tort des patients qui ne sont peut-être pas hypertendus.

Pour limiter ce risque et s’assurer d’une sélection optimale des patients inclus, il faut utiliser des algorithmes d’identification validés, ou procéder à une étude de validation de l’algorithme en évaluant la qualité de l’identification permise par l’algorithme en analysant son efficacité sur une source de données dont on connaît les données cliniques, en parallèle de leur identification (i.e. appariement) dans la source utilisée pour l’étude. [9]

Dans tous les cas, il est essentiel d’évaluer la validité externe des résultats obtenus avec les sujets identifiés sur les bases de données en comparant leurs caractéristiques (sociodémographiques, sanitaires, etc.) avec celles de patients analysés lors d’études de terrain sur des questions de recherche de même ordre.

Références

4 Bezin J, Duong M, Lassalle R, et al. The national healthcare system claims databases in France, SNIIRAM and EGB: Powerful tools for pharmacoepidemiology. Pharmacoepidemiol Drug Saf 2017;26:954–62. doi:10.1002/pds.4233
5 Tuppin P, Rudant J, Constantinou P, et al. Value of a national administrative database to guide public decisions: From the système national d’information interrégimes de l’Assurance Maladie (SNIIRAM) to the système national des données de santé (SNDS) in France. Rev DÉpidémiologie Santé Publique 2017;65:S149–67. doi:10.1016/j.respe.2017.05.004
6 Madec J, Bouzillé G, Riou C, et al. eHOP Clinical Data Warehouse: From a Prototype to the Creation of an Inter-Regional Clinical Data Centers Network. Stud Health Technol Inform 2019;264:1536–7. doi:10.3233/SHTI190522
7 Marseau F, Prud’Homm J, Bouzillé G, et al. The Trigger Tool Method for Routine Pharmacovigilance: A Retrospective Cohort Study of the Medical Records of Hospitalized Geriatric Patients. J Patient Saf 2022;18:e393–400. doi:10.1097/PTS.0000000000000820
8 Cartographie des pathologies | Documentation du SNDS. https://documentation-snds.health-data-hub.fr/fiches/cartographie_pathologies.html#presentation (accessed 30 Nov 2021).
9 Bezin J, Girodet P-O, Rambelomanana S, et al. Choice of ICD-10 codes for the identification of acute coronary syndrome in the French hospitalization database. Fundam Clin Pharmacol 2015;29:586–91. doi:10.1111/fcp.12143

Aller à la fiche précédente (Quelle place pour la pharmaco-épidémiologie ?)
Aller à la fiche suivante (Variables)
Retour au sommaire

Imprimer E-mail