Identification des outils utilisés pour évaluer la validité externe des essais contrôlés randomisés dans les revues : une revue systématique des propriétés de mesure

BMC Medical Research Methodology volume 22, Article number: 100 (2022) Citer cet article

3414 Accès

2 Citations

3 Altmétrique

Détails des métriques

La validité interne et externe sont les éléments les plus pertinents lors de l'évaluation critique des essais contrôlés randomisés (ECR) pour les revues systématiques. Cependant, il n'y a pas d'étalon-or pour évaluer la validité externe. Cela pourrait être lié à l'hétérogénéité de la terminologie ainsi qu'à des preuves peu claires des propriétés de mesure des outils disponibles. L'objectif de cette revue était d'identifier des outils pour évaluer la validité externe des ECR. Il s'agissait en outre d'évaluer la qualité des outils identifiés et de recommander l'utilisation d'outils individuels pour évaluer la validité externe des ECR dans les futures revues systématiques.

Une recherche documentaire systématique en deux phases a été effectuée dans quatre bases de données : PubMed, Scopus, PsycINFO via OVID et CINAHL via EBSCO. Premièrement, des outils pour évaluer la validité externe des ECR ont été identifiés. Deuxièmement, des études portant sur les propriétés de mesure de ces outils ont été sélectionnées. Les propriétés de mesure de chaque outil inclus ont été évaluées à l'aide d'une version adaptée des directives COnsensus based Standards for the selection of health Measurement INstruments (COSMIN).

38 publications rapportant le développement ou la validation de 28 outils inclus ont été incluses. Pour 61 % (17/28) des outils inclus, il n'y avait aucune preuve de propriétés de mesure. Pour les outils restants, la fiabilité était la propriété la plus fréquemment évaluée. La fiabilité a été jugée "suffisante" pour trois outils (très faible certitude des preuves). La validité du contenu a été jugée « suffisante » pour un outil (certitude modérée des données probantes).

Sur la base de ces résultats, aucun outil disponible ne peut être entièrement recommandé pour évaluer la validité externe des ECR dans les revues systématiques. Plusieurs étapes sont nécessaires pour surmonter les difficultés identifiées, soit pour adapter et valider les outils disponibles, soit pour développer un outil mieux adapté.

Inscription prospective à Open Science Framework (OSF) : https://doi.org/10.17605/OSF.IO/PTG4D.

Rapports d'examen par les pairs

Les revues systématiques sont des formats de recherche puissants pour résumer et synthétiser les preuves issues de la recherche primaire en sciences de la santé [1, 2]. En pratique clinique, leurs résultats sont souvent appliqués pour l'élaboration de directives cliniques et de recommandations de traitement [3]. Par conséquent, la qualité méthodologique des revues systématiques est d'une grande importance. À son tour, la valeur informative des revues systématiques dépend de la qualité globale des essais contrôlés inclus [3, 4]. En conséquence, l'évaluation de la validité interne et externe est considérée comme une étape clé dans la méthodologie de revue systématique [4, 5].

La validité interne concerne l'erreur ou le biais systématique dans les essais cliniques [6] et exprime la robustesse méthodologique de l'étude. La validité externe est l'inférence sur la mesure dans laquelle "une relation causale tient sur les variations des personnes, des contextes, des traitements et des résultats" [7, 8]. Il existe de nombreuses définitions de la validité externe et une variété de termes différents. Par conséquent, la validité externe, la généralisabilité, l'applicabilité et la transférabilité, entre autres, sont utilisées de manière interchangeable dans la littérature [9]. Schünemann et al. [10] suggèrent que : (1) la généralisabilité "peut faire référence au fait que la preuve peut ou non être généralisée de la population à partir de laquelle la preuve de recherche réelle est obtenue à la population pour laquelle une réponse de soins de santé est requise" ; (2) l'applicabilité peut être interprétée comme « si les données probantes de la recherche répondent ou non à la question de santé posée par un clinicien ou un praticien de la santé publique » et (3) la transférabilité est souvent interprétée comme « si les données probantes de la recherche peuvent être transférées d'un contexte à un autre ». Quatre dimensions essentielles sont proposées pour évaluer la validité externe des essais cliniques contrôlés dans les revues systématiques : les patients, les variables de traitement (y compris les comparateurs), les paramètres et les modalités de résultat [4, 11]. Son évaluation dépend de la spécificité de la question de recherche des examinateurs, des critères d'inclusion et d'exclusion de la revue par rapport à la population de l'essai, du cadre de l'étude, ainsi que de la qualité du rapport sur ces quatre dimensions.

Dans la recherche en santé, cependant, la validité externe est souvent négligée lors de l'évaluation critique des études cliniques [12, 13]. Une explication possible pourrait être l'absence d'étalon-or pour évaluer la validité externe des essais cliniques. Des revues systématiques et exploratoires ont examiné les cadres et outils publiés pour évaluer la validité externe des essais cliniques dans la recherche en santé [9, 12, 14–18]. Une hétérogénéité substantielle de la terminologie et des critères ainsi qu'un manque de conseils sur la façon d'évaluer la validité externe des études d'intervention ont été constatés [9, 12, 15-18]. Les résultats et les conclusions des revues précédentes étaient basés sur une analyse descriptive et de contenu des cadres et des outils sur la validité externe [9, 14–18]. Bien que la faisabilité de certains cadres et outils ait été évaluée [12], aucune des revues précédentes n'a évalué la qualité des processus de développement et de validation des cadres et outils utilisés.

Les ECR sont considérés comme le modèle de recherche le plus approprié pour étudier les mécanismes de cause à effet des interventions [19]. Cependant, la conception de l'étude des ECR est susceptible d'un manque de validité externe en raison de la randomisation, de l'utilisation de critères d'exclusion et de la faible volonté des participants éligibles à participer [20, 21]. Il existe des preuves que la fiabilité des évaluations de la validité externe avec le même outil de mesure différait entre les essais randomisés et non randomisés [22]. De plus, en raison des différences entre les informations demandées et les directives de notification (par exemple, la déclaration des normes consolidées de notification des essais (CONSORT), le renforcement de la déclaration des études observationnelles en épidémiologie (STROBE)), les éléments respectifs utilisés pour évaluer la validité externe varient selon les conceptions de recherche. Reconnaissant l'importance des ECR dans le domaine médical, cette revue s'est concentrée uniquement sur les outils développés pour évaluer la validité externe des ECR. L'objectif était d'identifier des outils pour évaluer la validité externe des ECR dans des revues systématiques et d'évaluer la qualité des preuves concernant leurs propriétés de mesure. Objectifs : (1) identifier les outils de mesure publiés pour évaluer la validité externe des ECR dans les revues systématiques ; (2) évaluer la qualité des outils identifiés ; (3) recommander l'utilisation d'outils pour évaluer la validité externe des ECR dans les futures revues systématiques.

Cette revue systématique a été rapportée conformément à la déclaration Preferred Reporting Items for Systematic reviews and Meta-Analyses (PRISMA) 2020 [23] et a utilisé une version adaptée du diagramme de flux PRISMA pour illustrer la stratégie de recherche systématique utilisée pour identifier les articles clinimétriques [24]. Cette étude a été menée selon une version adaptée de la méthodologie COnsensus-based Standards for the selection of health Measurement INstruments (COSMIN) pour les revues systématiques des instruments de mesure en sciences de la santé [25–27] et a suivi les recommandations du manuel JBI pour les revues systématiques des propriétés de mesure [28]. La méthodologie COSMIN a été choisie car cette méthode est complète et les processus de validation ne diffèrent pas sensiblement entre les mesures des résultats rapportés par les patients (PROM) et les instruments de mesure d'autres constructions latentes. Selon les auteurs de COSMIN, il est acceptable d'utiliser cette méthodologie pour les non-PROM [26]. De plus, en raison de sa souplesse, il a déjà été utilisé dans des revues systématiques évaluant des outils de mesure qui ne sont pas des instruments de mesure de la santé [29-31]. Cependant, des adaptations ou des modifications peuvent être nécessaires [26]. Le type d'instrument de mesure d'intérêt pour la présente étude était les outils de mesure signalés par les examinateurs. Les tests pilotes et les processus d'adaptation de la méthodologie COSMIN sont décrits ci-dessous (voir la section "Évaluation de la qualité et synthèse des preuves"). La définition de chaque propriété de mesure évaluée dans la présente revue est basée sur la taxonomie, la terminologie et la définition des propriétés de mesure de COSMIN [32]. Le protocole d'examen a été enregistré de manière prospective le 6 mars 2020 dans l'Open Science Framework (OSF) avec l'enregistrement DOI : https://doi.org/10.17605/OSF.IO/PTG4D [33].

L'un des objectifs énumérés dans le protocole de revue était d'évaluer les caractéristiques et les limites des outils de mesure en termes de terminologie et de critères d'évaluation de la validité externe. Cette question a été abordée dans deux revues récentes avec une portée similaire [9, 17]. Bien que nos critères d'éligibilité différaient, il a été conclu qu'aucune nouvelle donnée n'était disponible pour la présente revue à extraire, puisque les auteurs des outils inclus n'ont pas décrit la définition ou la construction d'intérêt ou n'ont pas cité les mêmes rapports. Cet objectif a donc été omis.

Une recherche bibliographique a été menée dans quatre bases de données : PubMed, Scopus, PsycINFO via OVID et CINAHL via EBSCO. Les critères d'éligibilité et la stratégie de recherche ont été prédéfinis en collaboration avec un bibliothécaire de recherche et sont détaillés dans le tableau S1 (voir fiche complémentaire 1). La stratégie de recherche a été conçue selon la méthodologie COSMIN et se compose des quatre éléments clés suivants : (1) construction (validité externe des ECR du point de vue des auteurs de la revue), (2) population(s) (ECR), (3) type d'instrument(s) (outils de mesure, listes de contrôle, enquêtes, etc.) et (4) propriétés de mesure (par exemple validité et fiabilité) [34]. Les quatre éléments clés ont été divisés en deux recherches principales (adaptées des revues précédentes [24, 35, 36]) : la recherche de phase 1 contenait les trois premiers éléments clés pour identifier les outils de mesure pour évaluer la validité externe des ECR. La recherche de phase 2 visait à identifier les études évaluant les propriétés de mesure de chaque outil, qui ont été identifiées et incluses lors de la phase 1. Pour cette deuxième recherche, un filtre de recherche sensible PubMed développé par Terwee et al. [37] a été appliqué. Les traductions de ce filtre pour les bases de données restantes ont été extraites du site Web COSMIN et d'autres revues COSMIN publiées [38, 39] avec la permission des auteurs. Les deux recherches ont été menées jusqu'en mars 2021 sans restriction concernant le moment de la publication (les bases de données ont été consultées depuis le début). En outre, un suivi des citations en aval avec Scopus (qui est une base de données de citations spécialisée) a été effectué en phase 2 à l'aide de la fonction « cité par ». Le filtre de recherche Scopus a ensuite été entré dans la fonction « recherche dans les résultats ». Les résultats du suivi des citations en aval avec Scopus ont été ajoutés aux résultats de recherche de la base de données dans l'application Rayyan pour le filtrage. Les listes de référence des articles en texte intégral récupérés et des citations directes avec PubMed ont été scannées manuellement pour toute étude supplémentaire par un examinateur (AJ) et vérifiées par un deuxième examinateur (KL).

La sélection des titres et des résumés pour les deux recherches et la sélection du texte intégral au cours de la phase 2 ont été effectuées indépendamment par au moins deux des trois chercheurs impliqués (AJ, KL et TB). Pour des raisons pragmatiques, le filtrage du texte intégral et l'extraction d'outils/de données dans la phase 1 ont été effectués par un examinateur (AJ) et vérifiés par un deuxième examinateur (TB). Cette méthode de filtrage est acceptable pour le filtrage de texte intégral ainsi que pour l'extraction de données [40]. L'extraction des données pour les deux recherches a été réalisée avec une feuille d'extraction préconçue basée sur les recommandations du manuel d'utilisation COSMIN [34]. L'application Web du Rayyan Qatar Computing Research Institute (QCRI) [41] a été utilisée pour faciliter le processus de sélection (les deux recherches) selon des critères d'éligibilité définis a priori. Un essai pilote a été effectué pour les deux recherches afin de parvenir à un accord entre les examinateurs au cours du processus de sélection. À cette fin, les 100 premiers enregistrements de la phase 1 et les 50 premiers enregistrements de la phase 2 (triés par date) dans l'application Rayyan ont été examinés par deux examinateurs indépendamment et par la suite, les questions concernant la faisabilité des méthodes de sélection ont été discutées lors d'une réunion.

Les enregistrements ont été considérés pour inclusion en fonction de leur titre et de leur résumé selon les critères suivants : (1) enregistrements décrivant le développement et/ou la mise en œuvre (application), par exemple un manuel ou un manuel, de tout outil permettant d'évaluer la validité externe des ECR ; (2) des revues systématiques qui appliquaient des outils pour évaluer la validité externe des ECR et qui mentionnaient explicitement l'outil dans le titre ou le résumé ; (3) revues systématiques ou toute autre publication utilisant potentiellement un outil d'évaluation de la validité externe, mais l'outil n'a pas été explicitement mentionné dans le titre ou le résumé ; (4) les notices donnant d'autres références ou traitant d'outils d'évaluation de la validité externe des ECR, par exemple des articles méthodologiques, des commentaires.

Le criblage du texte intégral a été effectué pour extraire ou trouver des références à des outils potentiels. Si un outil était cité, mais non présenté ou disponible dans la version en texte intégral, une recherche sur Internet a été effectuée pour trouver des sites Web sur lesquels cet outil était présenté, à extraire et à examiner pour inclusion. Les outils potentiels ont été extraits et sélectionnés pour l'éligibilité comme suit : outils de mesure visant à évaluer la validité externe des ECR et conçus pour être mis en œuvre dans des revues systématiques d'études d'intervention. Les termes validité externe, applicabilité, généralisabilité, pertinence et transférabilité étant utilisés de manière interchangeable dans la littérature [10, 11], les outils visant à évaluer l'un de ces construits étaient éligibles. Critères d'exclusion : (1) L'outil multidimensionnel comprenait au moins un élément lié à la validité externe, mais il n'a pas été possible d'évaluer et d'interpréter la validité externe séparément. (2) L'outil a été développé exclusivement pour des plans d'étude autres que les ECR. (3) L'outil contenait des éléments évaluant des informations non demandées dans le CONSORT-Statement [42] (par exemple, le rapport coût-efficacité de l'intervention, le salaire du prestataire de soins de santé) et ces éléments ne pouvaient pas être séparés des éléments sur la validité externe. (4) L'outil a été publié dans une langue autre que l'anglais ou l'allemand. (5) L'outil a été explicitement conçu pour une profession ou un domaine médical spécifique et ne peut pas être utilisé dans d'autres domaines médicaux.

Pour la recherche de phase 2, les enregistrements évaluant les propriétés de mesure d'au moins un des outils de mesure inclus ont été sélectionnés. Les rapports utilisant uniquement l'outil de mesure comme mesure de résultat sans l'évaluation d'au moins une propriété de mesure ont été exclus. Si un rapport n'évaluait pas les propriétés de mesure d'un outil, il était également exclu. Ainsi, seuls les rapports fournissant des données sur la validité ou la fiabilité des scores-sommes des outils multidimensionnels ont été exclus si la dimension « validité externe » n'a pas été évaluée séparément.

En cas de données ou d'informations manquantes (phase 1 ou phase 2), les auteurs correspondants ont été contactés.

Tous les rapports inclus ont été systématiquement évalués : (1) pour leur qualité méthodologique en utilisant la liste de contrôle COSMIN Risk of Bias (RoB) adaptée [25] et (2) par rapport aux critères mis à jour pour de bonnes propriétés de mesure [26, 27]. Par la suite, toutes les preuves disponibles pour chaque propriété de mesure pour l'outil individuel ont été résumées et évaluées par rapport aux critères mis à jour pour les bonnes propriétés de mesure et classées pour leur certitude de preuve, selon l'approche GRADE modifiée de COSMIN [26, 27]. L'évaluation de la qualité a été effectuée par deux examinateurs indépendants (AJ et JB). En cas de désaccord irréconciliable, un troisième examinateur (TB) était consulté pour parvenir à un consensus.

La checklist COSMIN RoB est un outil [25, 27, 32, 43] conçu pour l'évaluation systématique de la qualité méthodologique des études évaluant les propriétés de mesure des instruments de mesure de la santé [25]. Bien que cette liste de contrôle ait été spécifiquement développée pour les revues systématiques de PROM, elle peut également être utilisée pour des revues de non-PROM [26] ou des outils de mesure d'autres constructions latentes [28, 29]. Comme mentionné dans le manuel d'utilisation de COSMIN, des adaptations pour certains éléments de la liste de contrôle COSMIN RoB peuvent être nécessaires, en fonction du construit mesuré [34]. Par conséquent, des tests pilotes ont été effectués pour l'évaluation des propriétés de mesure des outils évaluant la qualité des ECR avant l'extraction des données, dans le but d'assurer la faisabilité lors de l'évaluation prévue des outils inclus. Les tests pilotes ont été réalisés avec un échantillon aléatoire de publications sur des instruments de mesure d'outils potentiellement pertinents. Après chaque test pilote, les résultats et les problèmes concernant la compréhensibilité, la pertinence et la faisabilité des instructions, des items et des options de réponse par rapport au construit d'intérêt ont été discutés. Le cas échéant, des adaptations et/ou des compléments ont été ajoutés aux instructions de l'évaluation avec la liste de contrôle COSMIN RoB. La saturation a été atteinte après deux séries de tests pilotes. Des adaptations ou des compléments substantiels ont été nécessaires pour l'encadré 1 ("processus de développement") et l'encadré 10 ("réactivité") de la liste de contrôle COSMIN RoB. Des adaptations mineures ont été nécessaires pour les boîtes restantes. La liste des spécifications, y compris les adaptations, peut être consultée dans le tableau S2 (voir fichier complémentaire 2). La qualité méthodologique des études incluses a été évaluée via l'échelle d'évaluation à quatre points de la liste de contrôle COSMIN RoB comme « inadéquate », « douteuse », « adéquate » ou « très bonne » [25]. Le score le plus bas de n'importe quel élément dans une case est pris pour déterminer la note globale de la qualité méthodologique de chaque étude sur une propriété de mesure [25].

Après l'évaluation RoB, le résultat de chaque étude sur une propriété de mesure a été évalué par rapport aux critères mis à jour pour les bonnes propriétés de mesure pour la validité du contenu [27] et pour les propriétés de mesure restantes [26] comme "suffisant" (+), "insuffisant" (-) ou "indéterminé" (?). Ces notes ont été résumées et une note globale pour chaque propriété de mesure a été donnée comme « suffisante » (+), « insuffisante » (-), « incohérente » (±) ou « indéterminée » (?). Cependant, les critères d'évaluation globaux pour une bonne validité de contenu ont été adaptés au sujet de recherche de la présente revue. Cette méthode nécessite généralement un jugement subjectif supplémentaire de la part des examinateurs [44]. Étant donné que l'une des plus grandes limites de ce domaine de recherche est l'absence de consensus sur la terminologie et les critères ainsi que sur la manière d'évaluer la validité externe [9, 12], le jugement subjectif des examinateurs a été jugé inapproprié. Après que cette question ait également été discutée avec un membre dirigeant du comité directeur de COSMIN, la note des examinateurs a été omise. Une note globale "suffisante" (+) a été attribuée s'il y avait des preuves de la validité apparente ou du contenu de la version finale de l'outil de mesure évalué par un groupe d'utilisateurs ou d'experts. Sinon, la notation "indéterminée" (?) ou "insuffisante" (-) a été utilisée pour la validité du contenu.

Les preuves résumées pour chaque propriété de mesure pour l'outil individuel ont été classées à l'aide de l'approche GRADE modifiée de COSMIN [26, 27]. La certitude (qualité) des preuves a été classée comme "élevée", "modérée", "faible" ou "très faible" selon l'approche de la validité du contenu [27] et pour les propriétés de mesure restantes [26]. L'approche GRADE modifiée de COSMIN fait la distinction entre quatre facteurs influençant la certitude des preuves : le risque de biais, l'incohérence, le caractère indirect et l'imprécision. Le point de départ de toutes les propriétés de mesure est une certitude élevée des preuves et est ensuite déclassée d'un à trois niveaux par facteur lorsqu'il existe un risque de biais, d'incohérence (inexpliquée), d'imprécision (non prise en compte pour la validité du contenu [27]) ou de résultats indirects [26, 27]. S'il n'y a pas d'étude sur la validité de contenu d'un outil, le point de départ de cette propriété de mesure est « modéré » et est ensuite déclassé en fonction de la qualité du processus de développement [27]. Le processus de classement selon COSMIN [26, 27] est décrit dans le tableau S4. Le biais de notification sélectif ou le biais de publication n'est pas pris en compte dans l'approche GRADE modifiée de COSMIN, en raison d'un manque de registres pour les études sur les propriétés de mesure [26].

La synthèse des preuves a été réalisée qualitativement selon la méthodologie COSMIN [26]. Si plusieurs rapports ont révélé des données quantitatives homogènes (par exemple, mêmes statistiques, population) sur la cohérence interne, la fiabilité, l'erreur de mesure ou le test d'hypothèses d'un outil de mesure, le regroupement des résultats a été envisagé en utilisant une méthodologie générique de variance inverse (effets aléatoires) et des moyennes pondérées ainsi que des intervalles de confiance à 95 % pour chaque propriété de mesure [34]. Aucune analyse en sous-groupe n'était prévue. Cependant, le regroupement statistique n'a pas été possible dans la présente revue.

Nous avons utilisé trois critères pour la recommandation d'un outil de mesure conformément au manuel COSMIN : (A) « Preuve d'une validité de contenu suffisante (tout niveau) et au moins une preuve de faible qualité pour une cohérence interne suffisante » pour qu'un outil soit recommandé ; (B) outil "classé non dans A ou C" et des recherches supplémentaires sur la qualité de cet outil doivent être recommandées ; et (C) outil avec "des preuves de haute qualité pour une propriété psychométrique insuffisante" et cet outil ne devrait pas être recommandé [26].

La figure 1 illustre le processus de sélection. Dans la recherche de phase 1, à partir de 5397 enregistrements non dupliqués, 5020 enregistrements non pertinents ont été exclus. 377 rapports ont été examinés et 74 outils potentiels ont été extraits. Après consensus, 46 outils ont été exclus (les raisons de l'exclusion sont présentées dans le tableau S3 (voir fiche complémentaire 3)) et finalement 28 ont été inclus. Tout désaccord au cours du processus de sélection a été résolu par la discussion. Il y a eu un cas au cours du processus de sélection du texte intégral dans la phase 1 de la recherche, dans lequel toute l'équipe d'examen a été impliquée pour parvenir à un consensus sur l'inclusion/l'exclusion de deux outils (les critères d'applicabilité de l'Agence pour la recherche et la qualité des soins de santé (AHRQ) et l'approche TRANSFER, tous deux répertoriés dans le tableau S3).

Lors de la recherche de phase 2, 2191 enregistrements non dupliqués ont été examinés pour le titre et le résumé. 2146 enregistrements ont été exclus car ils n'évaluaient aucune propriété de mesure des outils inclus. Sur 45 rapports, 8 rapports ont été inclus. La raison la plus courante d'exclusion était que les rapports évaluant les propriétés de mesure des outils multidimensionnels n'évaluaient pas la validité externe en tant que dimension distincte. Par exemple, une étude évaluant la fiabilité interévaluateurs de la méthode GRADE [45] a été identifiée lors de la sélection en texte intégral, mais a dû être exclue, car elle ne fournissait pas de données distinctes sur la fiabilité du domaine d'indirectité (représentant la validité externe). Deux rapports supplémentaires ont été inclus lors de la sélection des références. Tout désaccord au cours du processus de sélection a été résolu par la discussion.

Trente-huit publications sur le développement ou l'évaluation des propriétés de mesure de 28 outils inclus ont été incluses pour l'évaluation de la qualité selon les directives COSMIN adaptées.

Organigramme "de la stratégie de recherche systématique utilisée pour identifier les papiers clinimétriques"[24]

Nous avons contacté les auteurs correspondants de trois rapports [46–48] pour des informations supplémentaires. Un auteur correspondant a répondu [48].

Lors de la sélection en texte intégral de la phase 1, plusieurs concepts permettant d'évaluer la validité externe des ECR ont été trouvés (tableau 1). Deux concepts principaux ont été identifiés : les méthodes expérimentales/statistiques et les méthodes non expérimentales. Les méthodes expérimentales/statistiques ont été résumées et rassemblées en cinq sous-catégories donnant un aperçu descriptif des différentes approches utilisées pour évaluer la validité externe. Cependant, selon nos critères d'éligibilité, ces méthodes ont été exclues, car elles n'ont pas été développées pour être utilisées dans des revues systématiques d'interventions. De plus, une comparaison de ces méthodes ainsi qu'une évaluation du risque de biais avec la liste de contrôle COSMIN RoB n'auraient pas été réalisables. Par conséquent, les méthodes expérimentales/statistiques décrites ci-dessous n'ont pas été incluses pour une évaluation plus approfondie.

Les outils inclus et leurs caractéristiques sont répertoriés dans le tableau 2. Dans l'ensemble, les outils étaient hétérogènes en ce qui concerne le nombre d'items ou de dimensions, les options de réponse et les processus de développement. Le nombre d'items variait entre un et 26 items et les options de réponse variaient entre des échelles à 2 points et des échelles à 5 points. La plupart des outils utilisaient une échelle à 3 points (n = 20/28, 71 %). Pour 14/28 (50 %) des outils, le développement n'a pas été décrit en détail [63–76]. Sept auteurs de la revue semblent avoir développé leur propre outil mais n'ont fourni aucune information sur le processus de développement [63–68, 71].

Les construits destinés à être mesurés par les outils ou les dimensions d'intérêt sont divers. Deux des outils portaient sur la caractérisation des ECR sur un continuum efficacité-efficacité [47, 86], trois outils portaient principalement sur la qualité du rapport des facteurs essentiels à la validité externe [69, 75, 88] (plutôt que sur la validité externe elle-même), 18 outils visaient à évaluer la représentativité, la généralisabilité ou l'applicabilité de la population, du milieu, de l'intervention et/ou de la mesure des résultats à la pratique habituelle [22, 63–65, 70, 71, 73, 74, 76–78, 81–83, 92, 94, 100], et cinq outils semblaient mesurer un mélange de ces différents construits liés à la validité externe [66, 68, 72, 79, 98]. Cependant, la construction d'intérêt de la plupart des outils n'a pas été décrite de manière adéquate (voir ci-dessous).

Les résultats de l'évaluation de la qualité méthodologique selon la liste de contrôle COSMIN RoB adaptée sont détaillés dans le tableau 3. Si toutes les données sur les tests d'hypothèses dans un article avaient la même note de qualité méthodologique, elles ont été combinées et résumées dans le tableau 3 conformément au manuel COSMIN [34]. Les résultats des notations par rapport aux critères mis à jour pour les bonnes propriétés de mesure et la certitude globale des preuves, selon l'approche GRADE modifiée, peuvent être consultés dans le tableau 4. La notation détaillée est décrite dans le tableau S4 (voir fichier supplémentaire 4). Les désaccords entre les examinateurs au cours de l'évaluation de la qualité ont été résolus par la discussion.

La qualité méthodologique du processus de développement était « inadéquate » pour 19/28 (68 %) des outils inclus [63–66, 68–74, 76, 78, 81, 88, 98, 100]. Cela était principalement dû à une description insuffisante du construit à mesurer, de la population cible ou à des tests pilotes manquants. Six études de développement avaient une qualité méthodologique « douteuse » [22, 75, 77, 79, 82, 83] et trois avaient une qualité méthodologique « adéquate » [47, 48, 94].

Il y avait des preuves de la validation du contenu de cinq outils [22, 47, 79, 81, 98]. Cependant, la qualité méthodologique des études de validité de contenu n'était "adéquate" et "très bonne" que pour l'outil Rating of Include Trials on the Efficacy-Effectiveness Spectrum (RITES) [47] et "douteuse" pour l'instrument de pertinence clinique de Cho [79], la dimension "validité externe" de la liste de contrôle Downs & Black [22], la dimension "Biais de sélection" de l'outil Effective Public Health Practice Project (EPHPP) [98], et l'outil "Clinical Pertinence" [81]. La certitude globale des données probantes pour la validité du contenu était « très faible » pour 19 outils (principalement en raison d'un risque très sérieux de biais et d'un caractère indirect important) [63–76, 78, 82, 86, 88, 100], « faible » pour trois outils (principalement en raison d'un risque sérieux de biais ou d'un caractère indirect important) [77, 83, 94] et « modérée » pour six outils (principalement en raison d'un risque sérieux de biais ou d'un caractère indirect important) [22, 47, 79, 81, 92, 98]. Tous les outils sauf un avaient une validité de contenu « indéterminée ». L'outil RITES [47] avait une certitude "modérée" de preuve pour une validité de contenu "suffisante".

Une étude a évalué la cohérence interne d'un outil (dimension "validité externe" de la liste de contrôle Downs & Black) [22]. La qualité méthodologique de cette étude était "douteuse" en raison d'un manque de preuves sur l'unidimensionnalité (ou la validité structurelle). Ainsi, cet outil avait une certitude "très faible" des preuves de cohérence interne "indéterminée". Les raisons du déclassement étaient un risque très sérieux de biais et d'imprécision.

Sur 13 études évaluant la fiabilité de 9 outils, onze ont évalué la fiabilité interjuges [80, 84, 86, 87, 90, 93–95, 97, 99], une la fiabilité test-retest [98] et une les deux [22]. Deux études avaient un « insuffisant » [93, 101], deux avaient un « douteux » [98, 99], trois avaient un « adéquat » [80, 91, 94, 95] et six avaient une « très bonne » qualité méthodologique [22, 84, 86, 87]. La certitude globale des preuves était "très faible" pour cinq outils (les raisons du déclassement, veuillez vous reporter au tableau S4) [47, 73, 88, 92, 94]. La certitude des preuves était "faible" pour la dimension "Biais de sélection" de l'outil EPHPP (en raison du risque sérieux de biais et d'imprécision) [98] et "modérée" pour l'outil de Gartlehner [86], la dimension "validité externe" de la liste de contrôle Downs & Black [22], ainsi que l'instrument de pertinence clinique [79] (en raison du risque sérieux de biais et d'indirectivité).

Sur neuf outils évalués, la liste de contrôle Downs & Black [22] a eu des résultats "incohérents" sur la fiabilité. L'instrument de pertinence clinique [79], l'outil de Gartlehner [86], la dimension "Biais de sélection" de l'EPHPP [98], la dimension d'indirectité du manuel GRADE [92] et la liste de contrôle d'indirectité modifiée [94] avaient une cote "insuffisante" pour la fiabilité. L'outil de Green & Glasgow [88], la dimension de validité externe du manuel US Preventive Services Task Force (USPSTF) [73] et l'outil RITES [47] avaient une certitude "très faible" des preuves d'une fiabilité "suffisante".

Une erreur de mesure a été signalée pour trois outils. Deux études sur l'erreur de mesure de l'outil de Gartlehner [86] et du cadre de validité externe de Loyka [75], avaient une qualité méthodologique "adéquate". Deux études sur l'erreur de mesure de la dimension de validité externe de la Downs & Black-checklist [22] avaient une qualité méthodologique « inadéquate ». Cependant, les trois outils avaient une certitude "très faible" des preuves d'une erreur de mesure "indéterminée". Les raisons du déclassement étaient le risque de biais, le caractère indirect et l'imprécision due à la petite taille des échantillons.

La validité de critère n'a été rapportée que pour l'outil de Gartlehner [86]. Bien qu'il n'y ait pas eu d'étalon-or disponible pour évaluer la validité des critères de cet outil, les auteurs ont utilisé l'opinion d'experts comme étalon de référence. L'étude évaluant cette propriété de mesure avait une qualité méthodologique « adéquate ». La certitude globale des preuves était « très faible » pour une validité de critère « suffisante » en raison du risque de biais, d'imprécision et d'indirectité.

Cinq études [22, 90, 91, 97, 98] ont rapporté la validité de construit de quatre outils. Trois études avaient une qualité méthodologique "douteuse" [90, 91, 98], une une qualité "adéquate" [22] et une une qualité méthodologique "très bonne" [97]. La certitude globale des preuves était "très faible" pour trois outils (principalement en raison d'un risque sérieux de biais, d'imprécision et d'un caractère indirect important) [22, 88, 98] et "faible" pour un outil (en raison d'une imprécision et d'un caractère indirect important) [47]. La dimension "Sélection-Biais" de l'outil EPHPP [98] avait une certitude "très faible" des preuves d'une validité conceptuelle "suffisante" et l'outil RITES [47] avait une certitude "faible" des preuves d'une validité conceptuelle "suffisante". L'outil de Green & Glasgow [88] et la liste de contrôle de Downs & Black [22] avaient tous deux une certitude "très faible" de preuve d'une validité de construction "insuffisante".

La validité structurelle et la validité interculturelle n'ont été évaluées dans aucune des études incluses.

À notre connaissance, il s'agit de la première revue systématique identifiant et évaluant les propriétés de mesure des outils pour évaluer la validité externe des ECR. Au total, 28 outils ont été inclus. Dans l'ensemble, pour plus de la moitié (n = 17/28, 61 %) des outils inclus, les propriétés de mesure n'ont pas été signalées. Seuls cinq outils avaient au moins une propriété de mesure "suffisante". De plus, le processus de développement n'était pas décrit dans 14/28 (50%) des outils inclus. La fiabilité a été évaluée le plus fréquemment (y compris la fiabilité inter-juges et/ou test-retest). Seuls trois des outils inclus avaient une fiabilité "suffisante" ("très faible" certitude des preuves) [47, 73, 88]. Les tests d'hypothèses ont été évalués dans quatre outils, la moitié d'entre eux ayant une validité conceptuelle "suffisante" ("faible" et "très faible" certitude des preuves) [47, 98]. L'erreur de mesure a été évaluée dans trois outils, tous avec une note de qualité "indéterminée" (certitude des preuves "faible" et "très faible") [22, 75, 86]. La validité des critères a été évaluée pour un outil, ayant une certitude "suffisante" avec une certitude "très faible" [86]. L'outil RITES [47] était l'outil de mesure avec les preuves les plus solides de validité et de fiabilité. Sa validité de contenu, basée sur un consensus international d'experts, était « suffisante » avec une certitude « modérée » des preuves, tandis que la fiabilité et la validité conceptuelle ont été évaluées comme « suffisantes » avec une certitude « très faible » et « faible » des preuves, respectivement.

Suivant les trois critères de recommandation d'un outil de mesure, tous les outils inclus ont été classés dans la catégorie « B ». Par conséquent, des recherches supplémentaires seront nécessaires pour la recommandation pour ou contre l'un des outils inclus [26]. Une cohérence interne suffisante peut ne pas être pertinente pour l'évaluation de la validité externe, car les modèles de mesure peuvent ne pas être entièrement réflexifs. Cependant, aucun des auteurs/développeurs n'a précisé le modèle de mesure de leur outil de mesure.

La spécification du modèle de mesure est considérée comme une exigence de pertinence pour le construit latent d'intérêt lors du développement de l'échelle ou de l'outil [102]. On pourrait soutenir que les chercheurs s'attendent automatiquement à ce que leur outil soit un modèle de mesure réflexif. Par exemple, Downs et Black [22] ont évalué la cohérence interne sans test préalable de l'unidimensionnalité ou de la validité structurelle de l'outil. La validité structurelle ou l'unidimensionnalité est une condition préalable à la cohérence interne [26] et les deux propriétés de mesure ne sont pertinentes que pour les modèles de mesure réflexifs [103, 104]. Une mauvaise spécification ainsi qu'un manque de spécification du modèle de mesure peuvent entraîner des limitations potentielles lors du développement et de la validation d'une échelle ou d'un outil [102, 105]. Par conséquent, la spécification des modèles de mesure devrait être considérée dans les recherches futures.

La validité de contenu est la propriété de mesure la plus importante des instruments de mesure de la santé [27] et un manque de validité apparente est considéré comme un argument de poids pour ne pas utiliser ou arrêter une évaluation plus approfondie d'un instrument de mesure [106]. Seul l'outil RITES [47] avait la preuve d'une validité de contenu "suffisante". Néanmoins, cet outil ne mesure pas directement la validité externe des RCT. L'outil RITES [47] a été développé pour classer les ECR sur un continuum efficacité-efficacité. Un ECR classé comme hautement pragmatique ou comme ayant un "fort accent sur l'efficacité" [47] implique que la conception de l'étude fournit des résultats plutôt applicables, mais cela n'implique pas automatiquement une validité externe élevée ou la généralisabilité des caractéristiques d'un essai à d'autres contextes et paramètres spécifiques [107]. Même une étude très pragmatique/d'efficacité peut avoir peu d'applicabilité ou de généralisation à une question de recherche spécifique des auteurs de la revue. Une évaluation individuelle de la validité externe peut toujours être nécessaire par les auteurs de la revue en fonction de la question de recherche et d'autres facteurs contextuels.

Un autre outil qui pourrait avoir un certain degré de contenu ou de validité apparente est la dimension indirecte de la méthode GRADE [92]. Cette méthode est une méthode largement utilisée et acceptée dans la synthèse de la recherche en sciences de la santé [108]. Il a évolué au fil des ans sur la base des travaux du groupe de travail GRADE et des commentaires des utilisateurs du monde entier [108]. Ainsi, on peut supposer que cette méthode a un degré élevé de validité apparente, bien qu'elle n'ait pas été systématiquement testée pour la validité de contenu.

Si tous les outils sont classés dans la catégorie « B » dans une revue, les lignes directrices de COSMIN suggèrent que l'instrument de mesure « avec la meilleure preuve de la validité du contenu pourrait être celui dont l'utilisation sera provisoirement recommandée, jusqu'à ce que de nouvelles preuves soient fournies » [34]. Conformément à ces suggestions, l'utilisation de l'outil RITES [47] comme solution provisoire pourrait donc être justifiée jusqu'à ce que davantage de recherches sur ce sujet soient disponibles. Cependant, les utilisateurs doivent être conscients de ses limites, comme décrit ci-dessus.

Cette étude confirme et complète ce qui est déjà connu des revues précédentes [9, 12, 14–18]. L'hétérogénéité des caractéristiques des outils inclus dans ces revues a également été observée dans la présente revue. Bien que Dyrvig et al. [16] n'ont pas évalué les propriétés de mesure des outils disponibles, ils ont signalé un manque de support empirique des items inclus dans les outils de mesure. Les auteurs des revues précédentes ne pouvaient pas recommander un outil de mesure. Bien que leurs conclusions soient principalement fondées sur une analyse descriptive plutôt que sur l'évaluation de la qualité des outils, la conclusion de la présente revue systématique les rejoint.

Un défi majeur sur ce sujet est la grave hétérogénéité concernant la terminologie, les critères et les orientations pour évaluer la validité externe des ECR. Le développement de nouveaux outils et/ou une révision (et une validation) plus poussée des outils disponibles peuvent ne pas être appropriés avant l'élaboration de normes fondées sur le consensus. Généralement, on peut se demander si ces méthodes d'évaluation de la validité externe dans les revues systématiques d'interventions sont appropriées [9, 12]. Les méthodes expérimentales/statistiques présentées dans le tableau 1 peuvent offrir une approche plus objective pour évaluer la validité externe des ECR. Cependant, il n'est pas possible de les mettre en œuvre dans la conduite d'examens systématiques. De plus, ils se concentrent principalement sur les caractéristiques et la généralisabilité des populations étudiées, ce qui est insuffisant pour évaluer la validité externe des essais cliniques [109], car ils ne prennent pas en compte d'autres dimensions pertinentes de la validité externe telles que les paramètres d'intervention ou les variables de traitement, etc. [4, 109].

Les possibilités méthodologiques de développement et de validation d'outils/d'échelles concernant ce sujet n'ont pas encore été exploitées. Il y a plus de 20 ans, il n'y avait pas de consensus sur la définition de la qualité des ECR. En 1998, Verhagen et al. [110] ont réalisé une étude Delphi pour parvenir à un consensus sur la définition de la qualité des ECR et pour créer une liste de critères de qualité. Jusqu'à présent, cette liste de critères a servi de guide dans le développement d'outils et leurs critères sont toujours mis en œuvre dans les outils d'évaluation de la qualité méthodologique ou du risque de biais (par exemple, l'outil Cochrane Collaboration risk of bias tool 1 & 2.0, l'échelle Physiotherapy Evidence Database (PEDro), etc.). Par conséquent, il semble nécessaire de rechercher un consensus afin de surmonter de la même manière les problèmes liés à la validité externe des RCT. Après avoir atteint un consensus, un développement et une validation supplémentaires sont nécessaires en suivant les directives standard pour le développement d'échelles/d'outils (par exemple de Vet et al. [106] ; Streiner et al. [111] ; DeVellis [112]). Étant donné que l'évaluation de la validité externe semble fortement dépendante du contexte [9, 12], cela devrait être pris en compte dans les recherches futures. Une approche conventionnelle de liste de contrôle semble inappropriée [9, 12, 109] et une approche plus complète mais flexible pourrait être nécessaire. Les méthodes expérimentales/statistiques (tableau 1) peuvent offrir une norme de référence pour les tests de validité convergente de la dimension « population de patients » dans les recherches futures.

Cette revue a mis en évidence la nécessité de poursuivre les recherches dans ce domaine. Les études publiées et les outils d'évaluation sont d'importantes sources d'information et devraient éclairer le développement d'un nouvel outil ou d'une nouvelle approche.

L'un des points forts de la présente revue est la méthode de recherche en deux phases. Avec cette méthode, nous pensons que la probabilité de manquer des études pertinentes a été traitée de manière adéquate. Le suivi des citations en aval à l'aide de Scopus est une autre force de la présente revue. La qualité des outils de mesure inclus a été évaluée avec une méthodologie adaptée et complète (COSMIN). Aucune des revues précédentes n'a tenté une telle évaluation.

Il y a certaines limites à la présente revue. Premièrement, aucune recherche de littérature grise n'a été effectuée. Deuxièmement, nous nous sommes concentrés uniquement sur les ECR et n'avons pas inclus d'outils d'évaluation pour la conception d'études non randomisées ou d'autres études observationnelles. Troisièmement, en raison de l'hétérogénéité de la terminologie, nous avons peut-être manqué certains outils avec notre stratégie de recherche documentaire électronique. De plus, il était difficile de trouver des études sur les propriétés de mesure de certains outils inclus, qui n'avaient pas de nom ou d'abréviation spécifique (comme EVAT). Nous avons essayé de remédier à cette limitation potentielle en effectuant une sélection complète des références et un effet boule de neige (y compris une sélection des citations avant).

Sur la base des résultats de cette revue, aucun outil de mesure disponible ne peut être entièrement recommandé pour une utilisation dans des revues systématiques pour évaluer la validité externe des ECR. Plusieurs étapes sont nécessaires pour surmonter les difficultés identifiées avant qu'un nouvel outil soit développé ou que les outils disponibles soient encore révisés et validés.

Toutes les données générées ou analysées au cours de cette étude sont incluses dans cet article publié (et ses fichiers d'informations supplémentaires).

Programme de compétences en évaluation critique

Cochrane Collaboration Back Review Group

essai clinique contrôlé

Normes fondées sur le consensus pour la sélection des instruments de mesure de la santé

Projet de pratique efficace en santé publique

Outil d'évaluation de la validité externe

Faisabilité, adéquation, pertinence et efficacité

Outil d'évaluation graphique pour les études épidémiologiques

Généralisabilité, applicabilité et prévisibilité

Classement des recommandations Évaluation, développement et évaluation

Évaluation de la technologie de la santé

corrélation intraclasse

Laissez les preuves guider chaque nouvelle décision

Institut national pour l'excellence de la santé et des soins

Base de données sur les preuves de physiothérapie

Résumé des indicateurs du continuum explicatif pragmatique

essai contrôlé randomisé

Évaluation des essais inclus sur le spectre efficacité-efficacité

Rapports transparents des évaluations avec des conceptions non randomisées

Groupe de travail américain sur les services préventifs

Bastian H, Glasziou P, Chalmers I. Soixante-quinze essais et onze revues systématiques par jour : comment allons-nous suivre le rythme ? PLoS Med. 2010;7:e1000326.

PubMed PubMed Central Google Scholar

Aromataris E, Munn Z (eds). Manuel JBI pour la synthèse des preuves. Synthé JBI Man Evid. 2020. https://doi.org/10.46658/jbimes-20-01

Knoll T, Omar MI, Maclennan S, et al. Étapes clés de la conduite d'examens systématiques pour étayer les directives de pratique clinique : méthodologie de l'Association européenne d'urologie. Eur Urol. 2018;73:290–300.

Google Scholar PubMed

Jüni P, Altman DG, Egger M. Examens systématiques dans le domaine des soins de santé : évaluation de la qualité des essais cliniques contrôlés. BMJ. 2001;323:42–6.

PubMed PubMed Central Google Scholar

Büttner F, Winters M, Delahunt E, Elbers R, Lura CB, Khan KM, Weir A, Ardern CL. Identifier "l'incroyable" ! Partie 1 : évaluer le risque de biais dans les critères de jugement inclus dans les revues systématiques. Br J Sports Med. 2020;54:798–800.

Google Scholar PubMed

Boutron I, Page MJ, Higgins JPT, Altman DG, Lundh A, Hróbjartsson A, Groupe CBM. Tenir compte des biais et des conflits d'intérêts parmi les études incluses. Cochrane Handb. Syst. Rév. Interv. 2021 ; version 6.2 (mise à jour février 2021)

Cook TD, Campbell DT, Shadish W. Conceptions expérimentales et quasi-expérimentales pour l'inférence causale généralisée. Boston : Houghton Mifflin ; 2002.

Google Scholar

Avellar SA, Thomas J, Kleinman R, Sama-Miller E, Woodruff SE, Coughlin R, Westbrook TR. Validité externe : la prochaine étape pour les revues systématiques ? Eval Rev. 2017;41:283–325.

Google Scholar PubMed

Weise A, Büchter R, Pieper D, Mathes T. Évaluation de l'adéquation au contexte (généralisation, validité externe, applicabilité ou transférabilité) des résultats des synthèses de preuves dans le domaine des soins de santé - Une revue intégrative des orientations méthodologiques. Méthodes Res Synth. 2020;11:760–79.

Google Scholar PubMed

Schunemann HJ, Tugwell P, Reeves BC, Akl EA, Santesso N, Spencer FA, Shea B, Wells G, Helfand M. Études non randomisées comme source de preuves complémentaires, séquentielles ou de remplacement pour des essais contrôlés randomisés dans des revues systématiques sur les effets des interventions. Méthodes Res Synth. 2013;4:49–62.

Google Scholar PubMed

Atkins D, Chang SM, Gartlehner G, Buckley DI, Whitlock EP, Berliner E, Matchar D. Évaluation de l'applicabilité lors de la comparaison d'interventions médicales : AHRQ et Programme de soins de santé efficaces. J Clin Epidémiol. 2011;64:1198–207.

Google Scholar PubMed

Burchett HED, Blanchard L, Kneale D, Thomas J. Évaluer l'applicabilité des évaluations d'interventions en santé publique d'un contexte à un autre : une étude méthodologique de l'utilisabilité et de l'utilité des outils et des cadres d'évaluation. Heal Res politique Syst. 2018;16:88.

Google Scholar

Dekkers OM, von Elm E, Algra A, Romijn JA, Vandenbroucke JP. Comment évaluer la validité externe des essais thérapeutiques : une approche conceptuelle. Int J Epidémiol. 2010;39:89–94.

CAS PubMed Google Scholar

Burchett H, Umoquit M, Dobrow M. Comment savons-nous quand la recherche d'un contexte peut être utile dans un autre ? Un examen des cadres de validité externe, d'applicabilité et de transférabilité. J Health Serv Res Policy. 2011;16:238–44.

Google Scholar PubMed

Cambon L, Minary L, Ridde V, Alla F. Transférabilité des interventions en éducation à la santé : une revue. Santé publique BMC. 2012;12:497.

PubMed PubMed Central Google Scholar

Dyrvig AK, Kidholm K, Gerke O, Vondeling H. Listes de contrôle pour la validité externe : une revue systématique. J Eval Clin Pract. 2014;20:857–64.

Google Scholar PubMed

Munthe-Kaas H, Nøkleby H, Nguyen L. Cartographie systématique des listes de contrôle pour évaluer la transférabilité. Rév. système 2019 ; 8:22.

PubMed PubMed Central Google Scholar

Nasser M, van Weel C, van Binsbergen JJ, van de Laar FA. Généralisabilité des revues systématiques de l'efficacité des interventions de soins de santé aux soins de santé primaires : concepts, méthodes et recherches futures. Pratique Fam. 2012;29(Suppl 1):i94–103.

Google Scholar PubMed

Hariton E, Locascio JJ. Essais contrôlés randomisés - l'étalon-or pour la recherche sur l'efficacité : Conception de l'étude : essais contrôlés randomisés. BJOG. 2018;125:1716.

PubMed PubMed Central Google Scholar

Pressler TR, Kaizar EE. L'utilisation de scores de propension et de données d'observation pour estimer le biais de généralisation des essais contrôlés randomisés. Stat Med. 2013;32:3552–68.

PubMed PubMed Central Google Scholar

Rothwell PM. Validité externe des essais contrôlés randomisés : "à qui s'appliquent les résultats de cet essai ?" Lancette. 2005;365:82–93.

Google Scholar PubMed

Downs SH, Black N. La faisabilité de créer une liste de contrôle pour l'évaluation de la qualité méthodologique des études randomisées et non randomisées des interventions de soins de santé. J Epidemiol Community Health. 1998;52:377–84.

CAS PubMed PubMed Central Google Scholar

Page MJ, Moher D, Bossuyt PM, et al. Explication et élaboration de PRISMA 2020 : orientations et exemples mis à jour pour la notification des revues systématiques. BMJ. 2021;372:n160.

PubMed PubMed Central Google Scholar

Clark R, Locke M, Hill B, Wells C, Bialocerkowski A. Propriétés clinimétriques des tests de déficience neurologique des membres inférieurs pour les enfants et les jeunes atteints d'une maladie neurologique : une revue systématique. PLoS One. 2017;12:e0180031.

PubMed PubMed Central Google Scholar

Mokkink LB, de Vet HCW, Prinsen CAC, Patrick DL, Alonso J, Bouter LM, Terwee CB. Liste de contrôle du risque de biais COSMIN pour les revues systématiques des mesures des résultats signalés par les patients. Qual Life Res. 2018;27:1171–9.

CAS PubMed Google Scholar

Prinsen CAC, Mokkink LB, Bouter LM, Alonso J, Patrick DL, de Vet HCW, Terwee CB. Directive COSMIN pour les revues systématiques des mesures des résultats rapportés par les patients. Qual Life Res. 2018;27:1147–57.

CAS PubMed PubMed Central Google Scholar

Terwee CB, Prinsen CAC, Chiarotto A, Westerman MJ, Patrick DL, Alonso J, Bouter LM, de Vet HCW, Mokkink LB. Méthodologie COSMIN pour évaluer la validité du contenu des mesures des résultats rapportés par les patients : une étude Delphi. Qual Life Res. 2018;27:1159–70.

CAS PubMed PubMed Central Google Scholar

Stephenson M, Riitano D, Wilson S, Leonardi-Bee J, Mabire C, Cooper K, Monteiro da Cruz D, Moreno-Casbas MT, Lapkin S. Chap. 12 : Examens systématiques des propriétés de mesure. Synthé JBI Man Evid. 2020 https://doi.org/10.46658/JBIMES-20-13

Glover PD, Gray H, Shanmugam S, McFadyen AK. Évaluation de la pratique collaborative au sein d'équipes communautaires intégrées de soins de santé et de services sociaux : une revue systématique des instruments de mesure des résultats. J Interprof Care. 2021;1–15. https://doi.org/10.1080/13561820.2021.1902292. Epub avant impression.

Maassen SM, Weggelaar Jansen AMJW, Brekelmans G, Vermeulen H, van Oostveen CJ. Évaluation psychométrique des instruments de mesure de l'environnement de travail des professionnels de santé en milieu hospitalier : une revue systématique de la littérature. Int J Qual Heal soins J Int Soc Qual Heal soins. 2020;32:545–57.

Google Scholar

Jabri Yaqoob MohammedAl, Kvist F, Azimirad T, Turunen M. Une revue systématique des instruments de compétence de base des professionnels de la santé. Sciences infirmières de la santé. 2021;23:87–102.

Google Scholar

Mokkink LB, Terwee CB, Patrick DL, Alonso J, Stratford PW, Knol DL, Bouter LM, de Vet HCW. L'étude COSMIN a atteint un consensus international sur la taxonomie, la terminologie et les définitions des propriétés de mesure pour les résultats rapportés par les patients liés à la santé. J Clin Epidémiol. 2010;63:737–45.

Google Scholar PubMed

Jung A, Balzer J, Braun T, Luedtke K. Propriétés psychométriques des outils pour mesurer la validité externe des essais contrôlés randomisés : un protocole de revue systématique. 2020 ; https://doi.org/10.17605/OSF.IO/PTG4D

Mokkink LB, Prinsen CAC, Patrick DL, Alonso J, Bouter LM, de Vet HCW, Terwee CB Manuel COSMIN pour les revues systématiques des PROM, manuel de l'utilisateur. 2018;1–78. https://www.cosmin.nl/wp-content/uploads/COSMIN-syst-review-for-PROMs-manual_version-1_feb-2018-1.pdf. Consulté le 3 février 2020.

Bialocerkowski A, O'shea K, Pin TW. Propriétés psychométriques des mesures de résultats pour les enfants et les adolescents atteints de paralysie congénitale du plexus brachial : une revue systématique. Dev Med Enfant Neurol. 2013;55:1075–88.

Google Scholar PubMed

Matthews J, Bialocerkowski A, Molineux M. Mesures d'identité professionnelle pour les étudiants professionnels de la santé - une revue systématique des propriétés psychométriques. BMC Med Educ. 2019;19:308.

PubMed PubMed Central Google Scholar

Terwee CB, Jansma EP, Riphagen II, De Vet HCW. Développement d'un filtre de recherche méthodologique PubMed pour trouver des études sur les propriétés de mesure des instruments de mesure. Qual Life Res. 2009;18:1115–23.

PubMed PubMed Central Google Scholar

Sierevelt IN, Zwiers R, Schats W, Haverkamp D, Terwee CB, Nolte PA, Kerkhoffs GMMJ. Propriétés de mesure des questionnaires spécifiques au pied et à la cheville les plus couramment utilisés : le FFI, le FAOS et le FAAM. Une revue systématique. Knee Surg Sports Traumatol Arthrosc. 2018;26:2059–73.

CAS PubMed Google Scholar

van der Hout A, Neijenhuijs KI, Jansen F, et al. Mesure de la qualité de vie liée à la santé chez les patients atteints de cancer colorectal : examen systématique des propriétés de mesure de l'EORTC QLQ-CR29. Soutien Soins Cancer. 2019;27:2395–412.

PubMed PubMed Central Google Scholar

Whiting P, Savović J, Higgins JPT, Caldwell DM, Reeves BC, Shea B, Davies P, Kleijnen J, Churchill R. ROBIS : Un nouvel outil pour évaluer le risque de biais dans les revues systématiques a été développé. J Clin Epidémiol. 2016;69:225–34.

PubMed PubMed Central Google Scholar

Ouzzani M, Hammady H, Fedorowicz Z, Elmagarmid A. Rayyan-une application web et mobile pour des revues systématiques. Rév. système 2016;5:210.

PubMed PubMed Central Google Scholar

Moher D, Hopewell S, Schulz KF, Montori V, Gøtzsche PC, Devereaux PJ, Elbourne D, Egger M, Altman DG. Explication et élaboration de CONSORT 2010 : lignes directrices mises à jour pour la notification des essais randomisés en groupes parallèles. Int J Surg. 2012;10:28–55.

Google Scholar PubMed

Mokkink LB, Terwee CB. La liste de contrôle COSMIN pour évaluer la qualité méthodologique des études sur les propriétés de mesure des instruments de mesure de l'état de santé : une étude Delphi internationale. 2010;539–549

Terwee CB, Prinsen CA, Chiarotto A, De Vet H, Bouter LM, Alonso J, Westerman MJ, Patrick DL, Mokkink LB. Méthodologie COSMIN pour évaluer la validité du contenu des PROM - manuel d'utilisation. Amsterdam VU Univ. Méd. Cent. 2018 ; https://cosmin.nl/wp-content/uploads/COSMIN-methodology-for-content-validity-user-manual-v1.pdf. Consulté le 3 février 2020.

Mustafa RA, Santesso N, Brozek J, et al. L'approche GRADE est reproductible dans l'évaluation de la qualité des preuves des synthèses de preuves quantitatives. J Clin Epidémiol. 2013;66:735–6.

Google Scholar

Jennings H, Hennessy K, Hendry GJ. L'efficacité clinique des corticostéroïdes intra-articulaires pour l'arthrite du membre inférieur dans l'arthrite juvénile idiopathique: une revue systématique. Pediatr Rheumatol. 2014. https://doi.org/10.1186/1546-0096-12-23.

Article Google Scholar

Wieland LS, Berman BM, Altman DG, et al. Évaluation des essais inclus sur le spectre efficacité-efficacité : développement d'un nouvel outil pour les revues systématiques. J Clin Epidémiol. 2017;84:95–104.

PubMed PubMed Central Google Scholar

Atkins D, Briss PA, Eccles M, et al. Systèmes de notation de la qualité des preuves et de la force des recommandations II : étude pilote d'un nouveau système. BMC Health Serv Res. 2005;5:25.

PubMed PubMed Central Google Scholar

Abraham NS, Wieczorek P, Huang J, Mayrand S, Fallone CA, Barkun AN. Évaluation de la généralisabilité clinique dans les études de sédation de l'endoscopie gastro-intestinale supérieure. Test gastro-intestinal Endosc. 2004;60:28–33.

Google Scholar PubMed

Arabi YM, Cook DJ, Zhou Q, et al. Caractéristiques et résultats des patients non inscrits éligibles dans un essai de ventilation mécanique du syndrome de détresse respiratoire aiguë. Am J Respir Crit Care Med. 2015;192:1306–13.

Google Scholar PubMed

Williams AC, de Nicholas C, Richardson MK, de Pither PH, FAC. Généralisation à partir d'un essai contrôlé : les effets de la préférence du patient par rapport à la randomisation sur les résultats de la gestion de la douleur chronique en hospitalisation par rapport à celle en ambulatoire. Douleur. 1999;83:57–65.

Google Scholar

De Jong Z, Munneke M, Jansen LM, Ronday K, Van Schaardenburg DJ, Brand R, Van Den Ende CHM, Vliet Vlieland TPM, Zuijderduin WM, Hazes JMW. Différences entre les participants et les non-participants à un essai d'exercice pour adultes atteints de polyarthrite rhumatoïde. Soins de l'arthrite Res. 2004;51:593–600.

Google Scholar

Hordijk-Trion M, Lenzen M, Wijns W, et al. Les patients inscrits dans les essais d'intervention coronarienne ne sont pas représentatifs des patients en pratique clinique : résultats de l'Euro Heart Survey on Coronary Revascularization. Eur Heart J. 2006;27:671–8.

Google Scholar PubMed

Wilson A, Parker H, Wynn A, Spiers N. Performance de l'hôpital à domicile après un essai contrôlé randomisé. J Heal Serv Res Politique. 2003;8:160–4.

Google Scholar

Smyth B, Haber A, Trongtrakul K, Hawley C, Perkovic V, Woodward M, Jardine M. Représentativité des cohortes d'essais cliniques randomisés dans l'insuffisance rénale terminale : une méta-analyse. Stagiaire JAMA Méd. 2019;179:1316–24.

PubMed PubMed Central Google Scholar

Leinonen A, Koponen M, Hartikainen S. Examen systématique : représentativité des participants aux ECR sur les inhibiteurs de l'acétylcholinestérase. PLoS One. 2015;10:e0124500–e0124500.

PubMed PubMed Central Google Scholar

Chari A, Romanus D, Palumbo A, Blazer M, Farrelly E, Raju A, Huang H, Richardson P. Représentativité et résultats des essais cliniques randomisés chez des patients du monde réel : comparaison de 6 essais cliniques randomisés Hallmark sur le myélome multiple récidivant/réfractaire. Clin Lymphome Myélome Leuk. 2020;20:8.

Google Scholar PubMed

Susukida R, Crum RM, Ebnesajjad C, Stuart EA, Mojtabai R. Généralisabilité des résultats d'essais contrôlés randomisés : application au National Institute of Drug Abuse Clinical Trials Network. Dépendance. 2017;112:1210–9.

PubMed PubMed Central Google Scholar

Zarin DA, Young JL, West JC. Les défis de la médecine factuelle : une comparaison des patients et des traitements dans des essais contrôlés randomisés avec des patients et des traitements dans un réseau de recherche sur la pratique. Soc Psychiatry Psychiatr Epidemiol. 2005;40:27–35.

Google Scholar PubMed

Gheorghe A, Roberts T, Hemming K, Calvert M. Évaluation de la généralisabilité des résultats des essais : introduction d'un indice de généralisabilité au niveau des centres et des essais. Pharmacoéconomie. 2015;33:1195–214.

Google Scholar PubMed

He Z, Wang S, Borhanian E, Weng C. Évaluation de la représentativité collective de la population des essais connexes sur le diabète de type 2 en combinant les données publiques de ClinicalTrials.gov et NHANES. Stud Health Technol Inform. 2015;216:569–73.

PubMed PubMed Central Google Scholar

Schmidt AF, Groenwold RHH, van Delden JJM, van der Does Y, Klungel OH, Roes KCB, Hoes AW, van der Graaf R. La justification des critères d'exclusion a été sous-déclarée dans un examen des essais cardiovasculaires. J Clin Epidémiol. 2014;67:635–44.

Google Scholar PubMed

Carr DB, Goudas LC, Balk EM, Bloch R, Ioannidis JP, Lau J. Rapport de preuves sur le traitement de la douleur chez les patients atteints de cancer. J Natl Cancer Inst Monogr. 2004;32:23–31.

Google Scholar

Clegg A, Bryant J, Nicholson T, et al. Efficacité clinique et coût-efficacité du donépézil, de la rivastigmine et de la galantamine pour la maladie d'Alzheimer : une revue rapide et systématique. Évaluation des technologies de la santé (Rockv). 2001;5:1–136.

Google Scholar

Foy R, Hempel S, Rubenstein L, Suttorp M, Seelig M, Shanman R, Shekelle PG. Méta-analyse : effet de la communication interactive entre les médecins de premier recours et les spécialistes collaborateurs. Ann Stagiaire Med. 2010 ;152 : 247–58.

Google Scholar PubMed

Haraldsson BG, Gross AR, Myers CD, Ezzo JM, Morien A, Goldsmith C, Peloso PM, Bronfort G. Massage pour les troubles mécaniques du cou. Base de données Cochrane Syst Rev. 2006. https://doi.org/10.1002/14651858.CD004871.pub3.

Hawk C, Khorsan R, AJ L, RJ F. Soins chiropratiques pour les affections non musculosquelettiques : une revue systématique avec des implications pour la recherche sur les systèmes entiers. J Altern Complément Med. 2007;13:491–512.

Google Scholar PubMed

Karjalainen K, Malmivaara A, van Tulder M, et al. Rééducation multidisciplinaire pour la fibromyalgie et les douleurs musculo-squelettiques chez les adultes en âge de travailler. Cochrane Database Syst Rev. 2000. https://doi.org/10.1002/14651858.CD001984.

Article PubMed Google Scholar

Liberati A, Himel HN, Chalmers TC. Une évaluation de la qualité des essais contrôlés randomisés du traitement primaire du cancer du sein. J Clin Oncol. 1986;4:942–51.

CAS PubMed Google Scholar

Averis A, Pearson A. Combler les lacunes : identifier les priorités de la recherche infirmière grâce à l'analyse des revues systématiques achevées. Rapports Jbi. 2003;1:49–126.

Google Scholar

Sorg C, Schmidt J, Büchler MW, Edler L, Märten A. Examen de la validité externe dans des essais contrôlés randomisés pour le traitement adjuvant de l'adénocarcinome pancréatique. Pancréas. 2009;38:542–50.

Google Scholar PubMed

Institut national pour l'excellence de la santé et des soins. Méthodes pour l'élaboration d'orientations de santé publique NICE, troisième édition. Institut national pour l'excellence de la santé et des soins. 2012 ; https://www.nice.org.uk/process/pmg4/chapter/introduction. Consulté le 15 avril 2020

Groupe de travail américain sur les services préventifs. Critères d'évaluation de la validité externe (généralisation) des études individuelles. US Prev Serv Task Force Appendice VII. 2017 ; https://uspreventiveservicestaskforce.org/uspstf/about-uspstf/methods-and-processes/procedure-manual/procedure-manual-appendix-vii-criteria-assessing-external-validity-generalizability-individual-studies. Consulté le 15 avril 2020.

Manuels du NHMRC du Conseil national de la santé et de la recherche médicale. https://www.nhmrc.gov.au/about-us/publications/how-prepare-and-present-evidence-based-information-consumers-health-services#block-views-block-file-attachments-content-block-1. Consulté le 15 avril 2020.

Loyka CM, Ruscio J, Edelblum AB, Hatch L, Wetreich B, Zabel Caitlin M. Peser les gens plutôt que la nourriture : Un cadre pour examiner la validité externe. Perspect Psychol Sci. 2020;15:483–96.

Google Scholar PubMed

Fernandez-Hermida JR, Calafat A, Becoña E, Tsertsvadze A, Foxcroft DR. Évaluation de la généralisabilité, de l'applicabilité et de la prévisibilité (GAP) pour évaluer la validité externe dans les études sur la prévention familiale universelle de l'abus d'alcool chez les jeunes : revue méthodologique systématique d'essais contrôlés randomisés. Dépendance. 2012;107:1570–9.

Google Scholar PubMed

Clark E, Burkett K, Stanko-Lopp D. Let Evidence Guide Every New Decision (LEGEND): un système d'évaluation des preuves pour les cliniciens au point de service et les équipes d'élaboration de lignes directrices. J Eval Clin Pract. 2009;15:1054–60.

Google Scholar PubMed

Bornhöft G, Maxion-Bergemann S, Wolf U, Kienle GS, Michalsen A, Vollmar HC, Gilbertson S, Matthiessen PF. Liste de contrôle pour l'évaluation qualitative des études cliniques avec un accent particulier sur la validité externe et la validité du modèle. Méthodologie BMC Med Res. 2006;6:56.

PubMed PubMed Central Google Scholar

Cho MK, Bero LA. Instruments d'évaluation de la qualité des études sur les médicaments publiées dans la littérature médicale. JAMA J Am Med Assoc. 1994;272:101–4.

CAS Google Scholar

Cho MK, Bero LA. La qualité des études sur les médicaments publiées dans les actes de symposium. Ann Intern Med 1996;124:485–489

van Tulder M, Furlan A, Bombardier C, Bouter L. Mise à jour des directives méthodologiques pour les revues systématiques dans le groupe de revue rétrospective de la collaboration cochrane. Colonne vertébrale (Phila Pa 1976). 2003;28:1290–9.

Google Scholar

Estrada F, Atienzo EE, Cruz-Jiménez L, Campero L. Un examen rapide des interventions visant à prévenir la première grossesse chez les adolescentes et son applicabilité à l'Amérique latine. J Pediatr Adolesc Gynecol. 2021;34:491–503.

Google Scholar PubMed

Khorsan R, Crawford C. Comment évaluer la validité externe et la validité du modèle des essais thérapeutiques : une approche conceptuelle de la méthodologie de revue systématique. Evid Based Complement Alternat Med. 2014;2014 :694804.

PubMed PubMed Central Google Scholar

O'Connor SR, Tully MA, Ryan B, Bradley JM, Baxter GD, McDonough SM. Échec d'une échelle numérique d'évaluation de la qualité pour identifier le risque potentiel de biais dans une revue systématique : une étude comparative. Notes de résolution BMC. 2015;8:224.

PubMed PubMed Central Google Scholar

Chalmers TC, Smith H, Blackburn B, Silverman B, Schroeder B, Reitman D, Ambroz A. Une méthode d'évaluation de la qualité d'un essai contrôlé randomisé. Essais cliniques de contrôle. 1981;2:31–49.

CAS PubMed Google Scholar

Gartlehner G, Hansen RA, Nissman D, Lohr KN, Carey TS. Un outil simple et valide distinguait l'efficacité des études d'efficacité. J Clin Epidémiol. 2006;59:1040–8.

Google Scholar PubMed

Zettler LL, Speechley MR, Foley NC, Salter KL, Teasell RW. Une échelle permettant de distinguer l'efficacité de l'efficacité a été adaptée et appliquée aux études de réadaptation post-AVC. J Clin Epidémiol. 2010;63:11–8.

Google Scholar PubMed

Vert LW, Glasgow RE. Évaluer la pertinence, la généralisation et l'applicabilité de la recherche : problèmes de validation externe et de méthodologie de traduction. Eval Health Prof. 2006;29:126–53.

Google Scholar PubMed

Glasgow RE, VogtTM, Boles SM. Évaluation de l'impact sur la santé publique des interventions de promotion de la santé : le cadre RE-AIM. Suis J Santé publique. 1999;89:1322–7.

CAS PubMed PubMed Central Google Scholar

Mirza NA, Akhtar-Danesh N, Staples E, Martin L, Noesgaard C. Analyse comparative des rapports de validité externe dans les études d'intervention non randomisées. Can J Nurs Res. 2014;46:47–64.

Google Scholar PubMed

Lois RA, St George AB, Rychetnik L, Bauman AE. Recherche sur la prévention du diabète : une revue systématique de la validité externe des interventions sur le mode de vie. Suis J Préc Méd. 2012;43:205–14.

Google Scholar PubMed

Schünemann H, Brożek J, Guyatt G, Oxman A. Manuel d'évaluation de la qualité des preuves et de la force des recommandations à l'aide de l'approche GRADE (mise à jour en octobre 2013). GRADE Travail. Gr. 2013 ; https://gdt.gradepro.org/app/handbook/handbook.html. Consulté le 15 avril 2020.

Wu XY, Chung VCH, Wong CHL, Yip BHK, Cheung WKW, Wu JCY. CHIMERAS a montré une meilleure fiabilité inter-évaluateurs et fiabilité inter-consensus que GRADE dans l'évaluation de la qualité des preuves : un essai contrôlé randomisé. Eur J Int. Med. 2018;23:116–22.

Google Scholar

Meader N, King K, Llewellyn A, Norman G, Brown J, Rodgers M, Moe-Byrne T, Higgins JPT, Sowden A, Stewart G. Une liste de contrôle conçue pour favoriser la cohérence et la reproductibilité des évaluations GRADE : développement et validation pilote. Syst Rev. 2014. https://doi.org/10.1186/2046-4053-3-82.

Article PubMed PubMed Central Google Scholar

Llewellyn A, Whittington C, Stewart G, Higgins JP, Meader N. L'utilisation des réseaux bayésiens pour évaluer la qualité des preuves issues de la synthèse de la recherche : 2. Fiabilité inter-évaluateurs et comparaison avec l'évaluation GRADE standard. PLoS One. 2015;10:e0123511.

PubMed PubMed Central Google Scholar

Jackson R, Ameratunga S, Broad J, Connor J, Lethaby A, Robb G, Wells S, Glasziou P, Heneghan C. Le cadre GATE : évaluation critique avec images. Evid Based Med 2006;11:35 LP– 38

Aves T. Le rôle du pragmatisme dans l'explication de l'hétérogénéité dans les méta-analyses d'essais randomisés : une revue méthodologique. 2017 ; Université McMaster. http://hdl.handle.net/11375/22212. Consulté le 12 janvier 2021.

Thomas BH, Ciliska D, Dobbins M, Micucci S. Un processus d'examen systématique de la littérature : fournir les preuves de recherche pour les interventions infirmières en santé publique. Worldviews Evidence-Based Nurs. 2004;1:176–84.

CAS Google Scholar

Armijo-Olivo S, Stiles CR, Hagen NA, Biondo PD, Cummings GG. Évaluation de la qualité des études pour les revues systématiques : une comparaison de l'outil Cochrane Collaboration Risk of Bias Tool et de l'outil d'évaluation de la qualité du projet Effective Public Health Practice : recherche méthodologique. J Eval Clin Pract. 2012;18:12–8.

Google Scholar PubMed

Programme de compétences en évaluation critique. Liste de contrôle standard du CASP pour les essais contrôlés randomisés. 2020 ; https://casp-uk.net/casp-tools-checklists/. Consulté le 10 décembre 2020.

Aves T, Allan KS, Lawson D, Nieuwlaat R, Beyene J, Mbuagbaw L. Le rôle du pragmatisme dans l'explication de l'hétérogénéité dans les méta-analyses d'essais randomisés : un protocole pour une revue méthodologique transversale. BMJ ouvert. 2017;7:e017887.

PubMed PubMed Central Google Scholar

Diamantopoulos A, Riefler P, Roth KP. Faire progresser les modèles de mesure formatifs. J Bus Rés. 2008;61:1203–18.

Google Scholar

Fayers PM, Hand DJ. Analyse factorielle, indicateurs de causalité et qualité de vie. Qual Life Res. 1997. https://doi.org/10.1023/A:1026490117121.

Article PubMed Google Scholar

Streiner DL. Être incohérent à propos de la cohérence : quand le coefficient alpha compte et n'a pas d'importance. J Pers Évalu. 2003;80:217–22.

Google Scholar PubMed

MacKenzie SB, Podsakoff PM, Jarvis CB. Le problème de la mauvaise spécification du modèle de mesure dans la recherche comportementale et organisationnelle et quelques solutions recommandées. J Appl Psychol. 2005;90:710–30.

Google Scholar PubMed

De Vet HCW, Terwee CB, Mokkink LB, Knol DL. La mesure en médecine : un guide pratique. 2011 ; https://doi.org/10.1017/CBO9780511996214

Dekkers OM, Bossuyt PM, Vandenbroucke JP. Comment les résultats des essais sont-ils destinés à être utilisés : PRECIS-2 est-il un pas en avant ? J Clin Epidémiol. 2017;84:25–6.

Google Scholar PubMed

Brozek JL, Canelo-Aybar C, Akl EA, et al. Lignes directrices GRADE 30 : l'approche GRADE pour évaluer la certitude des preuves modélisées - Un aperçu dans le contexte de la prise de décision en matière de santé. J Clin Epidémiol. 2021;129:138–50.

Google Scholar PubMed

Burchett HED, Kneale D, Blanchard L, Thomas J. Lors de l'évaluation de la généralisabilité, il ne suffit pas de se concentrer uniquement sur les différences de population ou de contexte. Essais. 2020;21:286.

PubMed PubMed Central Google Scholar

Verhagen AP, de Vet HCW, de Bie RA, Kessels AGH, Boers M, Bouter LM, Knipschild PG. La liste Delphi : une liste de critères pour l'évaluation de la qualité des essais cliniques randomisés pour la conduite d'examens systématiques élaborée par Delphi Consensus. J Clin Epidémiol. 1998;51:1235–41.

CAS PubMed Google Scholar

Streiner DL, Norman GR, Cairney J. Échelles de mesure de la santé : un guide pratique pour leur développement et leur utilisation, Cinquième édition. Oxford : presse universitaire d'Oxford ; 2015.

Google Scholar

DeVellis RF. Développement d'échelles : Théorie et applications, Quatrième édi. Los Angeles : éditions Sage ; 2017.

Google Scholar

Télécharger les références

Nous tenons à remercier Sven Bossmann et Sarah Tiemann pour leur aide dans l'élaboration de la stratégie de recherche.

Financement Open Access activé et organisé par Projekt DEAL.

Institut des sciences de la santé, Département de physiothérapie, recherche sur la douleur et l'exercice Luebeck (PERL), Université de Luebeck, Ratzeburger Allee 160, 23562, Luebeck, Allemagne

Andres Jung & Kerstin Luedtke

Faculté de santé publique appliquée, Université européenne des sciences appliquées, Werftstr. 5, 18057, Rostock, Allemagne

Julia Balzer

Division de physiothérapie, Département des sciences appliquées de la santé, Université des sciences appliquées, Gesundheitscampus 6-8, 44801, Bochum, Allemagne

Tobias Brun

Département de la santé, HSD Hochschule Döpfer (Université des sciences appliquées), Waidmarkt 9, 50676, Cologne, Allemagne

Tobias Brun

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Tous les auteurs ont contribué à la conception de l'étude. AJ a conçu la stratégie de recherche et effectué la recherche systématique. AJ et TB ont examiné les titres et les résumés ainsi que les rapports en texte intégral en phase (1) AJ et KL ont examiné les titres et les résumés ainsi que les rapports en texte intégral en phase (2) L'extraction des données a été effectuée par AJ et vérifiée par TB. L'évaluation de la qualité et l'analyse des données ont été réalisées par AJ et JB. AJ a rédigé le manuscrit. JB, TB et KL ont révisé de manière critique le manuscrit pour un contenu intellectuel important. Tous les auteurs ont lu et approuvé le manuscrit final.

Correspondance à Andres Jung.

N'est pas applicable.

Les auteurs déclarent n'avoir aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Fichier supplémentaire 1.

Fichier supplémentaire 2.

Fichier supplémentaire 3.

Fichier supplémentaire 4.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/. La renonciation Creative Commons Public Domain Dedication (http://creativecommons.org/publicdomain/zero/1.0/) s'applique aux données mises à disposition dans cet article, sauf indication contraire dans une ligne de crédit aux données.

Réimpressions et autorisations

Jung, A., Balzer, J., Braun, T. et al. Identification des outils utilisés pour évaluer la validité externe des essais contrôlés randomisés dans les revues : une revue systématique des propriétés de mesure. BMC Med Res Methodol 22, 100 (2022). https://doi.org/10.1186/s12874-022-01561-5

Télécharger la citation

Reçu : 20 août 2021

Accepté : 28 février 2022

Publié: 06 avril 2022

DOI : https://doi.org/10.1186/s12874-022-01561-5

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

Blog