Vetenskap & Praxis

Multipla, indirekta jämförelser kan slå fel

Nätverks-metaanalys är en avancerad statistisk metod som indirekt jämför insatser och behandlingar som kanske aldrig har prövats sida vid sida i samma studie. Metoden kräver både medicinsk och statistisk specialkunskap och försiktig tolkning. Sten Anttila på SBU förklarar varför.

Det finns risker när statistiska metoder utvecklas och kraftfulla och lättanvända datorprogram för analys blir brett tillgängliga. Verktygen kan locka forskare att försöka sig på komplicerade statistiska analyser utan att ha tillräcklig sakkunskap eller statistisk kompetens.

Ett aktuellt exempel är nätverks-metaanalys, en avancerad statistisk metod som blir allt vanligare och som lätt kan ge felaktiga resultat.

Ordinarie metaanalys (MA) innebär förenklat att man väger ihop resultat från olika studier som har jämfört effekten av två behandlingar (A och B). Resultat från olika studier ges olika vikt. Ju bredare konfidensintervallet är, vilket ofta gäller i små studier, desto mindre vikt ges resultatet. Sammanvägningen ger en sorts genomsnittlig skillnad i effekt mellan A och B.

Nätverksmetaanalys (NMA) jämför fler behandlingsalternativ än MA. Man vill inte bara ställa A mot B utan även mot C och D. Man vill också jämföra B med D, och så vidare (Figur 1). Analysen blir alltså mer omfattande.

Figur. Exempel på nätverk av jämförelser mellan behandlingarna A, B, C och D. Heldragna linjer är direkta jämförelser och streckade linjer indirekta.

Men det finns även en annan avgörande skillnad. Medan MA endast omfattar direkta jämförelser (heldragna linjer i figuren), gör NMA även indirekta jämförelser (streckade linjer) – alltså av behandlingar som aldrig har prövats sida vid sida i en och samma kliniska studie. Detta innebär ett slags extrapolering av de jämförelser som har gjorts i de kliniska studierna. Data från hela nätverket av studier används som underlag för varje enskild jämförelse.

Slutprodukten i en NMA kan vara en rangordning av samtliga behandlingsalternativ vid ett givet problem. Huruvida ett sådant slutresultat är tillförlitligt eller inte, beror bland annat på om studiernas mätmetoder och sätt att redovisa utfall är tillräckligt lika för att resultaten ska kunna vägas ihop.

Läkemedelsbehandling av hjärt-kärlsjukdom är exempel på ett forskningsområde där det ofta är möjligt att bedöma hur lika studierna är. Forskarna brukar beskriva deltagarna på ett tydligt och standardiserat sätt – exempelvis hur många som hade genomgått ballongvidgning av hjärtats kranskärl innan studien påbörjades (se tabellen på nästa sida). Därmed kan man bedöma om deltagarna i olika studier är tillräckligt lika medicinskt sett för att kunna ingå i en NMA.

Detsamma gäller beskrivningen av olika utfall – det brukar exempelvis framgå vilka kriterier som har använts för en biverkan som ”omfattande blödning”.

Hur viktigt det är att bedöma likhet kan illustreras med en analys av två läkemedel mot blodproppsbildning – prasugrel (B) och tikagrelor (D).1 Forskarna ville jämföra dödligheten och risken för omfattande blödning bland patienter med så kallat akut koronarsyndrom, det vill säga instabil kranskärlssjukdom eller akut hjärtinfarkt. Läkemedlen hade inte jämförts med varandra tidigare – men väl med en tredje substans, klopidogrel (A) (Figur 1).

Den indirekta jämförelsen avseende ”omfattande blödning” med B och D gav en oddskvot på 1,43 (KI 1,10 till 1,86) – en statistiskt säkerställd fördel för D. Men kan man lita på resultatet? Det är inte alls självklart.

Tabellen visar några skillnader mellan försöksdeltagarna i de tre studier som användes i denna analys. [1] Graden av likhet måste alltid bedömas av sakkunniga på området. I exemplet ovan bör bedömningen alltså göras av erfarna specialister på behandling av hjärt-kärlsjukdom. De skillnader som framgår av tabellen kan vara så stora att jämförelsen riskerar att bli otillförlitlig.

Tabellen visar några skillnader mellan försöksdeltagarna i studierna Disperse-2, Plato och Triton–Timi. Deltagarna följdes olika länge och förekomsten av övriga behandlingar varierade.

Tabellen visar några skillnader mellan försöksdeltagarna i studierna Disperse-2, Plato och Triton–Timi. Deltagarna följdes olika länge och förekomsten av övriga behandlingar varierade.

De ämnessakkunnigas bedömning av likhet avgör inte bara om NMA över huvud taget är lämpligt. Bedömningen påverkar även valet av statistisk metod – och alternativen är många. Att välja rätt angreppssätt kräver ytterligare en form av ämneskunskap, nämligen statistisk specialkompetens.

I stora NMA, där det kan ingå över 20 jämförelser, blir situationen givetvis betydligt mer komplicerad. Det blir ännu svårare att bedöma om studiernas försöksdeltagare, insatser och utfall är tillräckligt lika och att välja lämpliga statistiska metoder. Det är lätt att förstå att forskningsfält som har en mer eller mindre otydlig struktur inte lämpar sig för NMA.

På SBU ser vi att NMA blir allt vanligare i forskningslitteraturen. Det finns en klar risk att metoden överanvänds och resultaten övertolkas. Många fällor måste undvikas när man genomför NMA och bedömer resultaten. [2,3]

Framför allt ställer metoden krav på samarbete mellan specialiserade ämnesexperter och statistisk expertis – annars kan den slå helt fel.

Sten Anttila, fil dr, projektledare SBU e-post: sten.anttila@sbu.se

Referenser

  1. Biondi-Zoccai G, et al. Adjusted indirect comparison meta-analysis of prasugrel versus ticagrelor ... Int J Cardiol 2011;150:325-31.
  2. Hutton B et al. The PRISMA extension statement for reporting of systematic reviews incorporating network meta-analyses ...Ann Intern Med 2015;162: 777-84.
  3. Chaimani A, et al. Common pitfalls and mistakes in the set-up, analysis ... Evid Based Ment Health 2017;20:88-94.