Utvärdering av insatser i hälso- och sjukvården och socialtjänsten

En metodbok

Publikationstyp: SBU:s Metodbok Rapport Publicerad: 2 december 2024

1. Introduktion

Det inledande kapitlet innehåller en beskrivning av varför systematiska översikter behövs, hur de bör rapporteras och hur metodboken är uppbyggd.

Det är viktigt att de insatser som används inom exempelvis hälso- och sjukvård, socialtjänsten, tandvården, funktionshinderområdet och arbetsmiljö baseras på bästa tillgängliga vetenskapliga kunskap. Den kunskapen kommer från välgjorda systematiska översikter (eng. Systematic Review) (Faktaruta 1.1).

Ordet insats är brett och kan avse såväl olika interventioner, former av stöd och medicinteknik, som olika metoder för att diagnostisera, förutse, bedöma och utreda utfall eller tillstånd. För att underlätta för läsaren kommer vi i kommande kapitel att använda begreppet insatser.

SBU arbetar med att utvärdera insatser som antingen redan används eller skulle kunna användas inom hälso- och sjukvården, tandvården, arbetsmiljöområdet, socialtjänsten samt funktionshinderområdet. SBU presenterar kunskap från sammanställningar av forskningsstudier, vanligtvis i form av en systematisk översikt, men gör även fullständiga utvärderingar. En fullständig utvärdering omfattar även utvärdering av ekonomiska och etiska aspekter som har betydelse för användning av insatsen. Denna typ av rapport kallas vanligen HTA-rapport (eng. Health Technology assessment) inom det medicinska området eller STA-rapport (eng. social intervention assessment) för utvärderingar inom det sociala området (Figur 1.1). I den här boken kommer vi att kalla det för HTA-rapport oavsett vilket område det gäller.

Liggande figur som visarprocessen med att ta fram en systematisk översikt och HTA-rapport. Båda innehåller följande åtta delar; avgränsningar, litteratursökning, relevansbedömning, bedömning av risk för bias, extraktion av data, sammanvägning av resultat, bedömning av tillförlitligheten samt sammanvägda slutsatser. HTA-rapporter innehåller dessutom etiska och hälsoekonomiska aspekter.

Denna metodbok är tänkt som ett praktiskt stöd för dem som ska genomföra en systematisk översikt eller HTA-rapport. Metodbokens första del rör de olika stegen i arbetet med en systematisk översikt med separata kapitel för formulering av frågeställningar, identifiering av litteratur, granskning av primärstudier (originalstudier), syntes av resultaten från dessa studier, bedömning av hur tillförlitliga resultaten av syntesen är samt identifiering av forskningsbehov. I metodbokens andra del finns information om användandet av andras systematiska översikter, antingen helt eller delvis. Metodboken avslutas med ekonomiska och etiska aspekter som behöver ingå för att en HTA-rapport ska bli komplett.

Metodboken tar inte upp andra typer av forskningssammanställningar såsom scoping reviews, umbrella reviews, overviews of reviews eller kartläggningar (eng. Evidence Maps) även om de i många avseende har liknande upplägg avseende transparens och reproducerbarhet. Mer information om metoderna för denna typ av sammanställningar finns i Cochrane handbook [1], Johanna Briggs Institute manual [2] och från Campbell collaboration [3].

En systematisk översikt ska uppfylla höga krav på att resultatet är tillförlitligt. För att göra det måste arbetet med den följa principer som minimerar risker för att slump, systematiska fel eller att subjektiva värderingar påverkar slutsatserna. Vanligen arbetar flera personer med en systematisk översikt och de har erfarenhet av det ämne som den systematiska översikten berör, hur man tar fram en systematisk översikt eller båda delar. I följande kapitel kommer de personer som genomför arbetet med att ta fram den systematiska översikten eller HTA-rapporten att benämnas projektgruppen.

Innan ett projekt startar bör projektgruppen kontrollera om några liknande projekt pågår i någon annan HTA-organisation eller om det redan finns andra aktuella systematiska översikter som kan användas för att besvara frågan. I Kapitel 10 finns mer information om hur man kan använda befintliga systematiska översikter.

Faktaruta 1.1 Att arbeta evidensbaserat.

Evidensbaserad praktik eller evidensbaserad medicin innebär att de som arbetar inom vård eller social verksamhet väger samman sin sakkunskap med bästa tillgängliga kunskap, den enskildes situation, erfarenheter och önskemål vid beslut om insatser [4].

Beslut om åtgärder eller insatser ska grunda sig på ett så tillförlitligt underlag som möjligt. Bästa tillgängliga kunskap kan komma från vetenskapliga kvantitativa studier om insatsers effekter, eller vetenskapliga kvalitativa studier om acceptans, genomförbarhet och tillgång till insatser. En välgjord systematisk översikt utgör ett tillförlitligt och tidseffektivt underlag för sådana beslut. Eftersom det inte finns vetenskaplig kunskap om alla insatser som används får beslutsfattare ibland stödja sig mot andra källor som säger något om nyttan med insatserna. Det viktiga är att vara öppen med vilken kunskap som finns om insatserna och att följa upp resultatet för de enskilda individerna.

1.1 Rapporteringsriktlinjer

En välgjord systematisk översikt ska rapporteras på ett sådant sätt att läsaren kan granska hur översikten har tagits fram. Det finns internationella riktlinjer för hur systematiska översikter ska rapporteras. Preferred Reported Items for Systematic Reviews and Meta-analyses (PRISMA) [5] är främst avsedd för studier med kvantitativ metodik. För systematiska översikter som bygger på studier med kvalitativ metodik finns riktlinjerna ”The Enhancing transparency in reporting the synthesis of qualitative research” (ENTREQ) [6].

2. Avgränsningar för den systematiska översikten

Processen över att ta fram en HTA där delen Avgränsningar är markerad

Det här kapitlet handlar om att ta fram ett protokoll, att strukturera frågeställningen och att och formulera urvalskriterier i en systematisk översikt.

2.1 Protokoll

Arbetet med en systematisk översikt inleds med att skriva en projektplan, dvs ett protokoll för den systematiska översikten. Protokollet beskriver syftet med den systematiska översikten, vilka frågeställningar som ska besvaras i den, vilka urvalskriterier som gäller samt vilken metodik som används för att genomföra arbetet. Protokollet bör följa en etablerad struktur för att få med samtliga relevanta delar (Faktaruta 2.1). Det är också en god idé att publicera protokollet i en internationell databas exempelvis i databasen PROSPERO. På så sätt blir arbete mer transparent och risken blir mindre att frågeställningen justeras utifrån de studier som blir inkluderade under arbetets gång.

Faktaruta 2.1 Olika tillvägagångssätt i en systematisk översikt.

En systematisk översikts protokoll specificerar de principer som vägleder arbetsprocessen. Två huvudvarianter är:

att inkludera samtliga relevanta studier i analyserna oavsett om de har låg, medelhög eller hög risk för bias. Ta hänsyn till skillnader i bias först vid sammanvägningen av resultaten genom att göra känslighetsanalyser eller subgruppsanalyser.
att inkludera studier med låg och mellanhög risk för bias i analyserna och basera den sammanvägda skattningen endast på dessa.

Oavsett tillvägagångssätt bör detta motiveras utifrån aktuella översiktens förutsättningar, bland annat antalet studier som granskas och hur mycket den forskning som gjorts i ämnet tidigare samt om det finns vedertagna teorier. Det finns för- och nackdelar med båda sätten. Vid SBU har det främst varit alternativ 2 ovan som använts. Cochranes handbok [7] redogör mer i detalj om hur författare kan agera när de inkluderade studierna har olika hög risk för bias. Protokollet bör specificera vilket alternativ som är lämpligt i den aktuella översikten.

2.2 Frågeställning

För att nå en relevant frågeställning bör projektgruppen börja med att samla in kunskap från olika kompetensområden. Dessa kan vara kliniskt eller praktiskt verksamma, forskare inom området samt personer som har de undersökta tillstånden eller behoven. Exempel på frågor som kan vara bra att besvara är:

vilka insatser används i dagsläget, och hur?
hur definieras populationen vanligen i forskningen?
vilken är den relevanta jämförelsen?
vilka utfall är det som är viktiga för till exempel brukare, patienter eller andra som är direkt berörda av ämnet i den systematiska utvärderingen?

När frågeställningen eller frågeställningarna för översikten är specificerade behöver de struktureras. En ostrukturerad frågeställning leder till problem genom hela processen, eftersom det då till exempel kan bli svårt att skapa bra sökstrategier och bedöma vilka studier som är relevanta. Första steget i processen är därför att anpassa frågeställningen till ett strukturerat format. Faktaruta 2.2 beskriver några av de vanligaste formaten. Om den systematiska översikten har flera frågeställningar kan översiktens författare behöva ta fram olika PICO, PECO, SPICE (eller dylikt). Vi kommer att gå igenom dessa fem frågeformat i Avsnitt 2.2.1 till 2.2.5 i detta kapitel.

PICO, PECO och SPICE är exempel på strukturerade format för frågeställningar och är samtidigt en del av kriterierna för vilka studier översikten inkluderar och exkluderar. Också övriga urvalskriterier anges i protokollet, som studiedesign, tidsspann som litteratursökningen omfattar, och språk. Mer om dessa i Avsnitt 2.3.

Faktaruta 2.2 Exempel på strukturerade format för olika typer av frågeställningar.

Strukturerat format för frågeställningar om	Akronym	Betydelse
Effekt av insats	PICO	Population (eng. population) Insats (eng. intervention) Jämförelse (eng. control) Utfall (eng. outcome)
Samband mellan exponering och utfall	PECO	Population (eng. population) Exponering (eng. exposure) Jämförelse (eng. control) Utfall (eng. outcome)
Diagnostisk tillförlitlighet	PIRO	Population (eng. population) Indextest (eng. index test) Referenstest (eng. reference standard) Utfall (eng. outcome)
Prediktion	PICOTS	Population (eng. population) Indextest (eng. index test) Referenstest (eng. reference standard) Utfall (eng. outcome) Tid (eng. timing) Sammanhang (eng. setting)
Erfarenheter, upplevelser och värderingar	SPICE	Sammanhang (eng. setting) Population/Perspektiv (eng. perspective) Insats (eng. intervention) Jämförelse (eng. comparison) Utfall (eng. evaluation)

2.2.1 Strukturerat format för frågeställningar om effekter av insatser

Den strukturerade formatet för frågeställningar om effekt har formatet PICO (Population, Insats, Jämförelse (eng. Control), Utfall (eng. Outcome). I nedanstående stycke ges exempel på vanliga studiedesigner för att besvara denna typ av frågeställning samt exempel på hur PICO kan formuleras.

När det gäller studiedesign besvaras frågeställningar om effekt av insatser lämpligast med så kallade kontrollerade studier där det finns en insatsgrupp och en jämförelsegrupp. Dessa kontrollerade studier besvarar frågan om det finns ett samband mellan insatsen och utfallet. Den insats som utvärderas ges till insatsgruppen, medan jämförelsegruppen får en annan eller ingen insats. En sådan jämförelse är av vikt för att avgöra om den utvärderade insatsen är bättre, lika bra eller sämre än jämförelseinsatsen. I randomiserade kontrollerade studier (RCT) har studiedeltagarna slumpats till insatsgrupp alternativt jämförelsegrupp, medan gruppfördelningen i kontrollerade studier utan randomisering sker på annat sätt än slumpmässigt. Valet av randomisering jämfört med icke-randomisering är oftast avgörande för att kunna besvara om det finns ett orsakssamband mellan insatsen och utfallet. Se Kapitel 5 för mer information.

För att upptäcka biverkningar, komplikationer eller oönskade effekter av en insats kan andra typer av studiedesign, som longitudinella uppföljningar och registerstudier vara aktuella. En annan studiedesign som ibland kan vara aktuella till exempel vid utvärdering av effekter av ändrade policies eller lagstiftning är avbrutna tidsserier (eng. interrupted time series, ITS) [8] [9] [10]. En design som kan vara aktuell för exempelvis sällsynta tillstånd är Single case experimental design där den eller de personer som deltar utgör sin egen jämförelse. Effekten av en insats prövas genom att insatsen, till en och samma person, introduceras (aktiv insats) och därefter tas bort (jämförelseinsats i form av ingen insats) ett antal gånger med upprepade mätningar av det utfall forskarna vill mäta innan, under och efter introduktionen av den aktiva insatsen. Studier som undersöker om effekterna av insatserna är likvärdiga kallas non-inferiority studier (Faktaruta 2.3).

2.2.1.1 PICO

Ett PICO innehåller fyra delar:

För vilka patienter, klienter eller personer är det relevant att undersöka effekten av insatsen?
Vilken är insatsen?
Vad är jämförelsealternativet?
Vilka positiva och negativa utfall av insatsen är av intresse och hur ska de mätas?

Det är också viktigt att definiera om frågeställningen gäller om insatsen är bättre än jämförelsealternativet, eller om insatsen är lika bra som jämförelsealternativet. Det senare fallet, så kallat non-inferiority, kan till exempel vara av intresse om det kommer en ny insats som är billigare, lättare att genomföra eller medför färre besök vid sjukhus eller socialtjänstverksamheter.

Nedan finns ett exempel på ett PICO (Faktaruta 2.4) utifrån en frågeställning.

Faktaruta 2.4 Exempel på konstruktion av PICO.

Frågeställning: Finns det några program som kan förebygga utagerande beteende hos barn i skolåldern?

Frågan strukturerades till ett PICO:

P: Barn i åldrarna 2–19 år utan psykiatrisk diagnos. Åldersspannet bestämdes av att studier på förskolebarn skulle inkluderas.

I: Manualbaserade program med primärt syfte att förebygga psykisk ohälsa. Program för att förebygga till exempel drogmissbruk eller mobbning exkluderades därmed. Programmen kunde ges på olika arenor och riktas till barnen eller deras föräldrar.

C: Inga insatser eller andra program.

O: Barnens utagerande beteende mätt med validerade skattningsskalor och psykiatriska diagnoser. Studier som undersökte effekter på föräldrarna exkluderades därmed.

Uppföljningstid: Minst sex månader efter avslutat program.

2.2.1.2 Population

Populationen utgör den eller de grupper som är aktuella för den undersökta insatsen. Det är viktigt att populationen beskrivs noggrant. Flera delar kan behöva förtydligas: avser frågeställningen både kvinnor och män? Ska effekten utvärderas för specifika åldersgrupper? Ingår personer med funktionsnedsättning eller bör de ingå i populationen? Hur stringenta krav kan ställas på diagnos, funktionstillstånd eller bedömning av behov för populationen? Accepteras bara studier som använt diagnostiska kriterier eller fastställda bedömningsgrunder, och i så fall vilka? Räcker det med självrapporterade problem? Finns det någon samsjuklighet eller flera olika funktionstillstånd att ta hänsyn till? Ska frågan enbart gälla personer som brukar eller missbrukar någon drog?

Ibland är det lämpligt att definiera en minsta andel deltagare som uppfyller kraven i studien för inkludering av den i översikten, exempelvis vid studier av äldre att minst 70 procent är över 65 år.

2.2.1.3 Insats

Här anger översiktens författare den insats (intervention, behandling) som frågeställningen gäller. Exempel på en insats är psykologiska insatser i syfte att behandla depression efter förlossning. I vissa fall finns behov av avgränsningar. Det kan exempelvis handla om utvärdering av en viss dos av ett läkemedel, ett visst antal tillfällen av en insats, en särskild intensitet i insatsen, hur länge insatsen ska pågå och vem som ska genomföra insatsen. De insatser som inkluderas i översikten ska vara relevanta för svenska förhållanden antingen genom att de redan är införda eller bedöms kunna införas inom vård, socialtjänst, funktionshinderområdet eller arbetslivet inom överskådlig framtid.

2.2.1.4 Jämförelse

Vilken är jämförelsealternativet till insatsen? Vanliga jämförelsealternativ är placebo, sedvanlig insats, väntelista eller en annan insats. Ibland kan det vara tydligt att effekten av två olika insatser ställs mot varandra, medan det i andra fall inte alltid finns något tydligt jämförelsealternativ. Se Faktaruta 2.5 för mer information om olika jämförelsealternativ.

Sedvanlig insats

En vanlig jämförelse är att deltagarna inte får någonting extra utöver sedvanliga insatser. Nackdelen med sedvanliga insatser är att de oftast inte är tydligt definierade i studierna och därmed kan variera mellan exempelvis olika länder och hälso- och sjukvårdssystem liksom mellan olika system för sociala insatser. De sedvanliga insatserna kan också förändras över tid om till exempel nya rutiner eller standardinsatser införs. En annan risk med att välja sedvanliga insatser som jämförelse är att den insats som studeras kan vara en del av den sedvanliga insatsen i vissa studier, vilket medför att en eventuell effektskillnad mellan insats och jämförelsealternativ inte framkommer i resultatet.

Väntelista

Ett alternativ kan vara att jämföra med personer som står på en väntelista och får den utvärderade insatsen efter en viss tid. En nackdel med att använda en väntelista är att personer som står på en väntelista kan påverkas av kännedom om detta så att tillståndet eller behovet försämras eller förändras i jämförelse med de som inte får någon insats.

Deltagaren är sin egen kontroll

I vissa fall kan en person fungera som sin egen kontroll, främst om insatsen gäller en väl avgränsad del av kroppen. Några exempel är att man kan använda fallskydd för att förebygga höftfrakturer på den ena höften men inte den andra, eller pröva en insats ena halvan av munnen och inte den andra.

Placebo

Ett annat vanligt jämförelsealternativ är att de deltagare som man jämför mot får en insats som anses vara verkningslös, till exempel placebo för läkemedel, shaminsats för medicinteknik eller ostrukturerade psykosociala samtal inom terapi.

Etablerade insatser

Om utvärderingen gäller en ny insats där det redan finns tillgängliga insatser med vetenskapligt stöd kan det vara värdefullt att jämföra den nya insatsen med den etablerade. Det gäller då att vara uppmärksam på att den nya insatsen ges på liknande sätt och i samma mängd eller med samma intensitet och förhållningssätt som den etablerade. Det finns exempel på att den insats som utvärderas ges under optimala betingelser eller förutsättningar medan jämförelseinsatsen ges på ett annat sätt vad gäller mängd, intensitet, förhållningssätt och förhållanden.

2.2.1.5 Utfall

Utfall innebär den uppmätta och beräknade skillnaden i effekt efter att deltagare erhållit insatsen eller jämförelsealternativet. Ofta finns det flera olika utfall i en och samma forskningsstudie. Översiktens författare behöver här ange vilka av dessa som kommer att sammanställas i översikten. Utfallen kan vara av olika betydelse för dem som insatsen riktas till (Faktaruta 2.6). Exempel på utfall som har direkt koppling till de som är berörda är personens återstående livslängd, grad av problem eller behov liksom upplevd livskvalitet eller aktivitet. Andra utfall, som till exempel laboratorievärden, en rullstols tekniska prestanda eller deltagarens förmåga att ta sig fram med sin rullstol ett visst antal meter, är endast viktiga om de antingen har en direkt koppling, det vill säga ett orsakssamband, till hälsoutfall eller en faktisk möjlighet att öka aktivitet. I övrigt är de mindre viktiga.

En systematisk översikt kan innehålla flera utfall för en frågeställning, exempelvis såväl förändring av symtom, tillstånd, eller behov, som livskvalitet och upplevd trygghet, och biverkningar eller oönskade effekter. Förslagsvis definieras ett primärt utfall och därefter ett, eller några få, sekundära. Det primära utfallet i en systematisk översikt bör vara mycket viktigt för de som berörs av tillståndet eller har behovet. Det är viktigt att överväga negativa konsekvenser av en insats, som till exempel komplikationer, ökning av problembeteenden eller uppkomst av funktionshinder. Vid en HTA-rapport ingår dessutom ofta mått på insatsers kostnadseffektivitet (Kapitel 11).

Specificeringen av utfall omfattar även hur de ska mätas, med vilket mått samt när mätningen sker. Mätmetoderna ska vara validerade och reliabla, det vill säga att instrumentet mäter det som är det är avsett att mäta eller bedöma och att själva mätningen går till på samma sätt oavsett av vem som utför den och när (Avsnitt 7.3). Utfallet kan mätas vid en eller flera tidpunkter. Ett exempel är mätning av effekter av förebyggande (preventiva) insatser där den önskvärda effekten kan ligga decennier framåt i tiden.

För vissa tillstånd finns så kallade prioriterade utfall (eng. Core Outcome Sets, COS) [14]. Prioriterade utfall är framtagna i konsensusprocesser där personer med det aktuella tillståndet eller behovet, professionsföreträdare och forskare tillsammans enas om vilka utfall som är viktigast. Syftet är att få en enhetligare rapportering av utfall och att måtten forskarna har använt sig av för att mäta dessa utfall är de mest relevanta för intressentgrupperna. Artiklar med sammanställningar av framtagna prioriterade utfall finns samlade i en databas på Comet Initiatives webbplats.

Surrogatmått

Surrogatmått är mått som i sig själva inte har betydelse för välbefinnandet hos personen, men som tjänar som en markör för förändring av tillståndet eller behovet. Vanligen är surrogatmått enklare och billigare att mäta. Exempel på surrogatmått är att mäta bentäthet istället för frakturer, blodtryck istället för stroke eller hjärtinfarkt eller kortisolvärden istället för stress. Ett annat exempel är att mäta ungdomars attityder till droganvändning istället för faktisk drogkonsumtion.

Sammansatta mått (kompositmått)

Sammansatta mått är vanliga i klinisk och praktisk forskning. Det innebär att forskaren räknar samman flera olika utfall till ett gemensamt mått, vilket kan ge en högre statistisk styrka i studien. Ett exempel på kompositmått är utfallet god psykosocial arbetsmiljö, som utgörs av att forskaren har summerat mätvärden på delskalor där arbetstagaren har fått ange sin upplevelse av krav, möjlighet till kontroll, delaktighet och socialt stöd. Man bör dock vara försiktig med sammansatta mått. Ofta kan en statistiskt säkerställd effekt på ett kompositmått förklaras helt av effektskillnader i ett enda av de utfall som ingår. Ibland kan kompositmåtten till och med maskera att insatsen kan ha en negativ effekt på viktiga utfall som död och hjärt- och kärlhändelser [15]. I exemplet god psykosocial arbetsmiljö ovan kan upplevelser av starkt socialt stöd till exempel kompensera för och dölja en kravfylld arbetssituation.

Tröskelvärden och minsta betydelsefulla skillnad

Syftet i en systematisk översikt kan vara att utvärdera om insatsen har större effekt än jämförelseinsatsen, om den är likvärdig eller om den har en betydelsefull skillnad i effekt. När syftet är att mäta om det finns en betydelsefull skillnad eller om effekten kan anses likvärdig behöver tröskelvärden definieras. Hur stora kan avvikelserna vara för att effekten fortfarande ska anses vara likvärdig eller att skillnaden inte är betydelsefull? Detta ska anges i protokollet. Det kan finnas studier för vad som anses vara den så kallade minsta (kliniskt eller praktiskt) betydelsefulla skillnaden (eng. minimal important difference, MID, eller minimal clinical important difference, MCID). Dock kan de värdena vara framtagna för delvis andra populationer, och därmed inte nödvändigtvis lämpliga för den syntaktiska översikten.

2.2.2 Strukturerade format för frågeställningar om samband mellan en exponering och ett utfall

Den strukturerade frågan för denna frågeställning har formatet PECO. Det står för population, exponering, jämförelse (eng. comparator) och utfall (eng. outcome). I nedanstående stycke ges exempel på vanliga studiedesigner för att besvara denna typ av frågeställning samt exempel på formulering av ett PECO.

Exponering är ett brett begrepp som ofta används inom epidemiologisk forskning, och avser faktorer som kan vara associerade med ett utfall. Exponeringsstudier förekommer till exempel inom forskning kring livsstilsfaktorer som kost, rökning och miljöfaktorer som miljögifter och arbetsmiljö eller sociala faktorer som exempelvis socioekonomi eller medberoende.

Exempel på frågeställningar kan vara vilket samband det finns mellan en viss kost och cancer eller mellan boendeform för placerade ungdomar och kriminalitet. Kost respektive boendeform utgör i dessa fall exponering och förekomst av cancer respektive kriminalitet är utfallen.

Frågeställningar om samband mellan exponering och utfall besvaras ofta med longitudinella studier (men även andra studiedesigner som fall-kontrollstudier kan vara aktuella) där deltagarna följs över tid och samband mellan en exponeringsfaktor och utfallet undersöks. Exponeringstudier som inte är randomiserade har begränsade möjligheter att svara på om det finns ett orsakssamband mellan exponering och utfall, eller om det är andra förväxlingsfaktorer som orsakar sambandet (Avsnitt 5.2).

2.2.2.1 PECO eller PEO

I arbetet med ett PECO är det fyra delar av frågeställningen som är viktiga:

För vilka är det relevant att undersöka sambandet?
Vilken är exponeringsfaktorn?
Vad är jämförelsealternativet?
Vad är utfallet?

Ibland handlar frågeställningen om olika nivåer eller grader av exponeringar jämfört sinsemellan, utan en uttalad jämförelsegrupp. I sådana fall pratar man i stället om PEO. I protokollet behöver det även framgå om frågeställningen avser orsakssamband (kausalt samband) dvs. att exponeringen leder till utfallet eller inte.

2.2.2.2 Population

Här gäller samma överväganden för populationen som i ett PICO för frågeställningar om effekten av insatser (Avsnitt 2.2.1.2).

2.2.2.3 Exponering

Här beskrivs vilken exponeringsfaktor som avses. Exponeringen kan mätas och analyseras på olika sätt. Ibland definieras den utifrån om en grupp har utsatts för exponeringsfaktorn eller inte, det vill säga exponerad/icke exponerad. Till exempel om man vill undersöka samband mellan att utföra mycket repetitiva armrörelser i arbetet och besvär i nacke eller axlar.

I andra fall kan exponeringen vara definierad utifrån olika kategorier, till exempel låg, medelhög eller hög grad av exponering, eller exponeringar över eller under ett visst tröskelvärde. Om exponeringen är kontinuerlig, till exempel mäts med ett indexvärde för kontinuitet, brukar den ofta kategoriseras för att underlätta analys och tolkning. Exempel på en kontinuerlig exponering är ljudnivå på en arbetsplats. Denna kan kategoriseras som låg, måttlig, hög etc. för att kunna se effekter av olika nivåer på ett utfall, till exempel tinnitus.

Exponeringen kan även bestå av olika grader av intensitet i till exempel kontakter med sjukvården eller socialtjänsten, som graden av kontinuitet till en fast person.

2.2.2.4 Jämförelse

Ofta görs jämförelsen i denna typ av studier mellan de som är exponerade och de som inte är exponerade. Ibland jämförs olika nivåer eller grader av exponeringar med varandra, utan att göra en uttalad jämförelse med en grupp som inte varit exponerad.

2.2.2.5 Utfall

Här gäller i stor utsträckning samma överväganden som i ett PICO för frågeställningar om effekten av insatser (Avsnitt 2.2.1.5).

2.2.3 Strukturerat format för frågeställningar om diagnostik och bedömningsmetoder

Den strukturerade frågan har formatet PIRO (Population, Indextest, Referenstest, Utfall). I nedanstående avsnitt finns exempel på vanliga studiedesigner kopplade till diagnostiska test samt bedömningsmetoder inom arbetsmiljö-, socialtjänst och funktionshinderområdet, samt exempel på hur PIRO kan formuleras.

Diagnostiska test, manualer och utrustning som används för att fastställa och diagnostisera medicinska tillstånd sammanfattas fortsättningsvis med begreppet test.

När det gäller arbetsmiljö-, socialtjänst- och funktionshinderområdet kan olika former av arbetssätt, verktyg och formulär användas som stöd för bedömning av behov av en insats (Faktaruta 2.8). Nedan benämns sådana arbetssätt, verktyg, enkäter och formulär gemensamt för bedömningsmetod.

Systematiska översikter om test eller bedömningsmetoder utvärderar i vilken utsträckning dessa korrekt bedömer, fastställer och klassificerar tillstånd och behov. Den medicinska termen vid sådan utvärdering är diagnostisk tillförlitlighet (eng. diagnostic accuracy). När det gäller utvärdering av tillförlitligheten till bedömningsmetoder benämns det härefter med samma term.

Frågeställningar om diagnostisk tillförlitlighet besvaras ofta med tvärsnittsstudier, men även andra studiedesigner som diagnostiska RCT (Faktaruta 2.9) eller fall-kontroll studier kan vara aktuella. I sådana studier fastställs deltagarnas tillstånd eller behov med det test eller den bedömningsmetod som utvärderas (härefter benämnt indextest), samt med det test eller den bedömningsmetod som indextestet jämförs med, ett referenstest.

2.2.3.1 PIRO

I arbetet med ett PIRO är det fyra delar av frågeställningen som är viktiga:

För vilka personer ska testet eller bedömningsmetoden användas?
Vilket är testet eller bedömningsmetoden som utvärderas?
Vad är jämförelsealternativet?
Vad är det testet ska diagnostisera eller bedöma?

Det är också viktigt att definiera om frågeställningen gäller:

olika bedömningsmetoders eller testers psykometriska egenskaper, det vill säga hur väl testet eller metoden mäter det som är avsett att mätas, samt hur likartade skattningar blir när olika personer gör skattningen vid olika tillfällen (mer information om den typen av översikter finns beskriven av en organisation som heter Consensus-based Standards for the selection of health Measurement Instruments, COSMIN)
i vilken utsträckning diagnostiska test eller bedömningsmetoder korrekt kan skilja ut personer med ett visst tillstånd eller behov jämfört med ett referenstest som antas skatta tillståndet eller behovet korrekt
effekter av de insatser som, baserat på diagnosen eller bedömningen, ges eller erbjuds den enskilde.

Frågeställningar i en systematisk översikt om effekt av användning av tests eller bedömningsmetoders resultat på val av insats, med avseende på patient- eller personnära utfall, formuleras enligt PICO.

I Faktaruta 2.10 finns exempel på frågeställningar utifrån dessa tre olika syften.

Faktaruta 2.10 Exempel på frågeställningar med olika syften med tillhörande PIRO.

Vilka psykometriska egenskaper har bedömningsmetoden Attention Deficit Hyperactivity Disorder Rating Scale för individer med misstänkt adhd?

Population: Individer med misstänkt adhd.

Indextest: Attention Deficit Hyperactivity Disorder Rating Scale.

Jämförelse: Inte relevant.

Utfall: Psykometriska egenskaper.

Vilken tillförlitlighet har Attention Deficit Hyperactivity Disorder Rating Scale för att diagnostisera adhd, jämfört med att diagnosen adhd fastställs genom en fullständig utredning av kliniskt erfaren psykolog/ psykiater?

Population: Individer med misstänkt adhd.

Indextest: Attention Deficit Hyperactivity Disorder Rating Scale.

Jämförelse: Full utredning av en kliniskt erfaren psykolog eller psykiater.

Utfall: Sensitivitet och specificitet för diagnosen adhd.

Vilken effekt har diagnos satt utifrån Attention Deficit Hyperactivity Disorder Rating Scale, samt insats utifrån resultatet, jämfört med diagnos utifrån en fullständig utredning av kliniskt erfaren psykolog/ psykiater och efterföljande insats?

Population: Individer med misstänkt adhd.

Indextest: Attention Deficit Hyperactivity Disorder Rating Scale + insats utifrån diagnos.

Jämförelse: Full utredning av kliniskt erfaren psykolog eller psykiater + insats utifrån diagnos.

Utfall: Livskvalitet, uppmärksamhet, impulsivitet, överaktivitet, biverkningar.

2.2.3.2 Population

Ett och samma diagnostiska test eller bedömningsmetod kan ha olika diagnostisk tillförlitlighet i olika populationer. Det är därmed viktigt att populationen som översikten avser beskrivs noggrant, exempelvis om utvärderingen gäller en viss åldersgrupp, ett visst kön, eller personer med en viss bakgrund och funktionstillstånd. Därutöver behöver två ytterligare aspekter beaktas, nämligen sammanhang (eng. setting) liksom testets eller bedömningsmetodens tilltänkta användningsområde (Faktaruta 2.11). Med sammanhang avses om utvärderingen enbart gäller personer i ett visst specificerat sammanhang, exempelvis personer som utreds av socialtjänsten, personer som är inskrivna i slutenvård eller personer i en särskild arbetsmiljö.

En viktig aspekt vid utvärdering av diagnostik och bedömningsmetoder och som behöver specificera i protokollet är hur testet eller bedömningsmetoden är tänkt att användas. En möjlighet är att utvärdera ett nytt test eller bedömningsmetod som är tänkt att ersätta ett befintligt som kanske är dyrare, mer komplicerat, svårare eller integritetskränkande att använda.

Ett annat scenario är att ett test eller en bedömningsmetod är tänkt att användas i kombination med ett eller flera andra sådana. Då behövs en definition om det är tänkt att utföras som:

Ett tillägg efter ett befintligt test eller bedömningsmetod (så kallat tilläggstest/tilläggsmetod; eng. add-on). Syftet kan vara att öka den diagnostisk tillförlitligheten genom att fastställa resultatet hos en mindre grupp deltagare med tilläggstestet eller tilläggsmetoden.
En del av underlaget för att fastställa diagnos eller behov tillsammans med resultatet från andra tester eller bedömningsmetoder. I detta fall specificeras vilken annan information, tester eller bedömningar som ingår.
Som ett nytt steg före ett redan befintligt test eller bedömningsmetod (inom hälso- och sjukvård kallat triage). Endast personer som får ett i förväg bestämt resultat på det nya testet eller bedömningsmetoden går vidare till nästa test eller bedömningsmetod. Syftet här är inte att öka den diagnostiska tillförlitligheten utan använda resultaten för att prioritera och selektera, eller minska användningen av ett befintligt test eller en bedömningsmetod som exempelvis är kostsam, integritetskränkande, riskfylld eller smärtsam. Ett exempel är antigen-snabbtest för sars-cov-2 (viruset som orsakar covid-19) som kan följas upp med ett PCR-test, vilket är dyrare och kräver laboratorieanalys.

2.2.3.3 Indextest

Ett indextest är det test eller den bedömningsmetod som utvärderas med avseende på dess diagnostiska tillförlitlighet. I vissa fall kan det vara nödvändigt med avgränsning till en viss version av till exempel en medicinsk utrustning eller vissa specificerade behov. Det kan även vara så att flera indextester eller bedömningsmetoder utvärderas i samma systematiska översikt.

2.2.3.4 Referenstest

Referenstest (även kallat referensstandard, referensmetod) är det test eller den bedömningsmetod som indextestet som utvärderas jämförs med. Referenstest kan vara tidigare utvärderade test eller bedömningsmetoder som visats ge tillförlitliga resultat. De referenstest som används som jämförelse förutsätts kunna klassificera aktuellt tillstånd, eller behov korrekt. Det är dock sällan ett referenstest är perfekt, och i många fall finns det inte heller något etablerat referenstest. I den senare situationen kan man istället välja mellan olika typer av teoretiska, ideala eller utifrån praktiken konstruerade referenstest [16] [17] (Faktaruta 2.12). Det är ingen nackdel att använda sig av ett konstruerat referenstest om det klassificerar tillståndet eller behovet korrekt.

Faktaruta 2.12 Alternativa referenstest när ett etablerat sådant saknas. [16].

Sammansatt referenstest: Här kombineras flera tester eller bedömningsmetoder som var för sig är bristfälliga till ett sammansatt mått.

Panel- eller konsensusbedömning: Här kombineras resultat av olika tester eller bedömningsmetoder med kliniska undersökningar, praktiska bedömningar och prognostisk information. Valideringen bygger på en stor mängd empiriska data och bestäms ofta genom internationella möten med experter som uppnår konsensus. Ett exempel är DSM-klassifikationen av psykiatriska tillstånd.

Statistiska modeller: Här kombineras klinisk eller praktisk information med resultat från test- och bedömningsmetoder i statistiska modeller som genererar en sannolikhet för att ett tillstånd eller behov föreligger.

2.2.3.5 Utfall

För utfallen gäller att specificera det tillstånd eller behov som testet eller bedömningsmetoden ska identifiera. De effektmått som används i en diagnostisk tillförlitlighetsstudie är vanligen sensitivitet (känslighet) och specificitet (träffsäkerhet) och för en översikt om psykometriska egenskaper olika former av validitet och reliabilitet, dessa beskrivs mer utförligt nedan (Faktaruta 2.13 och Faktaruta 2.14) .

Sensitiviteten definieras som andelen personer som faktiskt har tillståndet eller behovet i fråga, dvs. tillståndet eller behovet är sant, och där det testet eller bedömningsmetoden korrekt klassificerar att så är fallet. En sådan korrekt klassifikation benämns sant positiv.

Specificiteten definieras som andelen personer som inte har tillståndet eller behovet i fråga, dvs. tillståndet eller behovet föreligger inte utan är falskt, och testet eller bedömningsmetoden korrekt klassificerar att tillstånd eller behov inte föreligger. Denna klassifikation benämns sant negativ.

Det ger fyra möjligheter:

sant positivt, dvs. positiv enligt indextestet samt referenstestet,
falskt positivt, dvs. positiv enligt indextest men inte referenstest,
sant negativt, dvs. negativ enligt indextest samt referenstest,
falskt negativt, dvs. negativ enligt indextest men inte referenstestet.

Utfallen kan läggas in i en fyrfältstabell (Figur 2.1), och utifrån denna beräknas indextestets sensitivitet respektive specificitet.

Ruta uppdelad i 4 delar, Kombinationen av indextest och referenstest ger upphov till fyra möjligheter: Sant positiv, Falskt positiv, Falskt negativ och Sant negativ.

Sensitivitet och specificitet är inbördes beroende av varandra och vanligen leder en ökning av sensitiviteten till en sänkning av specificiteten. I praktiken är ofta ett av måtten viktigare än det andra. Ibland är en hög sensitivitet avgörande, exempelvis då man eftersträvar att fånga in så många som möjligt med ett specifikt tillstånd eller behov. Detta innebär dock en samtidig ökad risk för falskt positiva resultat. Möjliga konsekvenser av falskt positiva resultat är onödig oro och att utsättas för en insats som inte behövs och som i sig kan medföra risker eller negativa konsekvenser för personen i fråga. I andra fall kan det vara viktigare med en hög specificitet, något som ökar risken för falskt negativa resultat. Möjliga konsekvenser för personen är en fördröjd diagnos, att ett tillstånd försämras, eller att ett behov inte tillgodoses i tid, på rätt sätt eller inte alls. Det bör finnas ett resonemang i protokollet om vilket av måtten som är det viktigaste.

Prediktiva värden

Det är även värdefullt att få en uppfattning om de så kallade positiva och negativa prediktionsvärdena. Ett positivt prediktivt värde (PPV) anger sannolikheten för att de som kommer att få ett positivt testresultat verkligen kommer att ha tillståndet eller behovet och ett negativt prediktivt värde (NPV) anger sannolikheten för att de som kommer att få ett negativt testresultat inte kommer att ha tillståndet eller behovet. Positiva och negativa prediktiva värden är beroende av prevalensen, det vill säga hur vanligt förekommande det aktuella tillståndet eller behovet är i den studerade populationen. Ju lägre prevalens, desto lägre positivt prediktivt värde.

Tolkning av effektmått kopplat till diagnostik

Vi tar ett hypotetiskt exempel på hur det går att använda effektmåtten för att avgöra hur effektivt ett test är. För den som tar ett graviditetstest hemma är sensitiviteten för testet 90 procent och specificiteten 70 procent. Prevalensen hos gruppen på 1 000 individer som testas är 10 procent, det vill säga 100 av de 1 000 personer som testas är gravida. Det betyder att av de som är gravida så kommer 90 procent att få ett positivt testsvar och av de som inte är gravida kommer 70 procent få negativt svar. Enligt formler som syns i Figur 2.1 ovan kan vi också beräkna det positiva prediktiva värdet för testet till 25 procent. Det innebär att för personer som fått ett positivt testresultat är sannolikheten 25 procent att det stämmer. Om vi istället undersöker en grupp där prevalensen är 50 procent skulle det positiva prediktiva värdet vara 76,5 procent.

Tröskelvärden

För att beräkna sensitivitet och specificitet krävs binära (dikotoma) variabler, det vill säga antingen ja eller nej på frågan som ställs. När ett test eller en bedömningsmetod innehåller kontinuerliga värden, till exempel när vid skattning av grad av depressionssymtom eller funktionsnedsättning på en skala, måste det finnas ett gränsvärde som definierar om en person antingen har eller inte har ett visst tillstånd eller behov. Det kallas för ett tröskelvärde (eng. threshold eller cut-off). Sådana gränsvärden är inte alltid självklara, och en godtycklig gräns påverkar hur många sanna och falska bedömningar testet kommer att göra.

Om frågan i översikten avser ett visst tröskelvärde ska detta specificeras i protokollet. Ibland har testet eller bedömningsmetoden utvärderats för flera tröskelvärden. Om ett tröskelvärde är mer etablerat än andra kan man nöja sig med att beräkna sensitivitet och specificitet vid det tröskelvärdet. Andra test eller bedömningsmetoder, som till exempel bilddiagnostik, har inte ett tröskelvärde utan klassificeringen påverkas av faktorer som till exempel skicklighet och erfarenhet hos den som tolkar resultaten, något man bör vara medveten om vid granskningen av studier.

Exempel på mer etablerade tröskelvärden finns i formuläret AUDIT som är ett screeninginstrument för att identifiera alkoholproblem. Det innehåller diagnostiska kriterier som används för att avgöra om någon har ett lindrigt eller medelsvårt substansbrukssyndrom (DSM-5) eller ett skadligt bruk (ICD-10). Det fångar både dem som utvecklat problem och de som sannolikt kommer få diagnosen beroende (ICD-10) eller svårt substansbrukssyndrom (DSM-5). I AUDIT beräknas en total poäng för personen som testas. Den jämförs sedan med poängintervall för fyra risknivåer. Exempelvis representerar intervallet 16 till 19 poäng för män ”problematiska alkoholvanor”, vilket innebär att sannolikheten är hög för att någon ska visa sig ha en alkoholrelaterad diagnos eller utveckla det på sikt. För kvinnor är motsvarande intervall 14 till 17 poäng.

För att få en uppfattning om hur ett diagnostiskt test eller en bedömningsmetod fungerar vid olika tröskelvärden kan man konstruera en så kallad ROC-kurva (eng. Receiver Operating Characteristics curve) [18] [19]. ROC-kurvan visar andelen sant positiva (y-axeln), andelen falskt positiva (x-axeln) och hur de förhåller sig till varandra (Figur 2.2). ROC-kurvans utseende beror på hur stor skillnad det är på värdet av indextestet hos personer med tillståndet respektive personer utan tillståndet.

Ett diagram som innehåller utmärkta mätpunkter för specificitet och sensitivitet kopplat till olika tröskelvärden samt en kopplad ROC kurva.

Ytan under ROC-kurvan (eng. area under the curve, AUC) är ett globalt mått som summerar den diagnostiska tillförlitligheten över alla tröskelvärden (Figur 2.3). AUC kan ha ett värde mellan 0 och 1, där 1 indikerar att det fungerar perfekt. Ett AUC på 0,5 tyder på att testet eller bedömningsmetoden inte kan skilja på dem som har tillståndet eller behovet och dem som inte har det, det vill säga att slumpen avgör, och representeras av en diagonal linje mellan punkterna (0,0) och (1,1). Om AUC har ett värde under 0,5 så betyder det att testet kan användas omvänt, det vill säga att sensitiviteten och specificiteten kan kastas om.

Diagram so innehåller olika AUC-kurvor, där AUC på 0,5 visar en rät linje mellan diagrammets två hörn och övriga böjda uppåt. Ju högre AUC-värde, desto större del av diagrammets yta täcks in.

Andra effektmått:

Sannolikhetskvoten (eng. likelihood ratio, LR) och diagnostisk oddskvot sammanfattar sensitiviteten och specificiteten i ett mått som kan vara positivt eller negativt.

En positiv sannolikhetskvot (LR+) visar oddsen för att personen verkligen har tillståndet eller behovet när testet ger positivt utslag.

LR+ = sensitivitet/(1-specificitet)

En negativ sannolikhetskvot (LR–) visar oddsen för att personen har tillståndet eller behovet trots att testet ger negativt utslag.

LR– = (1-sensitivitet)/specificitet

Den diagnostiska oddskvoten DOR (eng. diagnostic odds ratio) visar oddsen för att personen verkligen har tillståndet eller behovet när testet ger positivt utslag i förhållande till oddsen för att personen har tillståndet eller behovet trots att testet ger negativt utslag. Ju högre DOR, desto bättre är testet för att särskilja tillstånd från icke tillstånd.

Innehållsvaliditet

Innehållsvaliditet (eng. content validity) används för att undersöka i vilken utsträckning ett instrument inkluderar testuppgifter som gör att alla relevanta delar av ett fenomen som metoden ska mäta finns representerade samt har testuppgifter som förstås av respondenterna och genererar efterfrågad information.

Intern struktur

Testets interna struktur (eng. internal structure, structural validity, or dimensionality) används för att undersöka i vilken utsträckning testuppgifterna kan användas för att ta fram en total testpoäng, det vill säga om testuppgifterna som ska summeras kan mäta ett enda bakomliggande fenomen (eng. unidimensionality).

Invarians och tvärkulturell validitet

Invarians och tvärkulturell validitet (eng. cross cultural validity/measurement invariance) används för att undersöka i vilken utsträckning testuppgifterna fungerar på samma sätt i olika språkliga versioner eller över olika grupper som man vill jämföra (till exempel personer av olika ålder eller kön).

Hypotestestning

Hypotestestning (eng. hypothesis testing) används för att undersöka i vilken utsträckning en metods testpoäng samvarierar med mätningar av andra närliggande fenomen, eller hur väl förväntade skillnader mellan grupper kan avspeglas i uppmätta skillnader mellan dem.

Kriterievaliditet

Kriterievaliditet (eng. criterion validity) används för att undersöka i vilken utsträckning ett testresultat avspeglar en sann diagnos eller ett sant utfall mätt med en etablerad referensmetod.

Testreliabilitet

Testreliabilitet (eng. scale reliability) används för att undersöka om testpoängen blir desamma eller liknande när testet upprepas i närtid (ett så kallat test-retest) eller av olika bedömare (så kallade inter-raters).

Intern konsistens

Testets interna konsistens (eng. internal consistency) används för att undersöka i vilken utsträckning testresultaten är konsistenta på så sätt att alla testuppgifter eller frågor mäter samma sak.

2.2.4 Strukturerat format för frågeställningar om förutsägelse (prediktion) av framtida utfall

När översiktsförfattare gör sammanställning av studier om framtida utfall gäller det strukturerade frågeformatet PICOTS. Det står för population, indextest, referenstest (eng. control), utfall (eng. outcome), tid och sammanhang. I avsnittet nedan finns exempel på vanliga studiedesigner kopplade till prediktion, samt exempel på ett formulerat PICOTS.

En del av de test och bedömningsmetoder som används inom hälso- och sjukvård, tandvård, socialtjänst samt funktionshinder- och arbetsmiljöområdet handlar om prediktion, det vill säga att förutsäga risken för att något kommer att inträffa, till exempel för att avgöra hur en fråga ska utredas vidare eller vilka insatser som kan behövas i framtiden. I Faktaruta 2.15 beskrivs skillnader mellan prediktion, diagnostik och exponeringfrågeställningar.

Den information som används för att göra förutsägelsen i en prediktiv studie är vanligen olika bedömningar, faktorer, markörer, modeller eller beslutsregler. Den informationen kallas för prediktiv faktor eller prediktionsmodell. Det kan exempelvis vara att undersöka vilka faktorer som kan förutsäga vilka som har hög risk att återfalla i brott, hög risk för suicid eller hög risk för återfall i sjukdom. Förutom att resultaten kan styra val av insats kan de även bidra genom att ge:

utökad information till individen samt vård-, omsorgs- och arbetsgivare
den som ska få insatsen möjlighet att delta i planeringen av olika insatser inklusive valet att avstå en insats
möjlighet att starta förebyggande (preventiva) insatser
förutsättningar för bästa möjliga insatser, exempelvis i form av precisionsmedicin.

Frågeställningar om hur väl en prediktiv faktor eller modell kan förutsäga sannolikheten för att ett tillstånd, en händelse eller ett behov kommer uppstå i framtiden besvaras ofta med longitudinella studier där forskare följer deltagarna över tid och undersöker sambandet mellan en specifik faktor eller modell och ett visst utfall.

Faktaruta 2.15 Skillnad mellan prediktion, diagnostik och exponeringsfrågeställningar.

En prediktion är en förutsägelse om ett framtida tillstånd, behov eller händelse (sannolikhet för att detta ska inträffa), i motsats till tillstånd, behov eller skeenden som fastställs eller sker här och nu.

I de fall där den prediktiva faktorn eller modellen är resultatet från ett test eller en bedömningsmetod är processen för genomförande är i flera avseenden lik metoden för diagnostisk tillförlitlighetsbedömning. Frågeställningen och efterföljande granskningsprocess behöver anpassas något, framför allt för att få in tidsaspekten.

Ett test eller en behovsbedömning kan till viss del ge information om tillstånd som exempelvis ännu inte gett synliga symtom, behov som inte ännu är tydliga eller händelser som man vill undvika såsom skada orsakad av arbete. Det är därmed inte alltid självklart om det rör sig om att diagnosticera ett tillstånd som redan finns eller predicera ett som kan uppstå i framtiden. Dessutom kan samma test eller bedömningsmetod användas i såväl diagnostiska sammanhang som för att förutsäga framtida sannolikhet för ett utfall. Nedan finns ett exempel på det.

Exempel: Bedömningsformuläret clinical frailty scale-9.

Clinical frailty scale-9 är ett instrument som används för att bedöma hur sköra personer är på en niogradig skala. Så här skulle två olika frågeställningar för bedömningsformuläret kunna se ut för diagnostik respektive prediktion:

Frågeställning kopplad till diagnostisk tillförlitlighet:
Hur tillförlitligt är clinical frailty scale-9 jämfört med frailty index för att bedöma skörheten hos personer över 65 år i behov av särskilt boende?
Frågeställning kopplat till prediktion:
Med vilken säkerhet kan skörhet, skattat med clinical frailty scale-9 predicera vårdbehov om ett år för personer över 65 år i behov av särskilt boende?

I andra fall kan prediktionsfaktorn också användas som exponeringsfaktor. Då är den huvudsakliga skillnaden att man med hjälp av prediktion försöker påvisa ett samband framåt i tiden som inte behöver vara ett orsakssamband. Exempelvis kan ålder predicera risk för frakturer utan att i sig vara orsak till att frakturer uppstår.

2.2.4.1 PICOTS

I arbetet med PICOTS är det sex delar som specificeras:

För vilka personer är prediktionen av intresse?
Vilken faktor eller modell är det som ska utvärderas?
Finns det någon jämförande faktor eller modell?
Vad är det som ska förutsägas?
Inom vilken tidsrymd vill man att förutsägelsen ska ske?
I vilket sammanhang är förutsägelsen tänkt att appliceras?

Det är också viktigt att definiera om frågeställningen gäller:

Övergripande prognos. Studier av övergripande prognos (engelska: average/overall prognosis) undersöker utvecklingen av ett tillstånd i befolkningen eller i en viss grupp av personer [20]. Exempelvis kan forskare vara intresserade av hur ungdomar som växer upp i ett område med hög kriminalitet klarar sig senare i livet.
Prediktionsfaktor. Studier av prediktionsfaktorer (risk eller skyddsfaktorer samt funktionshindrande eller funktionsfrämjande faktorer) (engelska: Prognostic factor studies) undersöker om det finns ett samband mellan en viss mätbar faktor, och ett framtida tillstånd, behov eller händelse [21]. Till exempel kanske man är intresserad av hur väl koncentrationen av kolesterol i blodet förutsäger risken att drabbas av en kardiovaskulär händelse (exempelvis hjärtinfarkt) inom ett visst tidsperspektiv, eller hur väl skattning med ett bedömningsinstrument kan förutsäga risk för återfall i brott.
Prediktionsmodell. Syftet med prediktionsmodeller (Synonymer: prognostiska plattformar och prediktiva modeller) [22] är att utifrån en modell baserat på en matematisk kombination av resultatet från flera olika prediktionsfaktorer förutsäga framtida sannolikhet för en viss händelse att utvecklas. Till skillnad från prediktion som baseras på en enskild faktor, så omfattar en prediktionsmodell flera prediktionsfaktorer som tillsammans antas ge en bättre skattning av sannolikheten än de enskilda faktorerna var för sig. Ett exempel på en prediktionsmodell är SCORE. Denna modell skattar risken att dö av en kardiovaskulär händelse inom 10 år i utifrån värdet på följande riskfaktorer: kolesterol, ålder, kön, blodtryck och rökning.
Effekten av insatser baserat på prediktionen (även kallat stratifierad medicin inom hälso- och sjukvård). Prediktionsstudier handlar oftast om i vilken utsträckning testet eller bedömningen kan förutsäga framtida tillstånd, behov eller händelser [23]. För att göra skillnad för individen behöver även utfallet av en insats baserat på prediktionen undersökas. Denna typ av frågeställning besvaras lämpligast genom RCT-studier eller andra kontrollerade studier (Avsnitt 2.2.1.)

Inom det medicinska området används så kallad precisionsmedicin som avser individanpassad utredning, prevention eller insats av sjukdom eller tillstånd, utifrån en prediktionsfaktor eller prediktionsmodell. Exempel på PICOTS för frågeställning om prognostisk faktor respektive prediktionsmodell finns i Faktaruta 2.16.

Faktaruta 2.16 Exempel på PICOTS.

Frågeställning: Kan en riskbedömning av ungdomar med instrumentet Structured Assessment of Violence Risk in Youth förutsäga återfall i brott inom två år?

Population: Ungdomar mellan 12 och 18 år som har utövat våld eller annan kriminalitet.

Indextest: Structured assessment of violence risk in youth (SAVRY).

Referenstest: Inte aktuellt.

Utfall: Återfall i brott mätt som registrerad kriminalitet, domar, självskattningsformulär, formulär för att registrera våld på avdelning, föräldraskattning.

Tidpunkt: Inom två år.

Sammanhang: Bedömning med SAVRY inom socialtjänsten.

Frågeställning: Kan en kariologisk riskbedömning med programmet Cariogram förutsäga karies inom två år?

Population: Alla personer oavsett ålder.

Indexmodell: Cariogram, datorbaserat riskbedömningsprogram som bygger på ett antal olika kariesetiologiska faktorer, som exempelvis kost, plackmängd och salivsekretion.

Referenstest: Inte aktuellt.

Utfall: Förekomst av karies enligt visuell och taktil undersökning eller röntgenundersökning.

Tidpunkt: Inom två år.

Sammanhang: Bedömning med Cariogram inom tandvård.

2.2.4.2 Population

Populationen behöver vara specifikt formulerad, eftersom olika grupper kan ha olika baslinjerisk eller sannolikhet för det utfallet, se Avsnitt 5.1.2 och Avsnitt 2.3.2.

2.2.4.3 Indextest/indexmodell

Med indextest/indexmodell menas den faktor eller modell som den systematiska översikten undersöker.

En faktor kan vara något som är objektivt mätbart, exempelvis ålder, biologiskt kön eller blodtryck, eller subjektiva mått, exempelvis grad av skörhet, depression eller beroende, och skattas via ett bedömningsformulär.

Med en modell avses en matematisk sammansättning av flera olika faktorer där olika faktorer kan ha olika stor vikt i sammanräkningen.

2.2.4.4 Referenstest

Här specificeras om jämförelse med andra faktorer eller modeller kommer att göras. I de fall det inte är aktuellt lämnas denna utan att fyllas i.

2.2.4.5 Utfall

För utfall gäller att specificera vad faktorn eller modellen ska kunna förutsäga och hur detta ska mätas. Exempelvis prediktion av död, återfall i brott, suicid, behov av hjälpmedel eller behov av ekonomiskt bistånd.

Giltigheten hos en prediktionsmodell, säkerställs i studier genom att skatta modellens träffsäkerhet, diskriminerande förmåga och undersöka dess kalibrering. Den externa validiteten i behöver också säkerställas så att modellens är giltig även för personer som inte inkluderades i studien där modellen togs fram.

Träffsäkerhet (eng. accuracy) hos modellen kan bedömas med Brier’s score (Briers poäng). Det är ett övergripande mått som beskriver informationsvärdet i skattningen. Brier’s score kan anta värden från 0 för en perfekt modell till 0,25 för en icke-informativ modell med 50 procent incidens av aktuellt utfall.

Diskriminering beskriver modellens förmåga att skilja ut individer där utfallet inträffar från de där det inte inträffar. Det vanligast måttet på diskriminering är c-index, (c som i eng. concordance) som kan anta ett värde mellan 0,5 och 1, där 1 innebär en perfekt klassificering och 0,5 att slumpmässig klassificering är lika bra. C-index är i princip identiskt med arean under ”receiver operating characteristic” i ROC-kurvan. ROC-kurvan är en graf som illustrerar funktionen hos ett binärt klassificeringssystem när diskrimineringströskeln (till exempel ett riskvärde eller en sannolikhetspoäng) varierar. Även ROC-kurvan i sig används alltså för att studera modellens diskriminerande förmåga.

Kalibrering beskriver modellens förmåga till prediktion över hela risk- eller sannolikhetsintervallet. Ett vanligt sätt att formellt bedöma kalibreringen är att jämföra prediktion med utfall gruppvis med Hosmer-Lemeshows goodness of fit test (H-L) of the calibration slope (kalibreringskurva), men det går också att använda expected: observed ratios (förväntat: observerat förhållande) eller calibration plots (kalibreringsdiagram). ofta finns inte tillräckligt med data för att detta ska kunna beräknas. Då kan det finnas möjlighet att istället räkna ut kalibrering med en O:E-kvot (eng. observed/expected).

Extern validitet hos prediktionsmodeller undersöks genom att en modells giltighet testas i en grupp av individer som inte inkluderades när modellen utvecklades. Detta eftersom en modell alltid fungerar bättre i den population med vilken den utvecklades än i en ny population - modellens giltighet är ofta överdrivet bra i populationen där den utvecklades. Studier på området kan därmed delas upp utifrån syfte - att utveckla en ny modell (development studies, utvecklande), eller att validera en redan utvecklad modell (validation studies, validerande). I den utvecklande studien tas alltså modellen fram, här avgörs vilka faktorer som ska ingå i modellen och hur stor vikt de olika faktorerna sinsemellan ska få, samt analys av modellens träffsäkerhet, diskriminerande förmåga och dess kalibrering (se ovan). Man kan även i samma studie dela upp deltagarna i två grupper, och sedan utveckla modellen baserat på den ena gruppen, och sedan validerar modellen på den andra gruppen. Den externa validiteten kan exempelvis analyseras genom att modellens träffsäkerhet, diskriminerande förmåga och kalibrering undersöks i det nya datasetet.

2.2.4.6 Timing

Två olika tidsaspekter är aktuella:

När i tid som bedömningen/mätningen av faktorn eller modellen ska göras.
Tiden för vilken utfallet ska förutsägas. Exempel: Död inom 30 dagar, återfall i kriminalitet inom 2 år, förbättrad funktionsnivå inom 1 år.

2.2.4.7 Sammanhang

Här specificeras i vilket sammanhang som bedömningen eller mätningen är tänkt att användas. Exempelvis om bedömningen är tänkt att göras på sjukhus, inom socialtjänsten eller i skolmiljö.

2.2.4.8 Övrigt

Om den systematiska översikten undersöker prognostiska faktorer, bör det i protokollet specificeras vilka kovariater som finns för utfallet. Med kovariat avses en eller flera andra faktorer, än de som utvärderas, som på förhand bedöms kan vara förknippade med utfallet. Dessutom bör det vara faktorer som det troligtvis finns information om när den prognostiska faktorn som utvärderas är tänkt att användas i praktiken. Exempel på vanliga kovariater är utbildningsnivå, ålder och kön men det skiljer sig åt beroende på vad som utvärderas.

Anledningen till att definiera kovariater i förväg är för att vid risk för bias-bedömning undersöka om de inkluderade studierna tar hänsyn till viktiga kovariater. Därefter utvärderas om det finns ett samband mellan den prognostiska faktorn och utfallet utöver det som kovariaterna kan förklara.

2.2.5 Strukturerat format för frågor om upplevelser, erfarenheter och värderingar

Det strukturerade formatet för frågor om upplevelser, erfarenheter och värderingar är SPICE. Det står för sammanhang, perspektiv, insats eller intresse, jämförelse (eng. control) och utvärdering (eng. evaluation).

Det har blivit allt vanligare med frågeställningar med utgångspunkt i personers upplevelser, erfarenheter och värderingar av till exempel en insats, ett så kallat fenomen, i effektutvärderingar [24]. Det kan handla om hur tillgänglig, hur genomförbar eller hur acceptabel informanterna upplever en särskild insats. Ofta kan besvaras frågor om personers upplevelser, erfarenheter och värderingar av en viss företeelse med hjälp av metoder som intervjuer eller observationer, det vill säga forskning med kvalitativ ansats. Det går även att använda enkätstudier, eller studier som använder både kvantitativ och kvalitativa data, så kallade mixed methods-studier.

Det kan finnas flera syften med en syntes av kvalitativ evidens, på engelska ofta kallad qualitative evidence synthesis (QES). Ett syfte är att utforska erfarenheter, upplevelser och uppfattningar av sjukvård, socialtjänst eller arbetsmiljö- och arbetslivsrelaterade insatser. Ett annat att utforska upplevelser av att ha ett visst tillstånd, som att tappa sina tänder. Andra syften kan vara att utvärdera upplevelser och erfarenheter när det gäller tillgång till en insats, hur användbar eller accepterad den upplevs eller upplevelser av att ge respektive få en särskild insats. Ytterligare en variant är när en syntes av kvalitativ evidens utforskar vad som hindrar och underlättar att man inför en insats i sin verksamhet [25].

Vägledningar från Joanna Briggs Institute (JBI) och Cochrane Collaboration beskriver hur resultat från kvantitativ och kvalitativ syntes kan läggas ihop i så kallade mixed methods-översikter [2] [26].

2.2.5.1 Om forskning med kvalitativ ansats

Kvalitativ forskning bottnar i olika traditioner som till exempel filosofi, antropologi och sociologi, som i sin tur har blivit basen för olika forskningsansatser [27]. Några vanliga exempel på detta är fenomenologi och hermeneutik som utgår från specifika filosofiska och kunskapsteoretiska traditioner och grounded theory som främst utgår från sociologi. Exempel på andra ansatser som används i primärstudier är etnografi, narrativ analys, fenomenografi, diskursanalys, tematisk analys, framework analysis och aktionsforskning [27]. Valet av ansats bestäms av studiens syfte och relation till teori, där syftet kan vara att till exempel generera ny teori, att testa befintliga teorier eller vara tillämpat, exempelvis som en del i en utvärdering av komplexa metoder. Ansatsen kommer i sin tur att påverka valet av metoder för att samla in, analysera och tolka data. Det är möjligt att olika kvalitativa metoder inte går att syntetisera i en översikt; de som utför en syntes av kvalitativ evidens bör vara väl bevandrade inom detta metodologiska fält för att kunna göra upplysta vägval.

Resultaten från en kvalitativ studie uttrycks ofta som teman eller kategorier. Kvalitativ forskning knyts till sammanhanget eller kontexten, vilket omfattar såväl den studerade populationen som sammanhanget eller miljön där den finns (eng. setting).

2.2.5.2 SPICE

Det finns flera typer av strukturerade format beroende på syntesmetod [24]. Ett vanligt format är SPICE som består av fem komponenter: sammanhang, perspektiv, insats eller intresse, jämförelse (eng. control) och utvärdering (eng. evaluation). Ett exempel på frågeställning med tillhörande SPICE finns i Faktaruta 2.18.

Faktaruta 2.18 Exempel på SPICE.

Frågeställning: Vilka upplevelser och erfarenheter har barn och föräldrar av öppenvårdsinsatser i familjer där man vet eller misstänker att barn utsätts för våld och försummelse?

S: Öppenvård inom socialtjänsten eller barn- och ungdomspsykiatrin som utför insatser till familjer när barn utsatts för våld och försummelse.

P: Barnet eller föräldern i familjer som får öppenvårdsinsatser på grund av att barn yngre än 18 år utsatts för någon form av våld eller försummelse.

I: Insatser som genomförs inom social- eller barnpsykiatrisk öppenvård, som inte behöver inte vara manualbaserade och genomförs individuellt eller i grupp.

C: Inte aktuellt.

E: Förälderns eller barnets upplevelse eller erfarenhet av att ha tagit del av öppenvårdsinsatser.

2.2.5.3 Sammanhang

Sammanhang omfattar till exempel geografiskt område (t.ex. Sverige, västvärlden, globalt), miljö (t.ex. primärvård, boende anpassat enligt lag om bostadsanpassningsbidrag, arbetsplats under jord, eller fängelse), lagstiftning (LSS, SoL, HSL, LVU) och policyer som kan påverka fenomenet, och tidsaspekter (t.ex. upplevelser före och efter en policyförändring).

2.2.5.4 Perspektiv

Denna komponent definierar vems perspektiv som översikten gäller, det vill säga den population som är av intresse. Det kan exempelvis vara barn och ungdomar placerade i familjehem, patienter som genomgår cancerinsats, blåljuspersonal som arbetar i en arbetsmiljö där hot förekommer eller blinda personers upplevelser och erfarenheter. I vissa fall kan det vara värdefullt att specificera undergrupper såsom kvinnor och män eller ambulans- och övrig räddningstjänstpersonal.

2.2.5.5 Insats/intresse

Denna komponent specificerar fenomenet eller insatsen på den detaljnivå som behövs. Om fenomenet är alltför översiktligt definierat kan det vara svårt att bedöma relevansen i det vetenskapliga underlaget. Även om frågeställningens avgränsning är att utforska upplevelser och erfarenheter av sjukvård, kriminalvård eller ett särskilt boende, kan sökningen behöva breddas så att till exempel studier som handlar om att leva med ett tillstånd eller behov accepteras, för att inte missa studier som kan ha undersökt bredare frågeställningar.

2.2.5.6 Jämförelse

Om det är relevant med en jämförelse för den kvalitativa syntesen, till exempel vid frågor om upplevelser och erfarenheter av insatser, ska denna beskrivas så detaljerat att jämförelsen blir meningsfull.

2.2.5.7 Utvärdering

Under denna rubrik specificerar översiktförfattarna resultatet av studierna, exempelvis i form av upplevelser, erfarenheter, värderingar, åsikter eller observerade beteenden.

2.2.6 Övrigt

2.2.6.1 Teori

En teori, modell eller teoretiskt ramverk kan underlätta uppgiften att identifiera viktiga faktorer i den strukturerade frågan. En beteendeteori eller social teori kan till exempel vara ett stöd för att förfina frågan, något som beskrivs mera detaljerat av Noyes och medarbetare [28].

2.2.6.2 Val av syntesmetod

Ange i protokollet vilken syntesmetod som kommer att användas. Valet av syntesmetod beror främst på forskningsfrågan men även praktiska aspekter såsom tid och tillgänglig expertis spelar in. Mer om olika syntesmetoder finns att läsa i Avsnitt 7.7. Grovt sett kan man dela in metoderna i beskrivande eller tolkande, där vissa metoder har såväl beskrivande som tolkande inslag (Figur 2.4). Valet av metod påverkar också litteratursökning och sökstrategi (Kapitel 3).

Pyramid som visar indelning av syntesmetoder: Tolkande syntes, Beskrivande syntes och Sammanställning utan analys

2.2.6.3 Reflexivitet

Begreppet reflexivitet handlar om dialogen mellan forskaren (i det här fallet översiktsförfattarna) och forskningen (i det här fallet den systematiska översikten). Den kan vara prospektiv eller retrospektiv. Prospektiv reflexivitet handlar om vilken påverkan översiktsförfattarna har på översikten. Den omfattar överväganden om hur författarnas förförståelse i form av kunskap, synsätt och uppfattningar kan påverka både vilken fråga och vilken metod de väljer, men också vilka tolkningar de gör under syntesen. Retrospektiv reflexivitet ger översiktsförfattaren en möjlighet att överväga om forskningsprocessen och de resultat som framkommer lett till att denne har fått en förändrad förförståelse.

Projektgruppens förförståelse och dess möjliga påverkan på metodval, liksom strategier för att minska påverkan, beskrivs i protokollet och i rapportens metodavsnitt. Om projektgruppen kommer fram till att påverkan är stor kan det finnas skäl till att engagera ytterligare personer med andra perspektiv. Förförståelsen, och om den har ändrats under arbetets gång, bör även tas upp i rapportens diskussion kring de kvalitativa fynden.

2.3 Urvalskriterier

Urvalskriterier formuleras och beskrivs för att på ett transparent sätt avgöra och avgränsa vilken forskning som är relevant för översiktens frågeställningar. Urvalskriterierna består av inklusions- och exklusionskriterier som anger villkor för om en studie som har sökts fram ska ingå i den systematiska översikten eller inte.

Vissa av urvalskriterierna blir automatiskt specificerade utifrån ett strukturerat format för frågeställningen. Oavsett frågeformat behöver även andra kriterier specificeras i protokollet. Exempel på ytterligare faktorer som kan behöva specificeras följer nedan:

2.3.1 Sammanhang

Här definieras i vilken sammanhang som insatserna ska ges. Exempelvis kan översikten behandla insatser som ges inom primärvården, kriminalvården, elevhälsan eller på särskilda boenden.

2.3.2 Studiedesign

Här definieras vilka studiedesigner som inkluderas.

2.3.3 Språk

Här definieras om endast primärstudier skrivna på specificerade språk inkluderas eller om alla artiklar tas med oavsett språk.

2.3.4 Publikationsformat

Här anger översiktsförfattarna vilka publikationsformat som primärstudierna ska ha för att bli inkluderade. Det kan vara aktuellt att enbart ta med publicerade artiklar som genomgått ett peer review-förfarande och har publicerats i vetenskapliga tidskrifter. Ibland kan översikter bredda sitt urval eller även ta med andra publikationstyper som myndighetsrapporter, konferensabstrakt, avhandlingar eller förhandsversioner, det vill säga artiklar som ännu inte publicerats men som finns tillgängliga via olika preprintsservrar.

2.3.5 Deltagarantal

Det kan också vara bra att fundera över om alla studier ska inkluderas, oavsett deltagarantal, eller om översiktens författare definierar ett minsta antal deltagare per grupp för inklusion.

3. Litteratursökning

Processen över att ta fram en HTA där delen Litteratursökning är markerad

Det här kapitlet handlar om litteratursökningen för en systematisk översikt, med fokus på sökning efter vetenskapliga artiklar i internationella ämnesdatabaser samt hur SBU arbetar med detta. Även kompletterande söksätt och sökning av så kallad grå litteratur tas upp.

I Kapitel 1 beskrivs riktlinjer för hur arbetet med systematiska översikter ska utformas och dokumenteras enligt PRISMA:s checklista [5]. Avsnitt 6 och 7 i denna checklista ger anvisningar om hur litteratursökningen ska rapporteras. För att upprätthålla kraven på översiktens transparens och reproducerbarhet ska alla källor som har använts vid sökningen anges och beskrivas. Det är också viktigt att ange tidpunkten för senaste sökning, eftersom denna ofta skiljer sig betydligt från när översikten publicerats. Fullständig dokumentation över sökstrategier i alla databaser ska vara tillgänglig och sökningarna ska vara rapporterade på ett sådant sätt att de går att repetera. Dokumentationen gör det möjligt att se om arbetet med litteratursökningen följer internationell standard. Förutom SBU:s metodbok och internationella metodböcker [29] [30] [31] [32] [33] som ger utförliga anvisningar om hur litteratursökningen ska utformas, forskas det aktivt inom området och en omfattande mängd vetenskapligt granskade metodartiklar publiceras. Mer övergripande information om sökning för systematiska översikter hittas bland annat i publikationer av Atkinson och medarbetare [34] samt Cooper och medarbetare [35]. Webbplatsen SuRe info (Summarized Research in Information Retrieval for HTA) som är en del av HTAi Vortal, är också en viktig källa för att följa den internationella metodutvecklingen.

3.1 Litteratursökningen – en del av projektprocessen

Det är en stor fördel att involvera informationsspecialisten redan i samband med att protokollet utformas, eftersom informationsspecialistens arbete med sökstrategin effektiviseras genom en ökad förståelse för frågans olika aspekter. Samtidigt kan dennes kunskap och erfarenheter av att omsätta en fråga till en sökstrategi bidra till att strukturera frågan. Studier har visat att när informationsspecialisten deltar i projekten ökar kvalitén på litteratursökningen, framför allt genom att sökningen blir reproducerbar i enlighet med PRISMA-statement [36].

Utgångspunkten för litteratursökningen är alltid den systematiska översiktens frågeställning, som struktureras i protokollet. Sökningen görs i flera steg: förberedande sökningar, testsökning och huvudsökning. Innan huvudsökningarna påbörjas ska protokollet vara fastställt och godkänt. I slutet av projektet görs en uppdateringssökning så att underlaget är så aktuellt som möjligt.

3.1.1 Före projektstart: Identifiera redan gjorda översikter

Innan ett projekt startar bör översiktsförfattarna kontrollera om liknande projekt pågår i någon annan HTA-organisation eller om det redan finns aktuella systematiska översikter som kan besvara fråga (Faktaruta 3.1). Oavsett om syftet med projektet är att identifiera så många som möjligt av de relevanta systematiska översikter som publicerats inom ämnet, eller om syftet är att identifiera primärstudier för att sammanställa en systematisk översikt, gäller att flera databaser måste sökas. De befintliga stora internationella ämnesdatabaserna behöver kompletteras med ett antal specialdatabaser och utvalda organisationers webbplatser. Viktiga databaser att söka i är exempelvis:

Cochrane Library
Epistemonikos
International HTA database.

Databaser inom det sociala området som bör kontrolleras är till exempel:

Social Care Online
Campbell Collaboration.

Databaser för protokoll över systematiska översikter är till exempel:

PROSPERO
Campbell Collaboration
Cochrane Library.

Agency for Healthcare Research and Quality (AHRQ)
HTA-organisation (USA).

Canadian Agency for Drugs and Technologies in Health (CADTH)
Nationell HTA-organisation (Kanada).

Cochrane Library
Innehåller flera deldatabaser, bland andra Cochrane Database of Systematic Reviews.

Campbell Library
Innehåller systematiska översikter inom ämnesområdena socialt arbete, kriminologi och utbildning.

Epistemonikos
Innehåller systematiska översikter inom hälso- och sjukvård samt översikternas inkluderade artiklar.

Folkehelseinstituttet
Nationell institution som bland annat publicerar systematiska översikter och HTA-rapporter inom hälso- och sjukvård samt socialt arbete (Norge).

International HTA database
Innehåller mer än 16 000 rapporter från över 120 olika HTA-verksamheter i hela världen.

SBU, Statens beredning för medicinsk och social utvärdering
Nationella och regionala HTA-rapporter (Sverige).

Social Care Online
Innehåller bland annat systematiska översikter, myndighetspublikationer och primärstudier från Storbritannien inom ämnet socialt arbete.

3.1.2 Testsökning

När arbetet med att ta fram en systematisk översikt ska börja formulerar informationsspecialisten först sökstrategier för testsökningar, i samarbete med projektgruppen. Testsökningarna hjälper bland annat till att klarlägga bland annat:

hur relevanta studier är indexerade och vilka termer som förekommer i titel och abstrakt
om frågorna är tillräckligt väldefinierade eller om de behöver förtydligas
förväntad sökmängd

Vid testsökningen kontrollerar informationsspecialisten vilka ord och fraser som generellt används i abstrakt och titlar, författarnas egna ämnesord, vilka kontrollerade ämnesord som används samt om de verkligen fångar de översikter som är relevanta, och även de inkluderade artiklarna i översikterna.

Om ämnessakkunniga är involverade i arbetet kan de förse informationsspecialisten med centrala artiklar och översikter som är relevanta för frågeställningen, och som informationsspecialisten sedan kan använda för att utveckla sökstrategierna. Sakkunniga kan också bidra med begrepp och uttryck från sina respektive forskningsområden och bedöma om sökresultatet passar projektets fråga eller om sökstrategin behöver korrigeras.

3.1.3 Att skapa sökstrategier

En väl strukturerad och definierad frågeställning är avgörande för att informationsspecialisten ska kunna göra en effektiv litteratursökning. Att strukturera frågeställningen innebär helt enkelt att den delas upp i sina olika beståndsdelar och varje delanalyseras. Dokumentera de fattade besluten.

3.1.3.1 Skapa sökblock

En sökstrategi använder vanligtvis det som på engelska kallas för en ”building block strategy”, eller på svenska kan kallas blocksökning. Ett sökblock är alla tänkbara synonymer eller fraser som kan användas för att beteckna till exempel ett sjukdomstillstånd, en insats eller en studiedesign. Ett sökblock består både av indexeringsord, hämtade från ordlistan för den specifika databasen (tesaurus), och av fritextord. För att inte riskera att man missar studier omvandlar man bara några delar av PICO, till sökblock. Vanligen använder man sökblock för population och insats, men ibland lägger man även till ett block med termer för studiedesign. Vissa delar av frågeformatet (PICO, PIRO m.fl.) kan ibland också motsvaras av två block i sökningen. Om frågeställningen till exempel handlar om populationen ”äldre personer med urininkontinens” kan detta förslagsvis motsvaras av två block; ett block för äldre personer och ett block för urininkontinens. Först söker man varje block var för sig, och sedan kombinerar man dem med varandra för ett slutgiltigt sökresultat.

Det finns områden där man behöver komplettera blocksökningen med andra metoder för att utforma sökningen, till exempel vid komplexa insatser och vid utvärdering av diagnostiska test och bedömningsmetoder. Exempel på sådana är sökningar som består av flera smala sökstrategier, ofta med olika begränsningar, som man sedan kombinerar [33] [37].

3.1.3.2 Booleska operatorer och närhetsoperatorer för att kombinera sökord

De enskilda blocken av söktermer som ska ingå i sökningen är kombinationer av uttryck och termer med en boolesk operator. De flesta internationella databaser erbjuder också möjligheten att söka med så kallade närhetsoperatorer. Det ser lite olika ut hur dessa operatorer skrivs men information finns på respektive databas hjälpsida. Beroende på typ av närhetsoperator som används går det att styra i vilken ordning söktermerna får stå samt hur många ord som får stå mellan de angivna termerna. De booleska operatorerna ”AND”, ”OR” och ”NOT” ger till exempel databasen specifika instruktioner, och ska inte blandas samman med ordens vardagliga betydelse. Inom varje block av söktermer kombineras synonyma begrepp och andra näraliggande termer med den booleska operatorn ”OR”. Det ger databasen instruktionen att söka efter antingen den ena eller den andra söktermen. Genom att använda ”OR” garderar man sig för den mångfald av olika uttryck som kan användas i olika artiklars referenser för en och samma sjukdom, tillstånd, behov eller insats etcetera. Eftersom man söker på flera olika synonymer eller termer som representerar samma begrepp blir sökresultatet i sökningar med ”OR” mellan söktermerna större än om man bara hade sökt med ett specifikt sökord.

När varje block av sökord är sökta kombineras dessa med ett booleskt ”AND” mellan varje block (Figur 3.1). Instruktionen till databasen är då att minst ett ord ur varje block måste finnas i varje referens av sökresultatet. Nu specificeras sökningen och sökresultatet snävas in.

Ett smidigt sätt att kombinera block är att använda respektive funktion för sökhistorik som finns i de flesta databaser.

Två venndiagram som visar hur träffmängden minskar ju fler sökblock som inkluderas i litteratursökningen.

Den booleska operatorn ”NOT” ger databasen instruktionen att något inte ska förekomma i sökresultatet. Vanligen används NOT med stor försiktighet eftersom det finns en risk att man missar relevanta referenser. Om översikten exempelvis gäller typ 2-diabetes men inte typ 1-diabetes, och informationsspecialisten begränsar sökresultatet med ”NOT” för termer om diabetes typ 1, kan sökningen missa referenser som ska ingå i sökresultatet, om de till exempel nämner att ”de inte utvärderat typ 1”.

3.1.3.3 Parentessökning

Parenteser används i en sökstrategi där olika booleska operatorer ingår för att bestämma i vilken ordning databasen ska söka söktermerna och operatorerna.

Exempel: gambl* AND (excessive OR pathologic* OR addict* OR disorder* OR problem* OR heavy OR sever* OR compulsive)
Parentesen instruerar databasen att först utföra sökningen inom parentesen. Detta sökresultat kombineras sedan med söktermen gambl* och ett booleskt ”AND”.

3.1.3.4 Olika typer av sökord – indexeringsord och fritextord

En sökstrategi till en systematisk översikt ska bestå av både indexeringsord och fritextord, för att den ska fånga så många av de relevanta studierna som möjligt.

Indexeringsorden hämtas från den särskilda alfabetiskt hierarkiskt uppställda ordlista, tesaurus, som varje stor internationell ämnesdatabas har. MEDLINE:s (PubMed) tesaurus kallas exempelvis för MeSH, PsycINFO:s kallas “Thesaurus of Psychological Index Terms” och Sociological Abstracts tesaurus heter “Sociological Thesaurus”. Eftersom olika databasers ordlistor använder olika begrepp och uttryck, olika indexeringsord eller kontrollerade sökord, måste alla sökstrategier omformuleras och anpassas till varje specifik databas. Det går inte att överföra samma söktermer rakt av från en databas till en annan.

Huvuddelen av alla artikelreferenser som läggs in i en databas indexeras, det vill säga att ett antal termer ur en tesaurus läggs till varje referens. Referensen ”taggas”, antingen av en indexerare eller med hjälp av en automatiserad indexeringsprocess. Dessa indexeringsord ska beskriva innehållet i en artikel och kan ibland även ange studiedesign, publikationstyp med mera. En tesaurus syftar till att försöka skapa ett enhetligt sätt att benämna innehållet i en databas samtidigt som den skapar relationer mellan begreppen i det hierarkiska systemet.

Den andra typen av sökord kallas fritextord. Det är söktermer som man väljer för att matcha ord som förekommer i databasens referens till varje specifik artikel. Referensen är uppdelad i olika fält och en vanlig begränsning är att låta fritextorden matcha ord som finns i fälten för titlar, abstrakt och författarnas egna ämnesord.

Fördelen med att söka med hjälp av databasernas indexeringsord är att de är enhetliga. Artikelns abstrakt ska idealiskt beskriva en artikels innehåll, men att söka på ord i en beskrivande text kan leda till irrelevanta träffar. Med indexeringsord behöver den som söker inte ta hänsyn till synonymer och stavningsvarianter, vilket krävs med fritextord. Detta är en stor fördel. En nackdel kan vara att de ibland är för generella för att passa den aktuella frågeställningen. Artikelförfattarens val av titel och hur abstraktet är skrivet kommer ha betydelse för hur artikeln indexeras, vilket innebär att den mänskliga faktorn vad gäller felindexering också måste beaktas.

Fördelar med fritextord är att även studier som ännu inte hunnit bli indexerade fångas in. Det betyder att för att fånga de allra senaste publicerade artiklarna i till exempel den viktiga databasen MEDLINE/PubMed, räcker det inte att söka med indexeringsord. En kombination av indexeringsord och fritexttermer kommer alltså att behövas. Fritexttermer kan också vara till hjälp när databasens indexeringsord är för generella för att passa den aktuella frågeställningen, exempelvis vid specifika namngivna insatser.

3.1.3.5 Identifiera söktermer

En sökstrategi identifierar både indexeringstermer och fritexttermer för varje block. Några metoder för att identifiera termer är att:

Använda sökstrategier som andra utformat, helt eller delvis.
Titta i databasens tesaurus efter tips på synonyma termer. I MeSH kallas de ”entry terms”.
Titta i svenska MeSH, som är utvecklad av och underhålls av Karolinska Institutets bibliotek.
Använda en tesaurusterm som en fritextterm.
Analysera en samling nyckelartiklar som ämnesmässigt motsvarar det man söker efter, antingen manuellt eller med ett ordfrekvensverktyg, till exempel PubReMiner.
Använda funktionen ”Related articles” i till exempel PubMed som ger tips på andra artiklar relaterade till sökresultatet.
Göra en citeringssökning.
Fråga sakkunniga inom ämnet.
Söka på internet.

3.1.3.6 Avgränsningar i sökningen

Formuleringen av frågeställningens PICO, eller motsvarande, innebär att frågeställningens avgränsningar blir tydliga. Avgränsningar kan exempelvis vara populationens ålder, kön, språk, begränsningar i tid eller studiedesign.

Nästa fråga blir om dessa ska ingå i sökstrategin eller gallras fram vid genomgång av abstrakt. Frågan om huruvida olika avgränsningar ska göras i litteratursökningen eller inte handlar till stor del om att balansera mellan att i möjligaste mån minimera risk för bias och samtidigt ta hänsyn till tidsramar och resurser. Alla beslut om avgränsningar tas gemensamt av översiktsförfattarna.

Internationella databaser har inbyggda funktioner för avgränsningar, så kallade Limits. I en del databaser, som till exempel MEDLINE/PubMed, är användandet av vissa Limits liktydigt med att söka med MeSH-termer, vilket betyder att man inte får träff på nya artiklar som ännu inte är indexerade. Det gäller bland annat funktionerna Ages, Article type och Species. Andra avgränsningar som språk och tid är inte kopplade till MeSH, utan man får träff även på oindexerade artiklar. Om Limits används i sökningen, kontrollera noga i hjälpsidorna för respektive databas vad som gäller.

3.1.3.6.1 Språk

I de flesta databaser är abstrakten på engelska, även om artikeln är skriven på ett annat språk. Det är lätt att avgränsa sökningen till olika språk. En risk med en sådan begränsning är att relevanta studier på andra språk inte fångas in av sökningen. Cochranes handbok rekommenderar därför att man inte gör någon språkbegränsning och [33] hänvisar bland annat till studier som har gjorts av Egger och medarbetare från år 1997 [38] och Morrison och medarbetare från år 2012 [39]. Flera studier visar dock att riskerna att missa särskilt många relevanta studier med sökning endast på engelska inte är särskilt stora [39] [40] [41].

3.1.3.6.2 Tidsperiod

Begränsningar i tid handlar oftast om startår, det vill säga hur gamla studierna ska vara. Det kan finnas goda skäl att begränsa tidsperioden i sökstrategin. Prata med sakkunniga som känner forskningsområdena väl. Om det finns en tidsbegränsning så ska grunden till det beslutet anges. Ett alternativ är också att söka utan tidsbegränsning och sedan sätta den i efterhand. Mot slutet av projektet bör sökningarna uppdateras sökningarna för att få ett så aktuellt sökresultat som möjligt. Det är viktigt att datumet för den senaste sökningen framgår tydligt.

3.1.3.6.3 Studiedesign

Översiktsförfattarna behöver besluta om primärstudiernas forskningsdesign ska ingå i själva sökstrategin eller bara vara en del av de inklusionskriterier som hanteras i abstraktgranskningen, det vill säga att man väljer att ta med eller exkludera en studie baserat på i förhand fastställda kriterier då vid gallring av sökresultatets alla abstrakt. Att begränsa sökningen till studiedesign innebär, precis som med andra avgränsningar, en risk att missa relevant litteratur. För många typer av studiedesign finns det utvärderade sökfilter.

3.1.3.6.4 Sökfilter

Sökfilter (eng. search filters, hedges) är sökstrategier som redan är utformade och utvärderade för att fånga en viss typ av studier, till exempel en viss studiedesign. Sökfiltren är testade mot en guldstandard av relevanta artiklar och räknar ut de olika sökstrategiernas så kallade recall och precision, se Faktaruta 3.2. Sökfiltren är utformade för att passa olika databaser men olika versioner av samma databas kan ha olika filter. Ett filter som är gjort för PubMed passar till exempel inte Ovid Medline.

Sökfiltret kombineras med sökstrategins övriga block. Kontrollera använda sökfilter regelbundet, eftersom nya indexeringstermer tillkommer, och termer blir föråldrade. För systematiska översikter ska sökfiltren generellt sett ha en hög recall, det vill säga fånga så många relevanta studier som möjligt.

En betydande samling sökfilter för olika ändamål finns vid ISSG Search Filter Resource, där informationsspecialister i InterTASC Information Specialists' Sub-Group Search Filter Resource, samlar, utvärderar och publicerar sökfilter.

3.1.3.7 Litteratursökningens omfattning – en balansgång

Förhoppningen är att systematiska översikter baseras på all existerande relevant litteratur. Den optimala litteratursökningen för ett sådant projekt vore därför en sökning som både hittar alla relevanta studier och ingenting annat än de relevanta studierna, det vill säga en sökning med 100 procents precision. I praktiken är detta i princip omöjligt att uppnå.

Precision och recall är två mått som som beskriver sökresultatet, och därför kan de räknas ut först efter att sökningen utförts och resultatet har granskats. Ett sökresultat kan ha mer eller mindre hög recall, och mer eller mindre hög precision, och dessa mått står nästan alltid i motsatsförhållande till varandra (Faktaruta 3.2). Medan en sökstrategi konstrueras är de okänt hur den kommer att prestera. Då handlar det snarare om att ha en ansats i sökarbetet som möjliggör för en viss typ av resultat. Det leder till antingen så kallade breda eller smala sökningar [42].

3.1.4 Breda och smala sökningar

3.1.4.1 Bred sökning

En bred sökning är en strukturerad och uttömmande litteratursökning för att fånga alla potentiellt relevanta studier (Faktaruta 3.3). I arbetet med en systematisk översikt ska litteratursökningen vara både strukturerad och ha en uttömmande ansats. Sökningen behöver alltså vara bred.

Att sökningen ska vara strukturerad innebär att den ska följa både en förutbestämd sökmetod och uppsatta kriterier (till exempel PICO), samt genomföras i ett antal förutbestämda databaser. Till det strukturerade arbetet hör också att tillvägagångssättet är transparent och att det dokumenteras.

Att sökningen ska vara uttömmande innebär att den ska ha hög recall, det vill säga att sökningen har hittat så många som möjligt av de studier som svarar på frågan. Vid breda sökningar behövs hänsyn tas till att indexeringen kan variera eller brista, att vissa studier kan sakna indexering och att terminologin kan variera i titel och abstrakt.

Inför en sökning vet förstås ingen hur många relevanta studier som finns och vilka de är, vilket innebär att recall är svårt att räkna ut. En bred sökning ökar möjligheterna att finna det mesta. Nackdelen är att ju bredare en sökning är, desto fler irrelevanta träffar kommer den att fånga, och därför blir sökningens precision lägre (Figur 3.2). Systematiska översikter har i genomsnitt en precision på tre procent [43].

3.1.4.2 Smal sökning

För litteratursökningar som är till för andra ändamål än systematiska översikter, behöver sökarbetet inte vara lika uttömmande (Faktaruta 3.3). Det kan exempelvis handla om sökningar till narrativa översikter eller andra typer av kunskapssammanställningar. Det kan också handla om litteratursökningar där syftet helt enkelt är att bara hitta några bra artiklar om ett ämne och där precisionen därför väger tyngst. Vid sådana arbeten kan man alltså göra medvetna avgränsningar i sökningen. Det innebär att en sökning kan vara både strukturerad, det vill säga följa en noggrann metodik, och samtidigt vara precis. I boken ”Systematic approaches to a successful literature review” och i en publicerad rapport beskriver Booth och medarbetare utmärkande kriterier för olika typer av översikter och utformning av litteratursökningar med olika syften [44].

Ett exempel på en mycket smal litteratursökning är att söka efter två ord i artikelns titelfält och kombinera dessa med ett booleskt ”AND”. En sådan sökning ger antagligen få träffar och träffarna bör till stor del vara relevanta. Samtidigt innebär en sådan sökning att stora delar av den relevanta litteraturen inte kommer med eftersom man inte tagit hänsyn till varierande terminologi och endast sökt efter dessa ord i titelfältet. Om de två sökorden inte är helt relevanta för frågeställningen finns det också en risk att den smala sökningen inte alls träffar ”mitt i prick” utan snarare helt utanför.

Faktaruta 3.3. En jämförelse av bredare och smalare sökningar.

Bredare sökning för till exempel systematiska översikter:

Sök med både indexeringsord och fritextord.
Ta hänsyn till att en tesaurus är ett föränderligt hjälpmedel.
Det kan finnas olika sätt att indexera samma sak eller näraliggande företeelser.
Sök i flera för ämnesområdet relevanta databaser.
Sök med få block (ofta block för population AND insats i PICO).
Lägg till alternativa stavningar och böjningsformer för fritextorden.
Trunkera fritextorden när det är tillämpligt, det vill säga sök på ordstam som slutar med ett trunkeringstecken (vanligen *). Men kontrollera och avstå om trunkeringen ger för många irrelevanta träffar.

Smalare sökning för andra ändamål än systematiska översikter:

Använd endast indexeringstermer.
Avgränsa indexeringsorden med funktioner för huvudämne och aspektord (i PubMed: ”Major Topic” respektive ”Subheadings”).
Begränsa sökningen till publiceringstid, språk, åldersgrupp.
Om varje del av en PICO motsvaras av ett block med söktermer blir sökresultatet smalare ju fler delar som ingår i sökstrategin med ett booleskt AND mellan varje block.
Vid sökning med fritextord, sök endast efter ord i referensernas titlar.
Vid sökning med fritextord, sök på specifika ord eller fraser (t.ex. ”cost-effectiveness” istället för ”cost*” och ”qualitative study” istället för ”qualitative”).
Undvik att söka på förkortningar om samma förkortning kan betyda olika saker.

Ett venndiagram som visar hur en bred sökning fångar fler av de relevanta träffarna än en smal sökning, men också innebär ökad mängd icke-relevanta träffar.

3.1.5 Number needed to read

Sökningens precision kan också uttryckas som number needed to read (NNR), ett mått som tar i beaktande antalet abstrakt man behöver granska för att finna en relevant artikel (NNR=1/precisionen). Om projektets syfte är att besvara en frågeställning där det finns få publicerade studier, är det ganska okomplicerat att göra en bred sökning. En sådan sökning riskerar inte att missa särskilt många relevanta artiklar, samtidigt som arbetsbördan inte behöver bli så stor för dem som granskar de abstrakt sökningen identifierat.

Om projektet däremot vill besvara en frågeställning inom ett område där det finns ett stort antal publicerade studier ställs frågan om sökningens bredd på sin spets. Hur många abstrakt är projektgruppen beredda att läsa igenom manuellt för att vara säkra på att ingenting missats?

Hur smal eller bred sökningen är blir en fråga om hur mycket tid som finns till förfogande, hur många personer som arbetar i projektet och vem som ska gallra bland abstrakten. Ibland går det kanske snabbare och enklare att granska ett stort antal referenser jämfört med den tid det tar att snäva in sökningen på ett sätt som gör att man inte missar alltför många relevanta studier. Å andra sidan är alternativet med ett för stort antal sökträffar med högt NNR (dvs att granska ett stort antal irrelevanta artiklar för att hitta en relevant) inte heller oproblematiskt. Den mänskliga faktorn gör att det kan vara svårt att hålla koncentrationen uppe vid granskning av ett stort antal abstrakt, och på så vis riskerar man också att relevanta studier sållas bort av misstag. Det behöver dock inte ta alltför mycket tid i anspråk att granska en abstraktlista, trots att antalet abstrakt vid första anblicken kan se ut att vara ohanterbart:

”At a conservatively-estimated reading rate of two abstracts per minute, the results of a database search can be ‘scan-read’ at the rate of 120 per hour (or approximately 1 000 over an 8-hour period)” [45].

3.1.6 Att söka studier med kvalitativ ansats

Hur litteratursökningarna utformas för synteser med kvalitativ ansats, är helt beroende av vilken typ av syntes (Avsnitt 7.7) projektet väljer att göra. Booth och medarbetare publicerade år 2016 ett stöd för val av syntesmetod, och ett stöd för planering av sökning av studier med kvalitativ ansats. Stödet kallas 7S och står för

Sampling
Sources
Structured questions
Search procedures
Strategies
Supplementary searching
Standards of reporting [46].

Om syntesen syftar till att beskriva ett fenomen är det av stor vikt att alla relevanta studier identifieras, då kommer litteratursökningen att vila på samma grund som den systematiska översikten. Om syftet däremot är att tolka data eller att generera teori kan sökningen också vara mer uttömmande, men den kan också vara upplagd på ett iterativt sätt [47].

För frågor som handlar om erfarenheter och upplevelser av att leva med ett visst tillstånd eller om bemötande kan sökstrategin bestå av ett block för population och ett block med söktermer för erfarenheter och upplevelser, respektive bemötande. Om en smalare sökning ska göras kan ytterligare ett block med termer för studiedesign läggas till. Andra frågor kan handla om erfarenheter och upplevelser av en insats, eller upplevelser av ett tillstånd eller en särskild insats. Frågeställningen kan också handla om professionens attityder, erfarenheter eller upplevelser.

Det kan vara mer tidskrävande att utforma sökstrategier för att identifiera studier med kvalitativ ansats inom det samhällsvetenskapliga området, där socialt arbete och funktionshinderforskning ingår, än för studier med kvantitativ ansats. Det kan bero både på författarnas val och på forskningsområdets tradition att namnge en studie och skriva abstrakt. Det kan också saknas viktig information ur ett sökperspektiv, som information om studiedesign, eller så används många olika begrepp för samma insats eller tillstånd. Andra orsaker kan vara brister i hur ämnesorden har indexerats i databasen, eller att tesaurusen i en databas innehåller för få kontrollerade ämnesord inom området [48] [49].

För sökning efter studier med kvalitativ ansats finns en användbar lista över sökfilter för det på ISSG Search Filter Resource.

3.1.7 Databaser och andra informationskällor

Det är alltid frågeställningen som styr valet av databaser, oavsett vilken typ av studier som är i fokus. Om sökningarna av studier med kvalitativ ansats är en del av en systematisk översikt, utförs litteratursökningen i samma databaser som huvudsökningen, ofta med tillägg av databaserna CINAHL och Scopus [49]. PsycINFO kan utgöra ytterligare ett tillägg. En annan möjlighet är att söka i flera databaser samtidigt via ett gemensamt gränssnitt, exempelvis EBSCO.

Projektgruppen behöver diskutera om grå litteratur ska ingå i sökningen. Grå litteratur är material som inte riktigt går att kategorisera som de vanligaste publikationstyperna som man söker efter när man söker efter studier. Det kan till exempel handla om rapporter, avhandlingar, manuskript eller kliniska riktlinjer.

Det finns dessutom kompletterande metoder för att identifiera studier. Framför allt är det en god idé att kontrollera referenslistorna i relevanta studier och dokument.

Se Faktaruta 3.4 för exempel på databaser som innehåller både systematiska översikter och primärstudier inom hälso- och sjukvårdsområdet respektive socialt arbete.

Faktaruta 3.4 Exempel på databaser som innehåller primärstudier till systematiska översikter.

CINAHL

CINAHL (Cumulative Index to Nursing and Allied Health Literature) är en databas över artiklar om omvårdnad, sjukgymnastik, arbetsterapi etcetera. Databasen tillhandahålls av EBSCO och åtkomsten är avgiftsbelagd.

Cochrane Library

Cochrane Library består av flera olika deldatabaser. Förutom Cochrane Database of Systematic Reviews som innehåller de egna systematiska översikterna, finns även Protocols, Cochrane Central Register of Controlled Trials (Central).

Embase

Embase är den andra stora databasen inom medicinområdet. I Embase finns också innehållet i databasen Medline. MeSH-databasen finns däremot inte. Embase har en utvecklad tesaurus, Emtree, som brukar framhållas som särskilt bra på läkemedel, som är ett av databasens centrala ämnesområden. Förutom artiklar innehåller Embase även konferenshandlingar. Embase produceras av det europeiska vetenskapliga förlaget Elsevier och innehåller ett större antal europeiska tidskrifter på respektive europeiskt språk än den amerikanska PubMed. Databasen är avgiftsbelagd.

APA PsycINFO

PsycINFO är en databas inom psykologi, beteendevetenskap och näraliggande ämnesområden. PsycINFO produceras av American Psychological Association (APA). PsycINFO tillhandahålls av olika leverantörer, och är avgiftsbelagd.

PubMed

PubMed innehåller referenser till artiklar och ett urval av fulltextartiklar. Databasen ger en bred täckning inom hälso- och medicinområdet. PubMeds huvudsakliga innehåll utgörs av databasen Medline. Utmärkande för artiklarna i Medline är att de är indexerade enligt databasens särskilda tesaurus MeSH (Medical Subject Heading). Förutom dessa finns ett växande antal artiklar i PubMed som väntar på indexering. Databasen produceras av National Library of Medicine i USA och finns tillgänglig kostnadsfritt via internet.

SocIndex

SocIndex täcker alla sociologins delar, som antropologi, kriminologi, socialpsykologi, socialt arbete, missbruk och välfärd. Databasen innehåller referenser till tidskriftsartiklar, böcker och konferenshandlingar. Databasvärd är EBSCO och den är avgiftsbelagd.

Sociological Abstracts

Sociological Abstracts indexerar internationell litteratur inom sociologi och näraliggande ämnesområden. Databasen innehåller referenser till tidskriftsartiklar, böcker, konferenshandlingar och avhandlingar. Databasvärd är ProQuest och den är avgiftsbelagd.

Social Services Abstracts

Social Services Abstracts vetenskaplig litteratur inom socialt arbete och välfärd. Databasvärd är ProQuest och den är avgiftsbelagd.

3.1.7.1 Sökningar till systematiska översikter

Att söka till systematiska översikter görs i flera databaser. Hur många och vilka som är lämpligast beror på frågeställningen. För frågor inom hälso- och sjukvårdsområdet kan det räcka med sökningar i Ovid MEDLINE eller PubMed, Embase och Cochrane Library. För multidisciplinära frågor och frågor inom socialt arbete och funktionshinderområdet används vanligen APA PsycINFO, SocINDEX, Sociological Abstract/Social Services Abstracts eller en kombination av dessa samt Ovid MEDLINE eller PubMed. Scopus har ofta visat sig vara en bra kompletterande databas.

3.1.7.2 Kompletterande söksätt

Även om översikten huvudsakligen kommer identifiera relevanta studier i elektroniska databaser, behövs också kompletterande söksätt. Den viktigaste metoden är ofta att gå igenom referenslistorna i relevanta systematiska översikter och primärstudier [50] [51]. Vid behov går det också att komplettera sökningarna med citeringssökningar i Scopus och den kostnadsfria Google Scholar. En annan stor licensierad citeringsdatabas är Web of Science. Det är viktigt att redovisa vilka kompletterande söksätt som har använts. För- och nackdelar med olika kompletterande sätt att hitta relevanta studier finns i en artikel av Cooper och medarbetare [52].

3.1.8 Huvudsökning

När sökstrategin är genomarbetad är det dags för huvudsökningen. De flesta internationella metodböcker inom området, till exempel Cochrane Handbook for Systematic Reviews of Interventions [53] och Developing NICE guidelines [54], anger att det inte räcker att bara söka i en databas när syftet är att hitta alla studier som besvarar frågeställningen. För att undvika risk för snedvridning av översiktens resultat genom missade artiklar behövs sökning i flera databaser [55] [56] [57].

Insatser inom socialt arbete, funktionshinderområdet och det beteendevetenskapliga området är ofta multidisciplinära. Då kan det krävas mer specifik kunskap om både vilka olika databaser som finns tillgängliga och vilka andra källor som kan vara lämpliga för projektet. Vilka databaser som är lämpliga att söka i beror helt på frågeställningen.

Eftersom samma referens kan vara indexerad, eller ”taggad”, på olika sätt i olika databaser kan kompletterande sökningar vara värdefulla även av den anledningen. Men det går inte att kompensera för en bristfällig sökstrategi genom att söka i flera databaser. Det går inte heller att använda samma sökstrategi rakt av för olika databaser eftersom olika databaser har olika krav på sökstrategins format. När en första sökning i den databas som har mest detaljerad ämnesordlista är utförd, blir nästa steg därför att anpassa sökstrategin till de andra databaserna. Sökning sker i första hand i de databaser som är angivna i protokollet, men kompletteras med andra databaser efterhand om det behövs. Om hälsoekonomiska och etiska aspekter ska ingå i utvärderingen söks dessa utifrån formulerade sökstrategier i detta steg.

3.1.9 Litteratursökningar för ekonomiska aspekter

Det kan vara tillämpligt att inkludera ekonomiska aspekter i den systematiska översikten då dessa kan ge information om vilka resurser som krävs för att exempelvis införa en insats, se Kapitel 11. Sökstrategin för att hitta studier med ekonomiska aspekter följer i stort upplägget för att hitta det övergripande projektets studier, och kan bestå av ett block för populationen, ett block för insatsen och ett block med ekonomiska termer.

Ibland, till exempel om det finns få studier men många insatser, kan en förenklad sökstrategi bestå av ett block för populationen och ett block med ekonomiska termer.

3.1.9.1 Databaser

För ekonomiska utvärderingar inom hälso- och sjukvård rekommenderas sökningar i databaserna Embase, International HTA database, Ovid MEDLINE/PubMed och Scopus [58] [59].

För ämnesområdet socialt arbete och andra närliggande områden finns det betydligt mindre publicerat kring sökningar av ekonomiska utvärderingar, men ett exempel är ett bokkapitel av Glanville och medarbetare, ”Searching for evidence for cost-effectiveness decisions” [60]. För frågeställningar om insatser inom socialtjänsten gäller vanligen att sökningarna görs i samma databaser som huvudsökningen. Ibland finns behov av att lägga till en eller flera databaser med ett generellt innehåll, såsom Scopus, om den inte redan ingår i huvudsökningen. Andra tänkbara databaser med generellt innehåll är Web of Science eller Academic Search Elite, och en kontroll i International HTA database är också viktig att göra.

Det går också att använda kompletterande söksätt, såsom att kontrollera referenslistor, webbsidor och olika register.

3.1.9.2 Sökfilter för hälsoekonomi

Vid hälsoekonomiska sökningar kombineras en ämnessökning med ett sökfilter som innehåller termer för ekonomiska aspekter. Ett vanligt filter i sammanhanget är NHS EED, som är utvärderat och publicerat av den kanadensiska HTA-organisationen Canadian Agency for Drugs and Technologies in Health (CADTH). I en utvärdering av flera filter visade sig det här filtret ha den bästa balansen mellan recall och precision [61].

Det finns ett flertal andra utvärderade relevanta hälsoekonomiska sökfilter. Hur de presterar med avseende på precision och recall varierar. Det finns filter med högre precision och lägre recall som går bra att använda om sökningen inte behöver vara uttömmande. [62].

Här finns en lista över sökfilter för ekonomiska utvärderingar (ISSG Search Filter Resource).

3.1.10 Att söka opublicerade data och övrig grå litteratur

Grå litteratur är material som inte riktigt går att kategorisera som de vanligaste publikationstyperna vid sökning efter studier. Till grå litteratur räknas bland annat avhandlingar, konferenspublikationer och rapporter som inte är utgivna av kommersiella förlag.

The Third International Conference on Grey Literature (1997) definierade grå litteratur som

”litteratur som produceras på alla nivåer i det offentliga, på universitet, företag och industri, oavsett i vilket format, och som inte är kontrollerad av kommersiella förlag och som inte har publicering som viktigaste aktivitet”.

En särskild typ av grå litteratur är opublicerade data. Det är data från studier som antingen kan vara i form av icke-publicerade abstrakt eller fulltexter (unpublished data), eller data som finns men som forskarna har valt att inte ta med i sina publicerade abstrakt eller fulltexter (missing data). Risken för publikationsbias har länge varit känd, det vill säga att nollresultat eller negativa resultat i studier inte publiceras i samma utsträckning som positiva resultat. Då finns risk för snedvridning av den systematiska översikten resultat. Det betyder att det finns en risk för överskattning av de publicerade positiva insatseffekterna eftersom de eventuella negativa effekterna av insatserna inte publiceras i vetenskapliga tidskrifter [63] [64] [65] [66] [67] [68]. Se avsnitt 7.1.9 för mer information om publikationsbias.

Opublicerade data kan finnas i flera olika typer av källor, till exempel konferenshandlingar, olika register för kliniska studier, läkemedelsbolagens kliniska studierapporter (eng. clinical study reports, CSR) och i handlingar publicerade av tillståndsgivande myndigheter.

Frågan om sökning av opublicerade data till utvärderingar av effektstudier har uppmärksammats och de flesta internationella metodböcker tar upp det som obligatoriskt eller mycket önskvärt [29] [30] [69] [70] [71] [72]. En av anledningarna till det är att data som tidigare varit svåråtkomliga nu har blivit alltmer tillgängliga genom högre krav på att pågående kliniska studier ska registreras i register och att läkemedelsbolagens tidigare svåråtkomliga rapporter av kliniska studier delvis publiceras på webbplatsen hos den myndighet som utfärdar tillstånd för att använda till exempel ett nytt läkemedel. En CSR är en detaljerad beskrivning av resultaten och hur arbetet med den kliniska prövningen har gått till, och som lämnas av läkemedelsbolagen som underlag när de söker tillstånd för att ge ut läkemedlet från en myndighet [68] [73]. Den myndighet som ger ut sådana tillstånd inom EU är European Medicines Agency (EMA) och den amerikanska motsvarigheten är US Food & Drug Administration (FDA).

Den internationella litteraturen är inte entydig om i vilken utsträckning opublicerade data kan ändra resultatet av exempelvis en metaanalys. Eftersom det kan vara mycket resurskrävande att söka efter opublicerade data, diskuteras också om det är möjligt att bestämma under vilka förutsättningar omfattande, detaljerade rapporter som exempelvis CSR ska sökas [64] [65] [67].

3.1.10.1 Konferensabstrakt

Ungefär hälften av alla studier som publiceras som ett konferensabstrakt kommer senare också att publiceras i fulltext [74]. I den vetenskapliga litteraturen finns motstridiga uppgifter om värdet av just konferensabstrakt för att undvika publikationsbias. Li och medarbetare (2017) kom i sin genomgång fram till att konferensabstrakt ofta är ofullständiga och kan innehålla motstridiga uppgifter jämfört med de publicerade artiklarna och att de därför kan vara vilseledande [78] [79]. Scherer och Saldanha (2019) menar å andra sidan att det finns exempel på när konferensabstrakt har haft betydelse för en översikts slutresultat och inte bara för resultatets precision. Det kan vara värt att söka efter dem, särskilt när det inte finns så många studier eller om flera studier kommer fram till olika resultat [75]. Konferensabstrakt är sällan fackgranskade på samma sätt som en peer reveiw-publikation, och den fulltexten är alltid att fördra om båda kommer med i sökningen.

3.1.10.2 Register för kliniska studier

Två vanliga register för kliniska studier är: ClinicalTrials.gov och WHO:s databas ICTRP (International Clinical Trials Registry Platform). ICTRP innehåller ett antal regionala register, inklusive ClinicalTrials.gov, men har mindre utvecklade databasfunktioner. Därför ger kombinationen av dessa två register ett bättre sökresultat. Registren innehåller både pågående och avslutade kliniska prövningar. Flera studier har visat att registren bör sökas. En studie av Baudard och medarbetare från år 2017 visade att i 43 procent av de systematiska översikter som författarna kontrollerade kunde ytterligare RCT-studier identifieras genom sökningar i register för kliniska studier. De gjorde sedan om 14 metaanalyser, med de nya studierna inkluderade, vilket resulterade i främst en ökad precision av resultaten [76] [77] [81] [82] [83] [84].

3.1.10.3 CSR och tillståndsgivande myndigheters data

Flera studier har kontrollerat om opublicerade data tillför något och i så fall vad. Det resultatet har sedan satts i relation till resurs- och tidsåtgång. I en artikel av Schmucker och medarbetare (2017) kom forskarna fram till att opublicerade data har en oklar betydelse för metaanalysers resultat i medicinsk forskning och därför måste översiktsförfattare värdera om de ska göra det resurskrävande arbetet med att söka opublicerade data överhuvudtaget [78]. Halfpenny och medarbetare kom år 2016 fram till en liknande slutsats när det gäller sökningar i olika källor som register för kliniska prövningar (CSR) och i myndigheters handlingar. Eftersom det är mycket resurskrävande att söka i alla källor, rekommenderar författarna att arbetet ska ske stegvis med en noggrann genomgång av sökresultatet. Rekommendationen är att börja med att söka i register, därefter handlingar från tillståndsgivande myndigheter och till sist de omfattande och detaljerade CSR-rapporterna [79]. I en annan studie av Jefferson och medarbetare från år 2018 identifierade författarna kriterier för när mer resurskrävande sökningar efter till exempel CSR-rapporter ska göras. Bland kriterierna finns kostnaden för insatsen, sjukdomsbördan (eng. burden of disease), antalet människor som kommer att kunna använda produkten, om produkten är ny, om läkemedelsgruppen är ny eller om en stor del av RCT-studierna är finansierade av läkemedelsbolagen [68].

3.1.10.4 Sökning av grå litteratur inom socialt arbete och andra tvärvetenskapliga ämnesområden

Vid sökning efter studier inom ämnesområden som socialt arbete kan det finnas anledning att söka efter grå litteratur eftersom det inte alltid är den vetenskapligt granskade artikeln som är den självklara publikationstypen. Det gäller ofta inom olika tvärvetenskapliga områden. I en utvärdering som SBU har gjort framkom att det var värdefullt att identifiera ”genomförbarhetsstudier” kring flera av de utvärderade insatserna, även om alla inte var av hög kvalitet. På så sätt kunde man få en överblick över vilka rapporter som har gjorts i Sverige via den grå litteratur som identifierades. Det är också ett sätt att kartlägga var det saknas studier [80]. Erfarenheterna från SBU har också stöd i litteraturen. Adams och medarbetare från år 2016 menar att den grå litteraturen kan ge viktig information som handlar om sammanhanget: hur, varför och för vilka en insats kan vara effektiv [81]. En annan studie av Mahood och medarbetare (2014) framhåller att sökning av grå litteratur kan ge en överblick över vilka insatser som finns för ett visst problem, vilka utvärderingar som har gjorts och inom vilka områden studier saknas [82]. En annan viktig aspekt som tas upp i studien är att det kan vara utmanande att söka efter grå litteratur och samtidigt upprätthålla den systematiska översiktens krav på att litteratursökningen ska vara systematisk, transparent och reproducerbar.

3.1.11 Uppdateringssökning

Eftersom processen med att ta fram en systematisk översikt kan vara lång finns ofta behov av att göra en uppdaterad sökning i slutet av projektet. Det är för att säkerställa att inga nya relevanta studier har tillkommit under arbetets gång. Det är viktigt att datumet för den senaste sökningen framgår tydligt. Riktmärket från Cochrane handbook är att det inte bör vara längre än 6–12 månader från sista sökdatum till dess att översikten publiceras.

3.1.12 Sökdokumentation

Två bärande principer i arbetet med systematiska översikter är att transparens och reproducerbarhet ska genomsyra hela arbetsprocessen. Det betyder att sökdokumentation och annan information om hur arbetet med litteratursökningen har utförts ska finnas tillgängligt så att den som vill kan ta del av det i den systematiska översikten. Brister i rapporteringen av arbetet med litteratursökningen har uppmärksammats inom flera områden [83] [84] [85]. Ett krav i PRISMA statement är att en reproducerbar sökdokumentation för alla databaser ska finnas tillgänglig i översikten, och att eventuella avgränsningar i sökningen och sökdatum finns med. Atkinson och medarbetare har år 2015 arbetat fram en detaljerad checklista på hur arbetet med litteratursökningar kan presenteras och dokumenteras [34], se Faktaruta 3.5. Exempel på hur SBU dokumenterar sina sökstrategier presenteras i Faktaruta 3.6.

SBU dokumenterar alla sina sökstrategier, såväl huvudsökningens respektive databas som för ekonomiska utvärderingar, etiska aspekter och grå litteratur.

Sökdokumentationerna publiceras som bilagor till varje rapport på SBU:s webbplats www.sbu.se. Arbetet med litteratursökningen beskrivs i respektive rapports metodavsnitt. Exempel på hur SBU presenterar en sökstrategi finns nedan.

Title: Urinary incontinence among elderly people: pelvic floor exercises.
Search terms		Items found
The final search result, usually found at the end of the documentation, forms the list of abstracts. [MeSH] = Term from the Medline controlled vocabulary, including terms found below this term in the MeSH hierarchy; [MeSH:NoExp] = Does not include terms found below this term in the MeSH hierarchy; [MAJR] = MeSH Major Topic; [SH] = Floating sub-heading, includes terms found below this term in the MeSH hierarchy; [SH:NoExp] = Floating sub-heading, does not include terms found below this term in the MeSH hierarchy; [TIAB] = Title or abstract; [TI] = Title; [AU] = Author; [OT] = Other term; [TW] = Text word; Systematic [SB] = Filter for retrieving systematic reviews; " " = Citation Marks; searches for an exact phrase; * = Truncation
Population: Aged
1.	"Aged"[Mesh:NoExp] OR "Aged, 80 and over"[Mesh] OR "Frail Elderly"[Mesh] OR Geriatrics[MeSH] OR Homes for the Aged[MeSH]	2136129
2.	(older patient*[TI] OR older adult[TI] OR older adults[TI] OR older women[TI] OR older men[TI] OR geriatric[TI] OR geriatrics[TI] OR elderly[TI] OR elders[TI] OR Vulnerable elder[TI] OR Vulnerable elders[TI] OR senior[TI] OR seniors[TI] OR community-dwelling[TIab] OR nursing home[TI] Or nursing homes[TI] OR care home[TI] OR care homes[TI] OR oldest old[TI] OR frail[TI]) NOT medline[SB])	8 795
3.	1 OR 2	2144719
Population: Persons with urinary incontinence
4.	Urinary Incontinence[MeSH:NoExp] OR Urinary Incontinence, Stress[MeSH] OR Urinary Incontinence, Urge[MeSH] OR Nocturia[MeSH] OR Urinary Bladder, Overactive[MeSH] OR "Diurnal Enuresis"[Mesh] OR overactive bladder[tiab]	26 775
5.	(Mixed incontinence[tiab] OR Stress incontinence[tiab] OR Stress urinary[tiab] OR overactive bladder[tiab] OR bladder overactivity[tiab] OR bladder control[tiab] OR urge to void[tiab] OR (Incontinence[ti] AND (urine[ti] OR urinary[ti] OR stress[ti] OR urge[ti])) NOT medline[SB]	1 353
6.	4 OR 5	27 735
Intervention: Pelvic floor exercise
7.	(Pelvis[MeSH:NoExp] OR Pelvic Floor[MeSH]) AND (Muscle Contraction[MeSH] OR Exercise Therapy[MeSH:NoExp] OR Physical Therapy Modalities[MeSH])	1 476
8.	pelvic muscles exercise[tiab] OR Pelvic muscle exercise[tiab] OR Bladder and pelvic muscle training[tiab] OR pelvic floor muscle training[tiab] OR pelvic floor re-education[tiab] OR pelvic exercise[tiab] OR pelvic floor training[tiab] OR pelvic muscle precontraction[tiab] OR pelvic floor exercise[tiab] OR pelvic muscle re-education[tiab] OR (pelvic floor[ti] AND (training[ti] OR exercise*[ti] OR education[ti]))	1 126
9.	7 OR 8	2 097
Study types: systematic review, Clinical trials, Cohort studies
10.	((((("Randomized Controlled Trial" [Publication Type]) OR "Clinical Trial" [Publication Type:NoExp]) OR "Controlled Clinical Trial" [Publication Type]) OR "Multicenter Study" [Publication Type]) OR "Longitudinal Studies"[Mesh]) OR "Cohort Studies"[Mesh:NoExp] OR systematic[SB]	1556874
11.	(Clinical trial[tw] ClinicalTrial[tw] OR controlled trial[tiab] OR ((random*[tiab] OR controlled[tiab] OR multi-center[tiab] OR prospective[tiab]) AND trial[tiab] OR study[tiab] OR cohort[tiab]) OR randomized[tiab] OR randomization[tiab] OR randomized[tiab] OR randomization[tiab] OR Nonrandomized controlled trial[tiab] OR prospective controlled study[tiab] OR prospective study[tiab] OR Prospective cohort[tiab] OR Prospective multicentre cohort[tiab] OR observational cohort study[tiab] OR prospective multicenter[tiab] OR basal level[tiab] OR systematic review[ti] OR baseline[tiab]) NOT (Medline[SB] OR oldmedline[tiab])	379 071
12.	10 OR 11	1926704
Combined sets
13.	3 AND 6 AND 9 AND 12	192

3.1.13 Verktyg för referenshantering

Sökresultaten importeras därefter vanligen till ett referenshanteringsprogram där dubblettkontroll görs, men kan även importeras direkt i många program som används för relevansgranskning eller för hela processen, till exempel Covidence. Exempel på program för referenshantering är EndNote och Zotero. När alla sökningar är gjorda och alla dubbletter är borttagna är det dags för nästa steg i processen: granskningen av de framsökta abstraktens relevans (Kapitel 4).

3.2 Problematiska studier

I en systematisk översikt bör relevanta studier för inklusion följas upp med avseende på forskningsintegritet. Ur litteratursökningsperspektiv (se t.ex. Cochrane Handbook kapitel 4.4.6) innebär det dels en kontroll om någon studie är återkallad (Retractions), dels om studierna har kommenterats (Comments), bifogats rättelser (Errata), uppdaterats eller signalerats ha problem (Expression of concern). Det finns metoder för att enkelt och strukturerat utföra denna kontroll, till exempel automatisk uppmärkning av retractions i EndNote och en söksträng i PubMed för att fånga studier som följts upp. Vid granskning av andras systematiska översikter kan detta även beaktas för inkluderade studier i respektive översikt.

En utmaning inom vetenskaplig publicering är oseriösa tidskrifter och förlag med tveksam forskningsintegritet (så kallade rovtidskrifter och -förlag). Ur detta perspektiv bör även den tidskrift där en relevant studie är publicerad granskas. För detta ändamål finns checklistor, som till exempel thinkchecksubmit.org, men hör gärna med en forskningsbibliotekarie eller informationsspecialist med kunskap i ämnet.

4. Bedömning av relevans

Figur som visar Processen över att ta fram en HTA där delen Relevansbedömning är markerad

Det här kapitlet handlar om bedömning av relevansen för de artiklar som fångats upp i litteratursökningen.

Urvalet av studier görs i flera steg och bygger på att minst två personer först oberoende av varandra bedömer studierna varefter en gemensam slutbedömning görs av om en studie ska ingå eller exkluderas (konsensusförfarande).

De studier som ska ingå i översikten måste vara relevanta, det vill säga uppfylla PICO, PIRO, SPICE eller motsvarande samt övriga urvalskriterier. Vid tillämpning av breda sökkriterier kommer sökresultaten innehålla en stor mängd referenser som inte är relevanta. I ett första steg gallras sådana studier bort utifrån information från titel och abstrakt. Exempel på program som kan användas vid relevansgranskning är Rayyan, SR accelarator, EPPI Reviewer eller Covidence. Artiklar som av titel och abstrakt att döma skulle kunna uppfylla urvalskriterierna beställs i fulltext. Observera att det enligt PRISMA inte är nödvändigt att sammanställa orsak till att abstrakts exkluderas utan det räcker att notera antalet.

I ett andra steg granskas fulltextartiklarna. De studier som inte bedöms vara relevanta exkluderas. Det kan finnas flera anledningar till att de inte uppfyller PICO, SPICE eller motsvarande. Studien kan ha fel publikationsformat, till exempel brev till redaktören, eller vara av diskuterande natur utan egna resultat. Dubbelpublikationer kan förekomma, det vill säga att samma studie publiceras i två tidskrifter, och då ska den ena exkluderas. Om de båda granskarna i detta skede tycker olika behöver en tredje person (eller en hel projektgrupp) involveras för att komma till ett beslut. När granskarna kommit överens om vilka artiklar som ska exkluderas upprättas en förteckning över dessa där orsakerna till att de har gallrats bort anges. Observera att endast en orsak ska anges per artikel, även om det kan finnas flera skäl till att exkludera artikeln.

5. Bedömning av risk för bias

Processen över att ta fram en HTA där delen Bedömning av risk för bias är markerad

Detta kapitel handlar om att bedöma risken för att resultaten i de inkluderade studierna kan ha snedvridits, det vill säga risken för bias. Risk för bias kan uppstå i såväl design av studien, som i dess genomförande. Bedömning av risk för bias innehåller subjektiva inslag och det är därför är det viktigt att försöka minska graden av subjektivitet. Ett sätt att minska subjektiviteten är att minst två personer granskar studierna, först oberoende av varandra och därefter gemensamt med en samordnad bedömning. Målet med den samordnade bedömningen är att nå konsensus i bedömningen. Om personerna inte är eller kan bli överens om en enad bedömning kan en eller fler andra granskare avgöra vilken bedömning som ska gälla.

Ett annat sätt att minska subjektiviteten är att använda standardiserade granskningsmallar eller checklistor som stöd för bedömningen, och att utgå från riktlinjer för rapporters genomförande. Bedömningen av risk för bias kan underlättas genom att så tidigt som möjligt gemensamt gå igenom aktuella granskningsmallar samt att stämma av de bedömningar och avväganden som gjorts för några få utvalda artiklar.

SBU har valt att i möjligaste mån använda internationellt vedertagna granskningsmallar varav många är framtagna av Cochrane-organisationen. Mallarna från Cochrane är anpassade för tillförlitlighetbedömning med GRADE eller CERQual. Läsa mer om det i Kapitel 8.

Samtliga mallar har en likartad uppbyggnad och består av domäner (eng. domains). Varje domän representerar vanligen en typ av risk för bias, till exempel selektionsbias och bias som följd av selektiv rapportering. För varje domän finns hjälp i form av ett antal stödfrågor (eng. signalling questions). Risken för bias bedöms utifrån svaren på stödfrågorna och vad eventuella brister kan betyda för utfallet. Vikten av en bedömd risk kan variera både beroende på forskningsområde och sammanhang. Antalet enskilda bedömningar (det vill säga en numerisk summa) bör inte ligga till grund för en övergripande bedömning av risk för bias. Det viktigaste är att ta hänsyn till om den gjorda bedömningen visar att det finns en risk att resultatet kan snedvridas.

Klassificeringen av risk för bias varierar mellan mallarna och graderas vanligen mellan hög, måttlig och låg risk. För icke-randomiserade studier finns även bedömningen oacceptabelt hög risk för bias. Studier som bedömts ha oacceptabelt hög risk för bias inom en domän bör lämpligen inte tas med i den vidare analysen då resultatet på ett påtagligt sätt kan snedvridas.

Granskningen av risk för bias avser dels risken per domän, dels den övergripande risken för bias per utfall. Resultatet från ett utfall som bedömts ha övergripande hög risk för bias kan undantas från att tas med i den vidare analysen då detta kan snedvrida resultatet. Det är bra att tidigt i arbetet, till exempel i protokollet, överväga hur detta påverkar det fortsatta arbetet med översikten (Faktaruta 2.1 och Avsnitt 5.1.3). Det kan vara värt att notera att även om studier med hög risk för bias inte är med i analysen bör de dock alltid redovisas.

Denna del av metodboken beskriver översiktligt dels vilka risker som finns för primärstudier, dels hur mallarna bör användas. Texten ska alltså ses om en bakgrund och ett komplement till de detaljerade instruktioner som finns beskrivet för respektive mall. För granskning av risk för bias för systematiska översikter se Kapitel 10 om tillämning av publicerade systematiska översikter.

För mer detaljerad information om olika typer av bias se https://catalogofbias.org/.

5.1 Risk för bias i studier där deltagarna har fått en insats

Studier som utvärderar effekter av insatser har oftast en eller flera jämförelsegrupper. När studiedeltagarna slumpmässigt delas in i insats- eller jämförelsegrupp kallas studien för randomiserad kontrollerad studie (RCT, randomised controlled trial). Detta avsnitt beskriver hur risken för bias systematiskt bedöms i RCT-studier och i icke-randomiserade studier (NRSI, non-randomised studies of interventions), se Tabell 5.1 utifrån de två mallar som SBU använder (Faktaruta 5.1). Det är värt att notera att NRSI-mallen är en mer generell mall som till exempel omfattar både tilldelning och beslut om insats såväl som människors egna val (till exempel rökning). Den kan användas för bias-bedömningar av bland annat kohortstudier, före/efter-designer, och avbrutna tidsserier. Ibland kallas sådana studier med sådana designer sammanfattande för observationsstudier.

Båda mallarna innehåller frågor kopplade till sex domäner. De aspekter som tas upp i det första domänen, om fördelning mellan grupperna, är det som skiljer en RCT från en NRSI. De övriga domänerna är gemensamma för båda studietyperna, se Tabell 5.1 Domän 6 om jäv och intressekonflikter finns inte med i granskningsmallarna från Cochrane (ROB 2 och ROBINS-I) utan är ett tillägg som SBU valt att ta med.

SBU har valt att översätta och bearbeta de granskningsmallar för RCT- respektive NRSI-studier som har utvecklats av universitetet i Bristol i samarbete med Cochrane.

Granskningsmallen för randomiserade studier bygger på ROB 2 (Risk of Bias tool 2) [87]. ROB 2 finns i flera versioner, för parallella grupper med individuell randomisering respektive randomisering på gruppnivå, till exempel hela skolor, som brukar kallas klusterrandomisering samt för överkorsningsstudier (eng. cross-over designs). ROB 2-mallarna och mycket detaljerade instruktioner för hur de ska användas finns att läsa på universitetets webbplats.

Granskningsmallen för icke-randomiserade studier bygger på ROBINS-I (Risk of bias in non-randomised studies of interventions) [87]. ROBINS-I och anvisningar för hur den ska användas finns här. Granskningsmallen kan användas för såväl prospektiva som retrospektiva studier, inklusive registerstudier.

Vid SBU:s senaste översättningar och bearbetningar av Cochranes granskningsmallar för RCT (RoB 2) och icke-randomiserade interventionsstudier (ROBINS-I) infördes några förändringar. Båda mallarna inleds nu med två screeningfrågor, som granskare kan använda om de under inledande granskning märker att det finns uppenbara brister. För RCT-studier gäller det brister i randomiseringsprocedur och utfall, för NRSI-studier gäller screeningfrågan brister i hantering av confounders. Gemensamt för båda mallarna är en andra screeningfråga om brister i forskningsintegritet. Screeningfrågorna kan användas för att effektivisera bedömningarna; inte lägga tid i onödan på detaljerad granskning av studier som uppenbart inte håller måttet.

SBU har också lagt till en fjärde nivå, Oacceptabelt hög risk för bias, i RCT-mallen, detta för att jämställa bedömningarna med NRSI-mallen.

Tabell 5.1 Domän 1 till 6 i granskningsmallarna vid bedömning av risk för bias för RCT-, respektive NRSI-studier.
Domän	RCT	NRSI
1	Gruppindelning: Randomisering	Gruppindelning: A) Confounders/Förväxlingsfaktorer B) Selektion/Gruppindelning C) Klassificering/ Avgränsning av deltagare och insatser
2	Avvikelser från planerade insatser
3	Bortfall
4	Mätning av utfallet
5	Rapportering
6	Jäv och intressekonflikter

5.1.1 Delmoment 1: Bedöm risken för bias i olika domäner

Det första delmomentet i arbetet med risk för bias granskning är att göra en bedömning för var och en av de sex domänerna. I Avsnitt 5.1.1.1 beskrivs hur domän ett granskas i en RCT studie och i Avsnitt 5.1.1.2 till 5.1.1.5 beskrivs hur domän ett granskas i en NRSI-studie. Överväganden för domän två till fem sker på likartat sätt för båda studiedesignerna.

5.1.1.1 Domän 1: Bias som en följd av gruppindelning (RCT-studier)

I studier där forskarna jämför en eller flera insatsgrupper och jämförelsegrupper med varandra bör deltagaregenskaper som ålder, kön eller typ av funktionsnedsättning vara jämnt fördelade mellan grupperna för både insatsen och jämförelsen. Om de är ojämnt fördelade kan det avgöra vilket utfall insatsen visar.

Syftet med randomisering är att förebygga sådan bias som kan uppstå i samband med att deltagarna delas in i grupper. En välgjord randomisering gör att både kända och okända deltagaregenskaper fördelas slumpmässigt mellan grupperna. Om antalet deltagare är tillräckligt stort blir det oftast en jämn spridning av deltagaregenskaper i grupperna. På så sätt balanseras också okända faktorer som kan förutsäga utfallet, till exempel ålder, svårighetsgrad av sjukdom, socioekonomi, samsjuklighet eller flera olika samtidiga funktionstillstånd.

Bedömningen av risken för bias i en RCT-studie kopplat till gruppindelning utgår från hur de som utfört och rapporterat studien har genererat sekvensen för att slumpmässigt dela in deltagarna i grupper och om den sekvensen har kunnat påverkas. Det finns flera sätt att ta fram slumpmässiga sekvenser som styr hur gruppdeltagarna ska fördelas, alltifrån enkla manuella metoder som att singla slant till att använda en slumpgenerator eller webbaserade program för randomisering. Det är dock viktigt är att det inte går att påverka sekvensen eftersom fördelningen då inte blir slumpmässig. Med enkla manuella metoder ökar risken för att sekvensen kan ha påverkats. Ibland läggs dock begränsningar in i processen för att få jämna proportioner mellan grupperna, till exempel 1:1 där grupperna blir lika stora. Sådana begränsningar kan påverka randomiseringen, se Faktaruta 5.2.

Blockrandomisering

Vid framför allt små studier finns det en risk för att randomiseringen leder till att grupperna blir olika stora, något som medför att den statistiska styrkan minskar. Med blockrandomisering kan man undvika detta och möjliggöra för grupperna att bli lika stora. Hur stora blocken ska vara kan vara fastställd i förväg, till exempel fyra eller åtta personer, eller vara slumpmässig. Inom varje block kommer lika många personer att fördelas till varje grupp. Om blockstorleken exempelvis är fyra och studien har två grupper kommer alltså två personer att fördelas till vardera gruppen. Nackdelen med att definiera blockstorleken på förhand är att det finns en risk för att det går att förutse vilken grupp en deltagare kommer att ingå i.

Stratifiering

Om man vill säkra god jämförbarhet mellan grupperna kan man vid urvalet använda sig av stratifiering. Deltagarna indelas i så kallade strata efter vissa prognospåverkande faktorer. Exempelvis kan personer över 50 år utgöra ett stratum och de som är 50 år eller yngre ett annat stratum. Randomisering sker separat inom varje stratum. Om en undersökning har tillräckligt stort antal deltagare kan man göra en jämförande analys av resultaten dels i varje grupp, dels i varje stratum inom varje grupp. Vilka jämförelser som ska göras ska specificeras i förväg i studiens protokoll.

Minimisering

Tanken med minimisering är att den första studiedeltagaren slumpas till någon av studiens grupper. Därefter hamnar var och en av de följande försökspersonerna i den grupp som mest jämnar ut obalansen mellan grupperna [88] med hänsyn till alla identifierade confounders (förväxlingsfaktorer).

Om principen för randomiseringen är känd kan det vara möjligt att påverka vilka individer som hamnar i vilka grupper, därför är det fördelaktigt om sekvensen är dold för de inblandade i studien tills insatsen ges till deltagarna Det kallas för dold allokering. Det effektivaste sättet att dölja gruppindelningen är att tilldelningen hanteras av en tredje part.

Ibland kallas metoder som randomiserar utifrån exempelvis födelsedatum, veckodatum, datum för besök hos läkare, olika skolor, sjukhus, regioner för kvasirandomiseringar. Dessa metoder är oftast minde lämpliga då de kan leda till en ojämn gruppindelning för insats- och jämförelsegruppen.

Den första mätningen av deltagarnas olika egenskaper, tillstånd eller behov kallas ofta baslinjemätning och resultaten från den bör finnas presenterade i en tabell. Mätningen bör vara gjord före randomiseringen om insatsen inte kan blindas. Se Faktaruta 5.3 för mer information om blinding.

Baslinjemätningen behövs när för att kunna granska hur väl randomiseringen har lyckats. Om det finns skillnader mellan grupperna kan randomiseringen ha misslyckats. Små skillnader kan bero på slumpen men det finns anledning att misstänka att randomiseringen inte har lyckats om det är ovanligt stora skillnader i gruppstorlek och deltagaregenskaper, en överdriven likhet mellan grupperna och om det helt saknas vissa egenskaper eller tillstånd i grupperna som borde finnas där.

5.1.1.2 Risk för bias i samband med gruppindelning (NRSI-studier) – Domän 1A, 1B, 1C

När det är praktiskt svårt eller till och med oetiskt att randomisera deltagarna kan studien genomföras utan randomisering. Det kallas för en NRSI-studie (eng. non-randomized study of interventions). Utan randomisering riskerar deltagaregenskaperna att bli ojämnt fördelade mellan grupperna, vilket kan leda till hög risk för bias, se Faktaruta 5.4. Resultaten från en NRSI-studie bör därför ställas i relation till vilka resultat som skulle kunna ha uppnåtts om studien hade varit randomiserad. Cochrane Collaboration rekommenderar att projektgruppen definierar en idealisk randomiserad studie, utan några praktiska, etiska eller ekonomiska hinder som kan finnas för en sådan, och fråga sig hur populationen då skulle väljas och insatsen ges? Hur och när ska utfall(en) mätas? Tanken är att den idealiska studien sedan fungerar som en jämförelse för de inkluderade studierna för att avgöra hur hög deras risk för bias är.

Det går att fördela studiedeltagarna så att det blir balans mellan kända egenskaper, tillstånd och behov, som ålder och kön. Det kallas för matchning. Det går däremot inte att ta hänsyn till egenskaper hos deltagarna som är okända eller svåra att mäta. Ett exempel på det är de stora kohortstudier som genomfördes i slutet av 1980-talet som visade att östrogeninsats efter menopaus (HRT, hormone replacement therapy) minskade risken för hjärt- och kärlsjukdom. När man undersökte effekten i randomiserade prövningar såg man dock inga statistiskt säkerställda skyddande effekter av östrogeninsatsen. Detta tolkades som att de kvinnor som i kohortstudierna behandlades med östrogentillägg hade en mer hälsomedveten livsstil och därmed en bättre prognos, vilket innebär att det var selektionen av kvinnor som påverkade resultatet.

5.1.1.3 Domän 1A: Risk för bias från identifiering och kontroll av confounders (NRSI-studier)

Confounders, ibland kallade störfaktorer eller förväxlingsfaktorer, är faktorer som påverkar både det som ska studeras, till exempel vilken effekt en viss insats har eller konsekvenserna av en exponering, och utfallet. De kan bestå av egenskaper, tillstånd och karakteristika som kan bli ojämnt fördelade mellan de grupper som ska jämföras och därigenom påverka resultaten. Vanliga confounders är svårighetsgrad av sjukdom, omfattning av funktionstillstånd eller problematik, samsjuklighet eller flera samtidigt förekommande funktionstillstånd, ålder och socioekonomiska faktorer. Confounders som är betydelsefulla för forskningsfrågan bör identifieras av de som utför den systematiska översikten (projektgruppen eller författarna) innan bedömningen risk för bias inleds. Det är en styrka om valet av confounders baseras på tillförlitliga forskningsdata, så att det finns goda skäl att tro att de förväxlingsfaktorer som väljs verkligen påverkar utfallet.

Confounders som bedömts vara jämnt fördelade vid studiestarten och den första mätningen (baslinjemätningen) kan dessutom förändras över tid. Confounding som varierar över tid (eng. time-varying confounders) beror på faktorer som förändras efter det att insatserna har startat.

Det händer också att primärstudiernas författare lägger till faktorer i analysen när baslinjemätningen är avslutad och insatsen har startat (eng. post-intervention variables). I en prospektiv studie kan det bero på brister i planeringen eller att nya egenskaper, behov eller tillstånd hos deltagarna har noterats, exempelvis en reaktion på insatsen eller ett försämrat funktionstillstånd orsakat av skov. Författarna till studien ska ha beräknat effekten av insatsen på variabler som mätts upp vid baslinjen innan insatsen gavs. Om de tar in nya variabler efter att insatsen getts går det inte att bedöma om utfallet har påverkats av insatsen.

När confounders är kända går det att ta hänsyn till dem genom att justera för dem statistiskt om det finns tillgång till valida och reliabla data. Med en sådan analys får man en mer rättvisande skattning av orsakssambandet. När sådana data saknas kan de i vissa fall ersättas av data som motsvarar confoundern, exempelvis viktnedgång, för att kontrollera för allvarlighetsgrad av tillstånd, eller utbildningsnivå och inkomst för att kontrollera för socioekonomisk status.

Det är sällsynt att en NRSI-studie har en låg grad av confounding. Vid bedömning av risk för bias i studier där forskarna har kontrollerat för confounders är det därför viktigt att bedöma om analysen varit genomtänkt och om det finns risk för kvarvarande confounding (eng. residual confounding). Det kan dock vara svårt att upptäcka och det är rimligt att anta att det alltid finns en kvarvarande risk för confounding. Läs mera om hantering av confounders i Faktaruta 5.5.

Det finns flera metoder som är lämpliga för att kontrollera för uppmätta confounders. De är stratifiering, regression, matchning och invers probabilitetsviktning. I en del fall kan man använda ”negativa kontroller” för att mäta om effekten fanns i gruppen innan deltagarna fick insatsen. Varje metod förutsätter att det inte finns några confounders som inte har blivit uppmätta eller några kvardröjande effekter av confounders (eng. residual confounding).

Residual confounding är den kvarvarande kumulativa effekten av confounders som inte har hanterats. Om denna effekt finns, och vilken betydelse som kvarvarande confounders har, är en tolkningsfråga. Om bedömningen är att det finns kvarvarande confounding, kan det vara bra att utreda om detta leder till en överskattning eller underskattning av effekten.

Det finns metoder för att reducera antalet kontrollerade confounders, till exempel directed acyclic graphs, DAGs, eftersom det annars leder till en överjustering, som kan orsaka andra typer av bias. Att justera för många confounders i exempelvis en regressionsanalys är inte alltid statistiskt lämpligt.

5.1.1.4 Domän 1B: Risk för selektionsbias (NRSI-studier)

Selektionsbias, så som den definieras i Cochranes granskningsmall, inträffar när studiedeltagare eller utfall exkluderas på ett sätt som påverkar sambandet mellan insatsen och utfallet. Selektionsbias kan alltså kopplas till både insats och utfall. Till skillnad från confounders uppstår selektionsbias som en följd av brister i studieprocessen. Det finns flera typer av selektionsbias och de kan uppstå både vid baslinjen och efter att insatsen påbörjats, se Faktaruta 5.6. Selektionsbias ska inte blandas ihop med bortfall (Domän 3 Avsnitt 5.1.2.6).

Exempel på selektionsbias: Författarna till en studie vill studera om balansträning förebygger fallolyckor bland äldre. Om de väljer bort de äldsta deltagarna i insatsgruppen riskerar de att introducera selektionsbias. Det beror på att de förlorar data för de deltagare som både har den största risken att råka ut för en fallolycka och den minsta möjligheten att genomföra ett träningsprogram. Författarna kan till exempel välja bort de äldsta redan vid baslinjen för att de bedömde att det skulle bli alltför ansträngande för dem att delta, eller senare för att fler skador uppstod hos dem än hos övriga deltagare.

Lead time bias: Lead time bias uppstår när resultaten snedvrids beroende på vilken tidsperiod man räknar som ett förlopp, särskilt i fall där man räknar upptäckten av ett tillstånd eller behov som startpunkten. Vissa tillstånd eller behov behöver tid för att utvecklas till märkbara symtom eller uttalade behov. Livslängden vid till exempel äggstockscancer skulle till exempel bli olika lång om den mäts den från det att symtom uppstår, vilket brukar vara sent i processen, jämfört med om den upptäcks den redan innan det genom att screena. Ett annat exempel kan vara att man fastställer tidpunkten för när ett stödbehov uppstår till det datum när ansökan om stöd enligt Socialtjänstlagen görs. Behovet av stöd kan ha uppstått långt innan ansökan gjordes.
Immortal time bias: Immortal time bias uppstår när analysen även innehåller utfall som inte kan vara ett resultat av insatsen eftersom de har uppmätts under fel tidsperiod. Ett exempel är om utfallet inträffar före insatsen men rapporteras som ett resultat, som när tiden mellan gruppindelning och insats är så lång att de sjukaste deltagarna hinner dö innan insatsen påbörjas och rapporteras som utfallet ”död” i studien. Om de som har dött istället räknas in som icke behandlade leder det å andra sidan till en selektiv felklassificering. Ett annat tillfälle då immortal time bias kan uppstå är i studier med långa uppföljningstider.

Det finns statistiska metoder, till exempel invers probabilitetsviktning (Faktaruta 5.7), som statistiskt kan justera för selektionsbias men ofta saknas data för att genomföra sådana.

5.1.1.5 Domän 1C: Risk för bias från klassificering av deltagaregenskaper och insatser (NRSI-studier)

Denna typ av bias uppstår främst i retrospektiva studier. I prospektiva studier finns ofta en ordningsföljd för arbetsprocessen som liknar den i randomiserade studier (Faktaruta 5.8).

Faktaruta 5.8 Arbetsprocess för prospektiva och retrospektiva studier.

Prospektiva studier

Rekrytering → gruppindelning → baslinjemätning → insats → uppföljning och datainsamling → analys.

Skillnaden uppstår framför allt i metoden för gruppindelning, där ordningsföljden i en retrospektiv studie kan avvika betydligt.

Retrospektiva studier

Datainsamling av deltagaregenskaper och resultat från register eller journal → gruppindelning baserad på deltagaregenskaper såsom diagnos, funktionstillstånd, exponering eller vilken insats som givits eller erbjudits → analys.

Det betyder att det i retrospektiva studier går ha tillgång till både deltagaregenskaper och resultat redan innan man delar in deltagarna i grupper. I retrospektiva studier är det därför viktigt att beskrivningen av grupperna framgår tydligt och att författarna har försökt minska risken för felklassificering. Exempel på uppgifter som är viktiga att redovisa är typ av insats, dos, antal sessioner, hur länge insatsen givits eller pågått och tidpunkt för när insatsen startat.

Felklassificering behöver inte leda till bias. Bias uppstår endast om felklassificeringen påverkas av utfallet (eng. differential misclassification). Risken för bias minskar om data som används till klassificeringen samlas in innan resultatet är känt. Om det inte är möjligt kan data samlas in på ett sätt som förhindrar kännedom om insats och resultat före klassificering och gruppindelning, exempelvis genom att data om utfallet hålls dolt för de som klassificerar grupperna, se Faktaruta 5.9.

Faktaruta 5.9 Olika typer av bias som kan uppstå vid klassificering av deltagare och insatser.

Information bias (Informationsbias): Data kommer från otillförlitliga källor och register.
Measurement bias (Mätbias): Mätfel från felkalibrerade instrument, standardiserade bedömningsmetoder med låg mätsäkerhet och tillförlitlighet (exempelvis frågeformulär), avsaknad av användning av standardiserade bedömningsmetoder, eller mätningar och bedömningar baserade påsjälvrapporterade data.
Observer bias (Observatörsbias): När den som genomför studien känner till grupptillhörigheten kan förväntanseffekter påverka tolkningen av data.
Recall bias (Minnesbias): Minnet hos dem som deltar kan vara påverkat av kännedom om eller upplevelser och erfarenheter kopplade till nuvarande tillstånd eller behov.

5.1.1.6 Domän 2: Risk för bias från avvikelser från planerade insatser (RCT- och NRSI-studier)

Om det uppstår avvikelser från de insatser som författarna hade planerat att undersöka behöver de beskriva orsaken till att avvikelserna uppstått, hur stora de är och om de skett i lika stor utsträckning i alla grupperna.
För information om val av mall ITT eller PP, se Faktaruta 5.10.

Faktaruta 5.10 ITT eller PP?

Innan denna domän bedöms behöver man ta ställning till vilken övergripande frågeställning projektet avser att besvara. Gäller frågan effekten av att tilldelas eller erbjudas en insats (eng. intention to treat, ITT) eller att fullfölja respektive använda en insats per protokoll (eng. per protocol, PP). Stödfrågorna i den här domänen är olika för mallarna för ITT och PP. Vilka stödfrågor eller vilken mall som passar bäst beror på den övergripande frågeställningen för projektet och inte hur forskarna har analyserat resultaten i de enskilda studierna.

Ett exempel: Översikten gäller effekten av träning på recept. Om frågan gäller (A) vilken effekt det har att hälso-och sjukvården skriver ut ett recept vid ett specifikt tillstånd är vi intresserade av effekten att tilldelas en insats. ITT-varianten är således ett lämpligt val för denna frågeställning. Om frågan gäller (B) effekten av att genomföra den träning som getts via recept är vi intresserade av effekten av att fullfölja en insats och väljer PP-varianten.

I fallet (A) kommer de inkluderade studier som enbart presenterar per protocol (PP)-analys med största sannolikhet att bedömas ha hög risk för bias i domän 2, då de analyserar och presenterar resultat som kan vara snedvridna utifrån vår övergripande fråga. Ett annat exempel är frågeställningar om vilken effekt det har att beviljas en insats enligt socialtjänstlagen, som hemtjänst, respektive vilken effekt det har att faktiskt ta emot hemtjänstinsats. Att beviljas en hemtjänstinsats behöver inte innebära att den som har behov av den faktiskt använder den, exempelvis för att förutsättningarna för hur den utförs upplevs negativt på något sätt och att anhöriga istället tillgodoser behovet. Det kan handla om upplevelse av integritetskränkning, för många olika personer som utför insatsen eller språkförbistring mellan den som beviljas hemtjänst och den som utför den. Är avsikten att utvärdera effekt av faktisk användning av hemtjänstinsatser är det PP-varianten som ska användas.

Risken för bias ökar om deltagarna i studien eller de forskare och personal som genomför, beslutar om eller utför insatsen känner till vilken grupp deltagarna tillhör, och självklart också om de båda känner till det. Det kan påverka en deltagares upplevelse både positivt och negativt om hen känner till vilken grupp hen tillhör. Till exempel kan en deltagare ändra sitt beteende eller uppleva ett större behov av en insats om man vet att man ingår i en jämförelsegrupp. Det kan leda till att resultaten i någon av grupperna blir felaktiga eller överdrivna. De som utför insatsen kan också börja behandla eller bemöta deltagare olika på grund av att de känner till vilken grupp de tillhör, exempelvis genom att ge extra uppmärksamhet, stöd eller omsorg till någon av grupperna.

Ytterligare exempel på avvikelser som kan uppstå är att deltagare byter, låter bli att använda eller inte längre beviljas en insats och deras grupptillhörighet därmed förändras. Förändrad grupptillhörighet kan vara frivillig eller ofrivillig. Ett exempel på det senare är att ansökan om assistansersättning eller ekonomiskt bistånd inte längre beviljas vid omprövning av beslut. Att avstå från att använda en beviljad hemtjänstinsats, som inte behöver innebära att behovet saknas utan istället bero på att den enskilda personen upplever hemtjänstinsatsens utformning negativ och att anhöriga istället tillgodoser behovet, är ett exempel på avvikelse av mer frivillig karaktär. Det kan också vara i linje med hur vård normalt brukar ges.

Deltagare kan också avvika från en planerad insats för att grupptillhörigheten inte är dold, vilket är vanligt inom svensk socialtjänst och funktionshinderrelaterade insatser. För att få erbjudande om en sådan insats måste den enskilde nämligen i de flesta fall själv ansöka om den. Om en stor andel av deltagarna förändrar sin grupptillhörighet kan det i randomiserade studier medföra att den slumpmässiga fördelningen går förlorad. Ett riktmärke ur en statistisk synvinkel är att 5 procent kan räknas som en stor andel.

Ytterligare avvikelser som kan uppstå är så kallad bristande metodtrohet, det vill säga avvikelser från instruktioner eller steg som ingår i en insats. Som exempel kan vi utgå från en utvärdering av insatsen individanpassat stöd till arbete (IPS) som är en arbetslivsinriktad insats för personer med funktionsnedsättning och baseras på ett antal grundprinciper. Om den som ger det individanpassade stödet inte följer grundprinciperna uppstår avvikelse i form av bristande metodtrohet.

Avvikelser kan också uppstå av exempelvis kliniska eller praktiska anledningar som skulle ha inträffat oavsett om det pågick en studie eller inte.

5.1.1.7 Domän 3: Risk för bias från bortfall (RCT- och NRSI-studier)

Med bortfall menas sådana datautfall som planerats att ingå i analysen men av olika orsaker inte finns tillgängliga. Bortfall kan kopplas till enskilda individer eller enstaka mätpunkter, som exempelvis saknas för att:

deltagarna avbryter medverkan eller inte kan lokaliseras (eng. lost to follow-up)
deltagarna inte deltar fullt ut eller inte kan delta i en uppföljningsmätning
mätresultat förloras eller inte finns tillgängliga av andra anledningar (eng. missing data).

Bias kan exempelvis uppstå om bortfallet är obalanserat mellan grupperna, att orsakerna till bortfall är obalanserat eller om det finns skillnader i utfallen mellan de som föll bort och de som var kvar i studien.

Det finns inga tydliga regler för vad som kan anses vara ett högt bortfall. I manualen för ROB-2 står att för kontinuerliga utfallsmått är det osannolikt att resultatet snedvridits om bortfallet understiger 5 procent. För dikotoma utfallsmått är risken för bias förknippad med risken för utfallet, vilket betyder att ett lågt bortfall kan leda till bias om utfallet är sällsynt. Läs mer här.

Även om bortfallet är lika stort i grupperna kan orsakerna till det skilja sig åt mellan dem. Ett exempel är att deltagare kan vara mer benägna att avbryta sin medverkan i en studie om de till exempel drabbas av biverkningar eller oönskade händelser, och om det i högre grad inträffar i gruppen som får insatsen kan resultatet bli snedvridet. Biverkningar kan exempelvis vara viktförändringar vid behandling med SSRI-läkemedel som påverkar deltagarnas motivation att medverka i en sådan läkemedelsstudie. En oönskad händelse kan vara att deltagarna förblir arbetslösa för att de inte erbjuds en aktiv arbetsmarknadsinsats.

Trots bortfall kan resultatet av en studie vara robust om författarna hanterar bortfallet i analysen och gör sensitivitetsanalyser (känslighetsanalyser). Detta är en metod för att bedöma hur undersökningsresultat påverkas av olika förändringar.

Det finns sätt för studieförfattarna att hantera bortfallet statistiskt och alla har fördelar och nackdelar. Nedan finns tre exempel:

ta bort ofullständiga observationer (eng. complete case analysis), men tänk på att detta riskerar att introducera bias och att den statistiska teststyrkan minskar
imputera genom att lägga in saknade värden före analysen (Faktaruta 5.11).
analysera ofullständiga data med en metod som inte kräver ett komplett dataset (Faktaruta 5.12).

5.1.1.8 Domän 4: Risk för bias från mätning av utfallet (RCT- och NRSI-studier)

Om de som mäter utfallet är medvetna om vilken grupp deltagarna tillhör finns det risk för bias för att de medvetet eller omedvetet kan bidra till att snedvrida resultatet. Därför är det viktigt att de som mäter utfallet är blindade. Om de känner till grupptillhörigheten kan det exempelvis leda till att effekterna av en insats överskattas. Överskattningen blir ofta större när utfallsmåtten grundas på en subjektiv bedömning.

När den som har mätt utfallet i en studie inte har blivit blindad och det kan ha påverkat utfallet finns det flera saker att ta hänsyn till vid bedömning av risk för bias. Exempel är att beakta vilka förväntningar och preferenser den som mäter utfallet kan ha haft, hur mycket denne har medverkat i deltagarens insatser och om andra parter i studien kan ha påverkat.

Den som mäter utfallet kan vara:

deltagaren själv
den som beslutar om eller utför insatsen
en observatör.

När deltagaren själv mäter utfallet kallas det självrapporterat utfall, och kan till exempel vara livskvalitet och poäng på en skattningsskala. Data erhålls exempelvis genom intervjuer, frågeformulär eller dagböcker. Deltagaren betraktas som bedömare även om en blindad intervjuare ställer frågor och fyller i ett formulär. Bedömningen kan ha påverkats genom kännedom om insatsen.

Den som beslutar om eller utför insatsen kan också mäta utfallet genom att undersöka eller bedöma deltagarnas behov av stöd, eller fatta ett beslut grundat på den undersökningen eller behovsbedömningen. Utfallet blir då själva beslutet. Ett exempel på det är beslut om sjukhusinläggning eller ledsagarservice, beslut om att avsluta en insats, remittera vidare eller att avslå en ansökan. Om den som ska fatta beslutet vet vilken grupp en deltagare tillhör eller vilka förutsättningar hen har kan det påverka bedömningen och beslutet.

En observatör som inte är direkt inblandad i insatsen kan också mäta utfallet. Om utfallet inte påverkas är det inte ett problem att ha kännedom om insatsen. Exempel på detta är dödlighet oavsett orsak. Om utfallet däremot kräver en viss grad av bedömning, som att bedöma vem som har rätt till insatser enligt SoL eller LSS, granska röntgenbilder eller bedöma kliniska händelser, kan utfallet påverkas om observatören känner till vilken grupp deltagaren tillhör eller vilka förutsättningar denne har för insatsen.

5.1.1.9 Domän 5: Risk för bias från rapportering (RCT- och NRSI-studier)

Selektiv rapportering kan innebära att vissa utfallsmått inte rapporteras i en studie även om de har mätts. Selektiv rapportering kan också innebära att endast utvalda mätningar eller analyser av ett utfallsmått redovisas och ingår i bedömningen av risk för bias. Observera att denna domän inte omfattar bias som uppkommer på grund av att vissa primärstudier inte publiceras. Sådana avvikelser bör behandlas i samband med att man gör en bedömning av publikationsbias i GRADE (Avsnitt 8.1.5).

För att kunna bedöma om författarna medvetet valt ut vissa mätningar eller analyser behöver man gå igenom innehållet och tidpunkten för publicering av studiens protokoll eller statistiska analysplan, se Faktaruta 5.13 [30]. Det är viktigt att kontrollera att de publicerade analyserna verkligen var planerade före studien startades.

Definierades undergrupperna på ett ovanligt sätt?
Finns det skillnader mellan vilka deltagare som analyserades i studierna?
Användes olika tröskelvärden för att skapa kategorier i olika publikationer av samma studie?
Användes ett ovanligt sammansatt mått (även kallat kompositmått)?
Har subskalor aggregerats på ett ovanligt sätt?
Finns det en skillnad mellan vad som är primära eller sekundära utfallsmått i olika publikationer?
Gjordes en eller flera justerade analyser som inte rapporterades?
Gjordes analyser med imputering och redovisades de utan motivering?
Användes flera imputeringsmetoder utan att resultatet av alla dessa redovisades?

Vid risk för bias-bedömning ska såväl storlek som riktning och statistisk signifikans för estimaten tas i beaktande. Om det exempelvis finns bevis för att några mått eller analyser i en placebokontrollerad studie inte har rapporterats, men det redovisade resultatet är icke-signifikant, eller visar på nära ingen effekt, kan det antas att det är mindre sannolikt att studieförfattarna har valt det rapporterade estimatet baserat på dess resultat.

5.1.1.10 Domän 6: Intressekonflikter och jäv

Bedömningen av risken för att resultatet påverkats av intressekonflikter görs först i delmoment 3, som beskrivs nedan. Först sammanvägs risken för bias i enskilda utfall.

5.1.2 Delmoment 2: Sammanvägd risk för bias i ett enskilt utfall

Bedömningen avslutas med en sammanvägning av risken för bias för varje utfall per studie. Den grundar sig på överväganden om hur riskerna påverkar utfallet totalt sett. Som tumregel gäller följande för låg respektive hög risk för bias:

för att utfallet ska bedömas ha låg risk för bias totalt sett ska risken ha bedömts som låg i samtliga domäner
för att utfallet ska bedömas ha hög risk för bias totalt sett ska risken vara hög i minst en domän eller studien ha måttlig risk i flera domäner.

Det är värt att notera att detta endast är en tumregel och det viktigaste är att bedöma och redovisa hur risken för bias kan ha påverkat utfallet. Om projektgruppen har valt som princip för sitt arbete att ta med studier med hög risk för bias (Faktaruta 2.1) gäller att denna dels fullföljs, dels har beskrivits och motiverats.

NRSI-studier kan också ha en oacceptabelt hög risk, då minst en av domänerna bedöms ha oacceptabelt hög risk för bias. Utfallet från sådana primärstudier bör inte ingå i det fortsatta arbetet då det påtagligt kan snedvrida resultatet.

5.1.3 Delmoment 3: Sammanställning av total risk för bias per utfall för samtliga primärstudier

Det kan vara bra att sammanställa bedömningarna av risk för bias för samtliga inkluderade primärstudier. Exempelvis går det att göra en översiktlig tabell över risk för bias i Excel. Studiernas bedömda risk för bias visas lämpligen med färger och symboler för de olika domänerna. Ett grönt fält kan symbolisera att studien har låg risk för bias i den specifika domänen, en gul markering symboliserar måttlig risk för bias, medan ett rött fält symboliserar hög risk för bias. Med hjälp av exempelvis RevMan, ett verktygsprogram för systematiska översikter framtaget av Cochrane Collaboration, eller verktyget robvis, kan man också ta fram en sådan tabell.

5.2 Risk för bias i primärstudier om exponering

Primärstudier som utvärderar exponering undersöker om det finns ett samband mellan en exponeringsfaktor och ett utfall. Exponeringsfaktorer kan exempelvis vara en socialtjänstinsats som särskilt boende för äldre, buller på en arbetsplats eller substansmissbruk. Det är dock mycket svårt att dra slutsatser om orsakssambandet (det kausala sambandet) mellan exponeringsfaktor och utfallet i exponeringsstudier, eftersom confounding utgör ett hinder för detta. Det kan också vara praktiskt omöjligt eller oetiskt att tilldela deltagare vissa insatser för att sedan kunna mäta ett utfall. Den som vill studera effekter av tobaksbruk eller höga krav i arbetet kan inte vänta sig att finna studier där deltagarna blivit tilldelade en intervention. Detsamma gäller om en insats förutsätter att den enskilde personen själv ansöker om en sådan, såsom flertalet av socialtjänstens insatser. Det är inte aktuellt att ”tilldela” en insats i dessa sammanhang, utan insatsen kräver en enskild ansökan och därefter beslut om att bevilja insats. Då är observationsdata lämpliga för att undersöka sambandet mellan en exponeringsfaktor, självvald eller inte, och ett utfall.

SBU har tagit fram en granskningsmall för exponeringsstudier. Syftet med mallen är att vara ett stöd för de projekt som utvärderar olika typer av samband och bör justeras för att passa frågeställningarna i det aktuella projektet. Granskningsmallen kan användas för såväl prospektiva som retrospektiva studier, inklusive registerstudier.

5.2.1 Delmoment 1: Innan bedömning av enskilda domäner, selektionsbias som tillägg och om confounders

Risken för selektionsbias behöver övervägas innan bedömningen påbörjas. Om detta inte redan är gjort i relevansgranskingen så behöver detta läggas till som en domän i mallen.

Confounders är avgörande vid bedömning för risk för bias av exponeringsstudier. Om frågeställningen är om det finns ett orsakssamband mellan exponering och utfall kan dessa studier ofta inte medge sådan slutsats. Identifiering och hanteringen av confounders behöver diskuteras innan risk för bias-granskningen påbörjas. En rekommendation är om några confounders är betydande och en studie inte alls har beaktat dessa, bör den anses ha en oacceptabelt hög risk för bias.

SBU:s granskningsmall för exponeringsstudier omfattar 6 olika domäner.

5.2.1.1 Domän 1: Risk för bias från confounding

I exponeringsstudier finns det ofta flera confounders. Ibland har författarna till studien justerat för många confounders, och då kan det finnas en viss risk för överjustering. Ibland har de tvärtom justerat för få eller inga confounders. Olika studieförfattare justerar inte heller nödvändigtvis för samma confounders. Första steget är därför att bedöma om studien har tagit hänsyn till confounders som är viktiga, om de är mätta på valida och reliabla sätt och hanterade på ett rättvisande sätt.

Graden av exponering kan variera över tid och hänsyn behöver tas till om exponeringen är någorlunda stabil över tid. Om den inte är det ökar risken för bias. Saknas upprepade mätpunkter som visar på hur exponeringen varierar över tid är det dock mycket svårt att bedöma detta.

Det finns avancerade metoder för att ta ställning till vilka confounders som bör justeras för, till exempel kausal analys med hjälp av DAG (directed acyclic graphs), eller olika matchningsmetoder, som till exempel propensity scores. Om sådana metoder använts kan det visa att författarna väl har hanterat confounding-problematik.

5.2.1.2 Domän 2: Risk för bias från exponering

Exponeringen behöver vara väl definierad och beskriven i primärstudierna för att det ska vara möjligt att jämföra olika exponeringar eller studera hur olika exponeringsnivåer eller exponeringssätt påverkar olika utfall. Om det är otydligt hur deltagarna har klassificerats kan det leda till högre risk för bias. Vid bedömning av risk för bias från exponering kan det därför vara bra att fundera på hur studien har hanterat exponering och vilka mätmetoder författarna har använt. Är exponeringsdata till exempel insamlade med subjektiva eller objektiva metoder? Är exponeringen mätt på samma sätt för alla individer, grupper eller observationer? Många exponeringar är inte kategoriska utan har snarare gradskillnader. Då kan det vara bra att först bedöma om det finns en rimlig kontrast mellan att vara exponerad och icke-exponerad.

5.2.1.3 Domän 3: Risk för bias på grund av bortfall

Vad som räknas som ett stort bortfall är olika beroende på vad som studeras. Det är därför ofta svårt att bedöma den här domänen i exponeringsstudier. Ibland finns det ett högt bortfall på grund av att deltagare faller bort, till exempel i en kohortstudie där personer kan flytta eller hoppa av studien, eller på grund av många saknade data, exempelvis på grund av låg svarsfrekvens för enskilda frågor. En rekommendation kan därför vara att framför allt fokusera på om det finns selektivt bortfall, det vill säga där bortfallet skiljer sig mellan grupperna för insats och jämförelse. Ibland kan studiepopulationen vara definierad på ett sådant sätt att inget bortfall förekommer. Studiepopulationer och data som kommer från register är till exempel ofta definierade utifrån att det finns värden på exponering och utfall för alla individer men saknar de individer som inte hade alla värden. Resultaten kan då bli svåra att överföra till den aktuella frågeställningen. Om sådana problem finns kan avdrag göras i GRADE på grund av brister i överförbarhet.

5.2.1.4 Domän 4: Risk för bias från mätning av utfallet

Bedömning av denna domän baseras i möjligaste mån på samma överväganden som för randomiserade studier. Om det är subjektiva utfallsmått som ska utvärderas, där till exempel studiedeltagare själva gjort bedömningarna, är det viktigt att bedöma om deltagarna kan ha påverkats av vetskapen om sin exponering.

5.2.1.5 Domän 5: Risk för bias från selektiv rapportering

Selektiv rapportering kan innebära att studieförfattarna inte rapporterar vissa utfallsmått även om de har mätts. Exempel på detta kan vara att de bara rapporterar resultat från en mätning med en särskild metod trots att de har använt flera metoder eller att de bara redovisar en del av mätpunkterna. Studieförfattarna kan också ha valt att bara redovisa en specifik analys från flera analyser de har gjort eller resultatet för utvalda subgrupper och inte för hela kohorten. Denna domän är svår att bedöma för just exponeringsstudier eftersom det kan finnas många analysmöjligheter och kanske inget självklart svar på hur data bör analyseras. För att frågan ska kunna besvaras säkert behövs tillgång till studiens protokoll och analysplan för att kunna ta reda på vad som planerades från början av studien. Hur ett specifikt projekt ska hantera detta diskuteras lämpligen inom projektgruppen innan bedömningen risk för bias påbörjas.

Utfall som inte är tillräckligt redovisade betraktas som del av publikationsbias. Dessa hanteras i en eventuell GRADE-bedömning.

5.2.1.6 Domän 6. Intressekonflikter och jäv

För att bedöma om det förekommer någon jävs- eller intresseproblematik i studien kan man behöva ta hänsyn till olika personspecifika förhållanden. Här kan det vara bra att ta hjälp av någon som har kännedom om det aktuella forskningsområdet, förutom det författarna själva uppger.

5.2.2 Delmoment 2: Sammanvägd risk för bias i ett enskilt utfall

Nästa steg är att bedöma studiernas övergripande risk för bias totalt sett för varje utfall. I ROB-mallarna står det att om en domän bedöms ha hög risk för bias ska utfallet totalt sett bedömas ha hög risk för bias. Avsteg från denna princip kan bli aktuell vid bedömning av exponeringsstudier.

5.2.3 Delmoment 3: Sammanställning av total risk för bias per utfall för samtliga studier

5.3 Risk för bias i studier om diagnostisk tillförlitlighet

Sensitivitet och specificitet påverkas av olika typer av bias. Några av dem överensstämmer med de som finns för andra studietyper, till exempel bias som uppstår när den som tolkar resultaten inte är blindad (Faktaruta 5.3). Andra är specifika för diagnostisk tillförlitlighet. Det finns en systematisk översikt som undersökt hur sensitivitet och specificitet påverkas av olika typer av bias [90]. Resultatet har sammanfattats i en tabell som finns här.

Studier om diagnostisk tillförlitlighet bedöms med stöd av granskningsmallen QUADAS-2 (quality assessment of diagnostic accuracy studies version 2) [91]. QUADAS-2 är i första hand utvecklad för att bedöma tvärsnittsstudier. Den är inte avsedd för att bedöma studier om prediktion. SBU har översatt mallen till svenska, som nås här. Den engelskspråkiga versionen med sina detaljerade instruktioner finns på webbplatsen för Bristol University.

Om frågeställningen gäller en jämförelse mellan flera olika tester eller bedömningsmetoder och referenstest finns en granskningsmall med anpassade frågor som heter QUADAS-C. Denna återfinns i sin helhet här.

Om frågeställningen gäller psykometriska egenskaper har COSMIN olika typer av granskningsmallar tillgängliga.

QUADAS-2 består av fyra domäner med tillhörande stödfrågor (eng. signalling questions) om:

population
indextest
referenstest
tid och flöde.

Precis som i övriga granskningsmallar bedöms först risken för varje enskild domän och sedan görs en sammanvägd bedömning av den totala risken. Till skillnad från övriga granskningsmallar tar QUADAS-2 upp såväl risk för bias som aspekter på tillämpbarhet, det vill säga hur väl studierna svarar på översiktens frågeställning, under varje domän (Figur 5.1).

Figuren innehåller fyra rutor med bedömningsområdena, population, indextest, referenstest samt tid och flöde. Dessa ligger sedan till grund för den sammanvägda bedömningen.

Översiktsförfattare kan behöva anpassa QUADAS-2-mallen innan granskning. Några signalfrågor kan vara överflödiga och andra kan behöva läggas till. Ett tips är att försöka undvika att lägga till för många signalfrågor. Det kan även vara bra att besluta om en acceptabel tid mellan indextestet och referenstestet. Ett tips är att testa signalfrågorna på ett mindre antal studier innan huvudbedömning.

QUADAS-2 rekommenderar att den som granskar en studie först ritar upp ett flödesschema för hur studien har genomförts. Det underlättar den fortsatta granskningen.

5.3.1 Domäner i QUADAS-2

5.3.1.1 Domän 1: Population (urval av deltagare)

1 a) Risk för bias: I idealfallet ska en studie rekrytera ett brett spektrum av deltagare genom antingen ett konsekutivt urval, det vill säga ett urval där alla deltagare uppfyller ett antal specificerade kriterier, eller ett randomiserat urval med olika risk för att deltagarna har tillståndet, behovet eller problemet i fråga. Om spektrumet är smalt finns det risk för att sensitiviteten överskattas, så kallad spektrumbias [90]. Undvik fall–kontrollstudier eftersom de endast inkluderar deltagare som antingen har eller inte har det aktuella tillståndet eller behovet. Spektrumbias uppstår även i studier med randomiserat eller konsekutivt urval om vissa deltagare systematiskt utesluts, vilket kan leda till att resultaten överskattas såväl som att de underskattas.

1 b) Tillämpbarhet: Det kan finnas flera orsaker till att en studie brister i tillämpbarhet. För att identifiera bristerna undersöks i vilket skede av den diagnostiska processen som testet eller bedömningsmetoden är tänkt att användas och om deltagarna är mer eller mindre selekterade. Demografiska skillnader kan också påverka hur tillämpbara resultatet från en studie är, liksom hur svårt eller vanligt det undersökta tillståndet, behovet eller problemet är i olika populationer. En högre prevalens ökar sensitiviteten och minskar specificiteten [90].

5.3.1.2 Domän 2: Indextest och bedömningsmetod

2 a) Risk för bias: Denna domän avser två aspekter, blindning och val av tröskelvärde. Om testet eller bedömningsmetoden genomförs efter referenstestet och författarna känner till resultatet från referenstestet kan det påverka deras tolkning.

Många tester eller bedömningsmetoder har tröskelvärden, som kan vara mer eller mindre etablerade. I en del studier kan författarna ha valt att inte definiera tröskelvärdet i förväg utan välja det efteråt för att optimera testets eller metodens prestanda, ett så kallat datadrivet tröskelvärde. Det kan höja risken för bias.

2 b) Tillämpbarhet: Om testet eller bedömningsmetoden genomförs eller tolkas på ett annorlunda sätt än författarna angav i forskningsfrågan kan tillämpbarheten minska. Resultaten från testet kan till exempel tolkas av specialister i studien, medan det i praktiken är tänkt att användas av personer med mindre kunskap och erfarenhet. Specialistens kunskap om testet kan vara avgörande och testet fungerar då inte på samma sätt för de med mindre kunskap. Olika versioner av test och bedömningsmetoder kan också utgöra ett problem eftersom de kan skilja sig åt.

5.3.1.3 Domän 3. Referenstest eller jämförande bedömningsmetod

3 a) Risk för bias: Referenstestet kan ge upphov till risk för bias. Ett referenstest är till för att klassificera tillståndet eller problemet med hundraprocentig korrekthet. Resultatet kan dock påverkas om referenstestet har genomförts eller tolkats på ett bristfälligt sätt. Det kallas felklassifikationsbias och leder vanligen till att sensitiviteten överskattas [88].

Om studieförfattarna har gjort indextestet eller den bedömningsmetod som utvärderas före referenstestet kan det också öka risken för att de blir påverkade av vad indextestet visade.

3 b) Tillämpbarhet: Frågan om tillämpbarhet gäller främst om tillståndet, behovet eller problemet är definierat på samma sätt i studien som i projektets frågeställning, det vill säga PIRO.

5.3.1.4 Domän 4: Tid och flöde

Om det går tid mellan testerna och bedömningarna kan det finnas risk för att tillståndet, behovet eller problemet hunnit förändras (till det bättre eller sämre), det vill säga att det finns risk för felklassificering eller felbedömning. Risken för att en fördröjning mellan tester eller bedömningar påverkar tillförlitligheten varierar mellan olika tillstånd, behov och problem. Några dagars fördröjning spelar till exempel mindre roll vid en kronisk sjukdom, bestående funktionstillstånd eller behov av hjälp i hemmet, men kan spela stor roll vid exempelvis akuta infektioner eller akut behov av skyddat boende vid våld i nära relation. Ett problem i sammanhanget är att vissa referenstester kan göras först efter en längre tid, till exempel referenstest vid en sjukdom där samtliga diagnostiska kriterier måste vara uppfyllda.

Flödet kan här syfta på tid men också till exempel patientflödet. Här kan verifikationsbias uppstå. Det innebär att studieförfattarna endast undersöker eller bedömer en del av deltagarna med det optimala referenstestet. Övriga deltagare undersöker eller bedömer de inte med något referenstest alls. Då rör det sig om partiell verifikationsbias. Men de kan också byta till en annan, enklare metod. Orsaker till ett sådant beslut kan vara att referenstestet är dyrt, integritetskränkande eller medför risker för deltagaren. Då rör det sig om differentiell verifikationsbias. Om resultatet av testet eller den bedömningsmetod som utvärderas påverkar valet av referenstest uppstår systematisk bias.

En andra aspekt av flöde rör bortfallet. Om inte alla deltagare som rekryterats finns med i analysen uppstår bias eftersom sådana som fallit bort tenderar att skilja sig systematiskt från dem som är kvar.

5.4 Risk för bias i studier om prediktionsfaktorer och prediktionsmodeller

Liksom för övriga granskningsmallar bedöms först risken för varje enskild domän och sedan görs en sammanvägd bedömning av den totala risken. Innan granskningen påbörjas kan mallarna behöva anpassas. Några signalfrågor kan vara överflödiga beroende på förutsättningarna för översikten och andra kan behöva läggas till. När projektgruppen kommit överens om vilka signalfrågor som ska ingå bör granskningsmallen testas på ett mindre antal studier.

5.4.1 Prediktionsfaktorer – QUIPS och QUAPAS

Studier om prediktionsfaktorer bedöms med stöd av granskningsmallarna QUIPS eller QUAPAS. QUIPS är i första hand utvecklad för att bedöma tvärsnittsstudier. Mallen är framtagen av Hayden och medförfattare [92], och en uppdatering av den pågår. QUAPAS är en mall som bygger på såväl QUADAS 2 som QUIPS och riktar sig mot studier som undersöker den prognostiska träffsäkerheten hos bedömningsinstrument eller tester. QUAPAS är framtagen av Lee och medförfattare [93]. SBU har inte översatt dessa mallar till svenska utan hänvisar till originalmallarna på engelska.

QUIPS-mallen består av sex domäner med tillhörande stödfrågor (eng. signalling questions):

study participation
study attrition
prognostic factor measurement
outcome measurement
covariate adjustment
statistical analysis and reporting.

QUIPS har i stödfrågorna ofta mer fokus på rapportering än risk för bias. Till dess att den uppdaterade varianten har publicerats kan mallen behöva ses över och eventuellt anpassas utifrån projekts frågeställning.

QUAPAS består av fem domäner med tillhörande stödfrågor (eng. signalling questions):

participants
index test/bedömningsmetod
outcome
flow and timing
analysis.

Likt QUADAS-2 så tar QUAPAS upp såväl risk för bias som aspekter på tillämpbarhet, det vill säga hur väl studierna svarar på översiktens frågeställning, under relevanta domäner.

5.5 Metodbrister i studier med kvalitativ metodik

Det finns flera sätt att beskriva tillförlitligheten hos resultat som baseras på kvalitativa studier [27]. Ett av dem bygger på den kvantitativa traditionen och bedömer validitet, reliabilitet och generaliserbarhet. Ett annat är att utgå från begrepp inom kvalitativ forskningstradition är trovärdighet (eng. trustworthiness) [94], som består av fyra komponenter (Faktaruta 5.14). Ett tredje sätt är att utgå från vetenskaplig stringens (eng. scientific rigour), ett begrepp som används bland annat i Cochrane Handbook.

Det är viktigt att kvalitativ syntes av forskning bygger på tillförlitliga studier. Det är också betydelsefullt att de kriterier som används för att bedöma trovärdigheten i kvalitativa studier i huvudsak bör överensstämma med de som används för att bedöma trovärdighet i studier med kvantitativ metodik.

För att en studie med kvalitativ metodik ska bedömas som trovärdig ska studiens frågeställning bäst besvaras med en kvalitativ metod, och valet av kvalitativ ansats ska motiveras. Forskaren bör även redovisa hur data och resultat relaterar till varandra, hur analysprocessen gått till och om det finns någon teorianknytning. Resultat och tolkningar ska beskrivas logiskt och begripligt.

Trovärdigheten ökar om tolkningen har verifierats, exempelvis genom att flera forskare analyserar materialet oberoende av varandra eller genom att preliminära tolkningar diskuteras med utomstående [27].

Det finns drygt 100 publicerade checklistor som stöd för att identifiera brister i genomförande och rapportering av kvalitativa studier [96] där Critical Appraisal Skills Programme (CASP) är ett av de mer etablerade. Ingen av checklistorna stödjer en bedömning av risken för att identifierade brister påverkar fyndens trovärdighet, något som även noterats av Cochrane Collaboration [97].

Helt nyutvecklad 2024 är CAMELOT, en mall för att bedöma metodbrister i primärstudier med kvalitativ metodik. Mallen innehåller fyra meta-domäner (som bl.a. gäller kontexten i vilken studien är utförd) och åtta metod-domäner (som gäller metodologin i utförandet).

SBU har utvecklat en granskningsmall som ger stöd för en bedömning av risken för att identifierade brister påverkar fyndens trovärdighet. Den är uppbyggd av olika domäner med tillhörande stödfrågor. Fokus ligger på att bedöma risk för att metodbrister påverkar resultaten. Detaljerad beskrivning av hur mallen används finns i dess vägledning.

5.5.1 Aspekter av metodbrister

Metodbrister granskas utifrån fem aspekter:

överensstämmelse mellan vetenskapsteoretisk underbyggnad av studien och dess syfte
urvalet av deltagare
datainsamling
analys av data
forskarens roll.

Varje aspekt ovan består i sin tur av tre moment:

För att underlätta rapportskrivningen görs innan bedömningen först en kort beskrivning av till exempel urvalsprinciper eller vilka metoder som användes för att samla in data.
Besvara frågorna som ska stödja bedömningen.
Överväg de identifierade bristerna och i vilken utsträckning det finns risk för att de påverkar fynden. Det finns tre fasta bedömningsalternativ:
1) Ja det finns en allvarlig risk; 2) Nej, risken bedöms inte vara allvarlig och 3) Oklart, det finns inte tillräcklig information för att bedöma risken.

Den sista delen av granskningen är att bedöma om studien sammanlagt har så allvarliga brister att den inte bör ingå i syntesen. Observera att en studie kan vara så klent beskriven att det inte finns underlag att bedöma de metodologiska riskerna och bör då inte ingå i syntesen.

6. Extraktion av data

Processen över att ta fram en HTA där delen Extraktion av data är markerad

Detta kapitel handlar om att extrahera data, det vill säga information från de inkluderade studierna och lägga in den i tabeller. Syftet är att de som läser översikten ska få en uppfattning om studiernas karakteristika utan att själva behöva läsa dem, samt att presentera resultaten från studierna överskådligt. Även detta steg bör göras av minst två personer för att minska risken för misstag. Antingen extraherar personerna information oberoende av varandra från samma studier och jämför sedan resultatet, eller så extraherar en person information och den andra kontrollerar.

Typiska uppgifter som bör finnas i tabellerna är

författare
beskrivning av populationen
beskrivning av den miljö som studien genomförts i
beskrivning av deltagarna i studien utifrån till exempel ålder och kön
beskrivning av insats och jämförelseinsats, alternativt indextest och referenstest
studiedesign
de utfallsmått som använts i studien.

Utöver detta så behöver även resultaten från studierna extraheras. Det händer att dessa behöver bearbetas så att de blir användbara i kommande metaanalyser och jämförbara mellan de inkluderade studierna.

När det gäller studier med kvalitativ metodik gäller att extrahera de meningsbärande enheterna från de inkluderade studierna. De aspekter av studien som är viktiga för förståelsen av studierna, såsom forskarens position, vetenskapsteoretisk ansats, sammanhang, datainsamlingssätt, analysmetod och resultat, ska också tabelleras.

7. Sammanvägning av resultat

Figur som visar Processen över att ta fram en HTA där delen Sammanvägning av resultatet är markerad

Detta kapitel handlar om att undersöka och väga samman resultaten från de studier som har inkluderats i den systematiska översikten och som utgör det vetenskapliga underlaget, och att bedöma om det går att dra några slutsatser utifrån dem. Detta kapitel tar upp några vanliga metoder för att väga samman empiriska resultat. För studier som bygger på kvantitativ metodik, till exempel effekter av insatser eller diagnostisk tillförlitlighet, kan det vara lämpligt att använda metaanalys. Beroende på analysmodell ger metaanalysen antingen en uppskattning av en antagen gemensam underliggande effekt (eller sensitivitet och specificitet) eller ett medelvärde av effekterna (eller sensitiviteten och specificiteten).

I kapitlet beskriver vi också principerna för nätverksmetaanalys och syntes utan metaanalys (eng. synthesis without meta-analysis, SWiM). För studier som har använt kvalitativ metodik finns flera metoder för att göra syntes av kvalitativ evidens. Några av dem beskrivs med exempel i Avsnitt 7.7.

7.1 Metaanalys för studier om effekter av insatser

Här nedan beskrivs översiktligt metoden för metaanalys. Mer detaljerad information finns till exempel i Introduction to Meta-analysis av Borenstein och medarbetare år 2009 [98], i Cochranes handbok för systematiska översikter från år 2023 [31] eller i litteratur som Handbook of Meta-analysis från år 2020 [99].

Metaanalysen utvecklades för att få fram mera pålitliga resultat genom att lägga samman data från flera enskilda studier med hjälp av statistiska metoder. Det gemensamma, sammanvägda resultatet uttrycks sedan vanligen som ett punktestimat med ett tillhörande osäkerhetsintervall, även kallat konfidensintervallet.

Eftersom en metaanalys består av flera studier och innehåller mer data än en enskild studie, leder det till att den så kallade teststyrkan (eng. power) ökar. En ökad teststyrka ger bättre möjligheter att upptäcka effekter som faktiskt finns, som skillnader mellan en insats- och en jämförelsegrupp. Eftersom både teststyrkan och antalet individer och händelser som ingår i metaanalysen är större än i enskilda studier kan man skatta ett effektmått som troligen ligger närmare det sanna värdet för den bakomliggande populationen, och inte bara för de individer som ingår i en viss studie (Faktaruta 7.1).

Ibland kan de studier som finns att tillgå vara alltför olika varandra för att det ska vara meningsfullt att beräkna ett sammantaget estimat. Det kan också vara så att resultaten i primärstudierna är rapporterade på sätt som inte alltid kan konverteras till en gemensam skala. Men även när en metaanalys inte kan användas för att beräkna punktestimatet kan tekniken ge värdefull information. Metaanalysen kan till exempel användas för att analysera olika källor till variation i materialet (till exempel urvalsfel och heterogenitet), och för att undersöka risken för publikationsbias i det vetenskapliga underlaget.

7.1.1 Utfallsmått i en metaanalys

En metaanalys gäller ett specifikt utfall som mätts på ett specifikt sätt. Ofta har dock studierna mätt utfallet på olika sätt, det vill säga informationen finns i fel format. Projektgruppen behöver då räkna om resultaten för att det ska gå att använda dem i analysen. Se Faktaruta 7.2 för en kortfattad genomgång av olika effektstorlekar som rapporteras i primärstudier.

Inom statistik är en effektstorlek ett mått på hur stark en insats är. Det används oftast att uttrycka storleken på ett generellt sätt som går att jämföra mellan studier, populationer, insatser, jämförelser, utfall och mätinstrument. Det är rapporterade effektstorlekar som vägs samman i systematiska översikter och metaanalyser. Primärstudier bör rapportera mått på effektstorlekar som komplement till testvärden och p-värden men om de inte gör det går effektstorlekarna oftast att beräkna utifrån andra statistiska uppgifter, som medelvärde och standardavvikelser.

Beroende på vilka egenskaper primärstudiens data har, om de till exempel bygger på diskreta eller kontinuerliga mått, vilken studiedesign den har och vilka dataanalyser författarna har gjort, kan effektstorlekar kategoriseras i ett mindre antal grupper.

Standardiserade medelvärdesskillnader (SMD)

Standardiserade medelvärdesskillnader (SMD) används vid utfallsvariabler mätta på kontinuerliga skalor. Denna effektstorlek är definierad som den standardiserade skillnaden mellan två gruppers medelvärden. Det som jämförs är medelvärdesskillnaden mellan insats- och jämförelsegrupperna dividerat med ett lämpligt mått på spridningen i data, det vill säga standardavvikelsen.

Tre vanliga SMD-mått är Cohens d, Hedges g och Glass Δ. Den enda skillnaden mellan dem är vilken standardavvikelse de använder som nämnare. De tre måtten kommer därför oftast att ge likartade skattningar av effektens storlek. SMD-måtten utvärderas sedan ofta enligt Cohens klassiska riktlinjer: minst 0,20 för en liten effekt, minst 0,50 för en mellanstor och minst 0,80 för en stor effekt. Dessa riktlinjer är dock i första hand framtagna för generella kliniska insatser. Senare statistiker har arbetat vidare för att ta fram mer lämpliga riktlinjer för specifika testsituationer och studiedesigner.

SMD är nära besläktat med t-testet för två oberoende stickprov. Detta värde och dess p-värde är direkt relaterade till stickprovens storlek, medan estimeringen av effekten, SMD, inte är det.

En SMD på 0 betyder ingen effektskillnad mellan insats- och jämförelsegruppen. SMD kan anta både positiva och negativa värden och tolkningen är alltid densamma: Ju längre från 0, desto större är effekten av den insats som studeras. Grafiskt visas det som att de båda fördelningarna överlappar varandra helt vid SMD = 0, och ju större magnitud, desto längre ifrån varandra hamnar fördelningarnas medelvärden.

Korrelationer och förklarad varians

Till skillnad från med standardiserad medelvärdesskillnad tänker man inte på effektstorleken som en skillnad mellan två fördelningars medelvärden, utan som graden av samvariation eller överlapp mellan hur två variabler fördelar sig. När korrelationer (Pearsons r) används som effektstorlek betraktas ofta en av variablerna som kriterievariabel (X) och en som utfallsvariabel (Y). Alla korrelationer är standardiserade till att variera mellan –1, som kallas ett perfekt negativt linjärt samband, och +1, som kallas ett perfekt positivt linjärt samband. Det gör tolkningen enkel: 0 innebär att det inte finns något samband eller någon effekt alls. Cohen har tagit fram riktlinjer också för denna typ av effektstorlek: minst 0,10 för en liten effekt, minst 0,30 för en medelstor effekt och minst 0,50 för en stor effekt.

En vanlig variant är att kvadrera r-värdet, för att få ett mått på förklarad varians. Värdet av r² är alltid positivt och anger hur stor andel av två variablers yta som sammanfaller i ett Venn-diagram. När primärstudier innehåller multipla regressionsanalyser, rapporteras ofta R², den samlade effekten av flera unika kritierievariablers bidrag till att förklara variationen i utfallsvariabeln. Den unika del av variationen som varje kriterievariabel förklarar uttrycks ofta som en standardiserad regressionskoefficient, β.

Det finns många närbesläktade mått som alla är varianter av r eller r², och anpassade för olika statistiska situationer, exempelvis r-motsvarigheterna τ, φ, λ, q, Cramérs C och Cramérs V. Andra mått på förklarad varians än r² är bland andra η², f² och ω². Det som skiljer alla dessa mått är om deras mätta variabler är diskreta eller kontinuerliga och om det finns andra begränsningar i antagandena. Det viktiga är att känna igen dessa som mått på effekten av en insats eller ett samband.

Riskdifferens, relativ risk och oddskvot

När data uttrycks i form av frekvenser, som antal personer, går det inte att räkna med medelvärden och standardavvikelser. Frekvensdata ställs därför ofta upp i 2x2-tabeller, med till exempel antal personer som har tillfrisknat respektive inte tillfrisknat inom insatsgruppen och jämförelsegruppen. En sådan uppställning gör nämligen att det går att ta fram olika effektstorleksmått. Alla handlar om sambandet mellan två dikotoma variabler.

Riskdifferensen (eng. risk difference, RD) är skillnaden mellan sannolikheten för ett visst utfall, som till exempel tillfrisknande, i de båda grupperna. Detta är ett absolut mått på skillnaden mellan grupperna. En fördel med det är att det oftast är lätt att förstå. En nackdel är att det är känsligt för eventuella variationer i baslinjedata mellan grupperna.

Den relativa risken, eller riskkvoten (eng. risk ratio, RR), är sannolikheten för ett utfall i en grupp satt i relation till sannolikheten för samma utfall i den andra gruppen. RR tas typiskt fram för RCT-studier och kohort-studier. Detta är ett relativt mått och därmed inte lika känsligt för variationer i baslinjedata som RD. Däremot är det viktigt att veta att en riskkvot kan vara stor även om den absoluta skillnaden mellan grupperna är väldigt liten, vilket ibland kan göra resultatets kliniska relevans svårtolkat.

Oddskvoten (eng. odds ratio, OR) är oddset för ett utfall i en grupp satt i relation till oddset för samma utfall i den andra gruppen. Inom medicinsk forskning ses OR ofta i fall–kontrollstudier. En fördel med OR är att det är ett användbart mått. Dessutom används OR som effektmått (motsvarande en regressionskoefficient) i logistisk regression. I det senare fallet kan man väga in inflytande från olika confounders i beräkningarna, vilket gör måttet användbart när samband ska studeras. Även OR är ett relativt mått, med samma för och nackdelar som RR.

För både RR och OR gäller att värdet 1 innebär ingen skillnad mellan grupperna. Ju större värde, desto större effekt. RR och OR ger ofta relativt lika resultat vid mindre storlekar på de studerade grupperna, men vid större stickprovsstorlekar ökar skillnaderna mellan dem. OR är då alltid mer extremt än RR. I Faktaruta 7.3 finns information om beräkning av RD, RR och OR.

Det finns konverteringsformler och flera olika webbverktyg som kan användas för att enkelt ta fram effektstorlekar från beskrivande uppgifter och även transformera effektstorlekar, till exempel från OR till d. Se till exempel Campbell collaboration eller Psychometrica.

Utfallsmått kan klassificeras som kategoriska eller kontinuerliga. Kategoriska mått hanterar ett begränsat antal nivåer, till exempel kan hjärtsvikt klassificeras som nedsatt, lätt, måttlig eller svår. Ett specialfall bland kategoriska mått är dikotoma, eller binära, mått som hanterar händelser som kan översättas till ettor och nollor. Det betyder att en händelse antingen har inträffat eller inte, till exempel om en individ har dött eller blivit dömd för ett brott. Kontinuerliga variabler hanterar mått som inte har några fasta nivåer, till exempel blodtryck, och uttrycks ofta som medelvärden eller medelvärdesskillnader.

För resultat som uttrycks med dikotoma eller kategoriska mått kan det sammanvägda resultatet, estimatet, uttryckas på flera sätt (Faktaruta 7.3).

Faktaruta 7.3 Några vanliga utfallsmått för kategoriska och dikotoma data.

	Händelse	Inte händelse	Totalt antal individer
Insatsgrupp	A	B	Tot exp (A+B)
Jämförelsegrupp	C	D	Tot kont (C+D)

Riskskillnad (eng. risk difference, RD): Absolut mått på skillnader i risk.
RD = (A/Tot exp) – (C/Tot kont)

Relativ risk (eng. relative risk, RR): Relativt mått, man bör notera att även små riskdifferenser kan ge stora riskkvoter. RR kan inte beräknas i fall–kontrollstudier.
RR = (A/Tot exp) / (C/Tot kont)

Oddskvot (eng. odds ratio, OR): Ett matematiskt stabilare mått än RR som till skillnad från RR kan beräknas även i fall–kontrollstudier.
OR = (A/B) /(C/D)

Oddskvoter kan även beräknas via logistisk regression.

Hazardkvot (eng. hazard ratio, HR): Ett mått som liknar relativ risk och oddskvot som beskriver sannolikheten för ett utfall i insatsgruppen jämfört med kontrollgruppen för ett givet tidsintervall.

Kontinuerliga mått mäts på en oavbruten skala och kommer i en jämförande analys att ge ett estimat uttryckt som medelvärdesskillnad, MD, eller standardiserad medelvärdesskillnad, SMD. Om alla inkluderade studier redovisar resultat från samma mätskala bör MD användas. I vissa fall går det också att konvertera resultat från olika mätskalor till en och sedan uttrycka resultatet som MD. Om studierna har använt samma skala kan det sammanslagna effektmåttet presenteras som medelvärdesskillnaden i originalskalans skalsteg. Fördelen med det är att inga konverteringar behöver göras. Läsaren måste dock ges tillräckligt med information för att kunna bedöma storleken på effekten. Det är därför en fördel om skalan är väletablerad och används ofta inom forskningsområdet, eller om den är intuitiv för läsaren att förstå. Skalan bör samtidigt förklaras på så sätt att både dess minimum och maximum samt betydelsen av negativa och positiva värden är begripligt. Om det finns tillgång till pålitliga skattningar av dess minsta kliniskt betydelsefulla skillnad (eng. minimal important difference, MID, eller minimal clinically important difference, MCID) kan det vara värdefull information (Faktaruta 2.6).

Använd SMD när resultaten kommer från mätningar med olika skalor. En förutsättning för att kunna göra det är dock att skalorna mäter likartade egenskaper. Det är därför viktigt att en bedömning görs av vilka mätskalor som kan ingå i metaanalysen. Flera metaanalyser kan behöva göras där endast resultat läggs ihop från de studier som använt samma skala eller mätt utfallet på samma sätt.

Om utfallen mätts på alltför olika sätt, och det inte är möjligt att konvertera de olika måtten, bör man inte göra en metaanalys. Då kan en syntes utan metaanalys vara lämplig istället (Avsnitt 7.6).

7.1.2 Heterogenitet

Olika studier skiljer sig oftast från varandra sett till upplägg, stickprovets eller studiepopulationens sammansättning, sammanhang, insatsernas exakta innehåll, jämförelseinsatserna, sättet att mäta utfallen, studiedesign och annat. Om olikheterna mellan studierna är stora riskerar det att leda till stora olikheter även i hur de skattar effekten. Denna så kallade heterogenitet innebär att de olika studierna kan såväl över- som underskatta effekten av en insats i den bakomliggande populationen.

Studier som är alltför heterogena bör inte slås ihop i en metaanalys. Orsaken är dels att det uppstår en variation som beror på annat än det som undersöks vilket kan dölja verkliga effekter, dels riskerar man att dra felaktiga slutsatser från data.

Heterogenitet innebär att det finns en variation i effektstorleken mellan studier, utöver den slumpvariation som alltid kan förväntas (variation inom studier). Metaanalysen ger tre mått för att undersöka heterogeniteten i ett material: I², τ² och Q. Måttet I² ger en uppfattning om hur stor andel av den totala variationen som kommer från skillnader mellan studierna i metaanalysen, där den totala variationen innehåller både variation mellan studier och slumpvariationer inom respektive studie. Det är det mått som oftast förekommer i litteraturen (Figur 7.1). Enligt en omtvistad tumregel sägs heterogeniteten vara låg om I² ligger runt 0,25, måttlig om I² ligger runt 0,50 och hög om I² ligger runt 0,75. Men att endast använda I² som ett direkt mått på heterogenitet rekommenderas inte. Måttet τ² (Tau²) ger en uppfattning om hur stor skillnaden är i genomsnitt mellan punktestimaten för de olika studierna som ingår i analysen, medan måttet Q istället visar den genomsnittliga skillnaden mellan punktestimaten för studierna och metaanalysens gemensamma, sammanvägda estimat.

Två kurvor som visar exempel på hur stor andel av den totala variationen i metaanalyser som utgörs av variation mellan de ingående studierna.

Ofta är det omöjligt att få korrekta skattningar av heterogenitet. Om metaanalysen bygger på få studier finns det en risk att uppskattningen felaktigt visar att det inte finns någon mellanstudievarians, det vill säga att den ger ett falskt intryck av homogenitet. Rent generellt har heterogenitetstest en låg statistisk teststyrka och heterogeniteten underskattas ofta i metaanalyser. τ², I² och Q kan dock vara användbara för att få en uppfattning om heterogeniteten i en metaanalys. De kan därför vara en grund till diskussion. Ett kompletterande sätt är att visuellt inspektera forest-diagrammet (skogsdiagrammet), för att få en uppfattning om heterogeniteten i de inkluderade studiernas effekter.

Det finns olika sätt att hantera att studier som ska väga samman inte är helt lika, till exempel olika statistiska modeller eller subgruppsanalyser. Mer information om det finns i avsnitten nedan. Ett annat sätt är att utföra en metaregression, vilket är möjligt när en kontinuerligt mätt variabel kan användas som en prediktor eller kovariat och där det är variationer i effektstorlekar hos de inkluderade studierna som ska förklaras.

7.1.3 Subgrupper i en metaanalys

Ett sätt att hantera heterogenitet mellan studier är att göra subgruppsanalyser. Sådana analyser ska vara planerade i förväg i protokollet, och det ska finnas en tydlig orsak till att de är valda, till exempel att det finns en anledning att misstänka att kvinnor och män reagerar olika på en viss insats. Att skapa subgrupper i efterhand, på basis av hur redan analyserade data ser ut, är inte att rekommendera. Det är också viktigt att överväga teststyrkan i de olika subgrupperna. Eftersom varje subgruppsanalys utgör ett mindre stickprov än vad som skulle ha varit fallet utan subgrupperingar så kommer teststyrkan att minska, och därmed minskar också möjligheten att upptäcka eventuella skillnader som kan finnas i materialet.

Några exempel på när det kan vara en bra idé att göra subgruppsanalyser är när studierna rapporterar olika varianter av insatsen, kommer från olika länder med olika välfärdssystem eller olika organisation för social omsorg, har olika uppföljningstider eller när äldre studier använder en annan teknik än nyare studier. Subgruppsanalyser genererar ett nytt punktestimat med vidhängande konfidensintervall för varje subgrupp. Dessa kan sedan jämföras för att se om effekten av insatsen är statistiskt skild för de olika subgrupperna.

7.1.4 Känslighetsanalyser i en metaanalys

För att undersöka hur stabilt resultatet av en metaanalys är kan olika varianter av känslighetsanalyser göras. Det innebär att samma analys görs om med en eller flera studier exkluderade, och sedan undersöks hur stor påverkan det får på det sammanvägda resultatet. Denna information är värdefull bland annat när tillförlitligheten ska bedömas med GRADE. Exempel på känslighetsanalyser kan vara att göra analys med eller utan studier som publicerats innan ett visst årtal, studier som kommer från låg och medelinkomstländer eller studier med få deltagare. En variant av känslighetsanalys är att analysen upprepas flera gånger och varje gång tas en enskild studie bort för att undersöka om resultaten drivs av en enskild studie (eng. one study removed).

7.1.5 Val av modell för metaanalys

Det finns två huvudtyper av metaanalyser, fixed effect model (FEM) och random effects model (REM). Vilken av modellerna som ska användas bestäms redan i protokollet utifrån vilket syfte översikten har. Observera att FEM i modern statistisk litteratur ofta benämns som common-effect model (till exempel av Schmid och medarbetare från år 2021 [99]).

FEM utgår från antagandet att alla studier som ingår i metaanalysen är stickprov som har dragits från en och samma population. Det finns en gemensam effekt som gäller för den bakomliggande population som alla studierna har dragits ifrån, och det är denna gemensamma effekt som metaanalysen estimerar.

För REM antas att de inkluderade studierna har dragits från olika bakomliggande populationer. Det går då inte längre att anta att det finns en gemensam effekt, eftersom effekten kan förväntas vara olika i de olika studiepopulationerna. REM ger i stället en skattning av medelvärdet över alla olika populationer i studierna. Metaanalysen ger därmed inte ett direkt mått på hur effekten ser ut i en enskild population. Å andra sidan kan skattningen ge en uppfattning om var effekten ligger mer generellt, i genomsnitt.

Eftersom varje studie i REM blir den enda representanten för just sin population så får små avvikande studier större vikt än vid FEM, och konfidensintervallet blir bredare. En annan konsekvens är att den statistiska teststyrkan blir lägre för REM jämfört med FEM, och möjligheten att upptäcka faktiska skillnader mellan grupperna minskar något. Ju mindre heterogenitet som finns i en analys, desto mer lika blir dock de två modellerna. Formeln för att räkna ut den viktade effektstorleken är densamma med den viktiga skillnaden att REM-modellen innehåller en term τ². Det innebär att om detta mått på heterogenitet är mycket lågt kommer FEM- och REM-skattningarna att bli mycket lika. De båda modellerna är dock skilda åt konceptuellt, och författare av översikter bör alltid specificera vilken modell de ska använda före analysen – inte köra båda och välja den som verkar bäst i efterhand. REM är i de allra flesta fall utgångspunkten. Endast när de inkluderade studierna är väldigt lika varandra sett till studiedesign, utfallsmått och andra viktiga karakteristika, är det godtagbart att använda en FEM.

7.1.6 Forest plot

En metaanalys brukar presenteras som en så kallad forest plot (skogsdiagram). Det visar skattningar av effekt från de enskilda studierna, en sammanvägd effekt, konfidensintervall för såväl de enskilda effektskattningarna som för den sammanvägda effektskattningen samt mått på heterogenitet. Figur 7.2 visar ett exempel på en forest plot som har tagits fram med REM, där sju studier har jämfört effekten av två insatser (A och B). Effektmåttet är i det här exemplet SMD. Studiernas resultat redovisas som punktestimat i kvadraterna med tillhörande konfidensintervall i de horisontella linjerna. Storleken på kvadraten beror på hur stor vikt studien får i sammanvägningen, vilket visas i kolumnen med rubriken Weight. Generellt får en studie större tyngd ju snävare konfidensintervall den har, eftersom det brukar innebära att studien är större och har data som ligger väl samlade. Skillnaden i vikt mellan de olika studierna blir större vid FEM än vid REM. Det sammanvägda resultatet av metaanalysen, 1,13 i exemplet i Figur 7.2, visas med en romb. De horisontella ändarna på romben utgör konfidensintervallets gränser, som i exemplet är 0,22 till 2,04. Resultatet visar alltså sammantaget på en fördel för insats A.

En forest plot som visar det övergripande resultatet av en metaanalys med sju studier.

I Figur 7.3 har studierna och resultaten delats upp i två subgrupper. Resultatet för respektive subgrupp visas som två unika romber. I det här exemplet finns det inte någon skillnad mellan interventionerna för Subgrupp 1 (SMD= –0,02, p=0,97), medan interventionerna skilde sig signifikant för Subgrupp 2 (SMD=1,94, p <0,00001). Det gemensamma resultatet för hela metaanalysen syns i romben längst ner och är samma som i Figur 7.3, utan subgrupper. Om skillnaden mellan subgrupperna är stor är kanske den gemensamma sammanvägningen inte så intressant och behöver då inte redovisas.

En forest plot som visar resultatet av två metaanalyser, där de sju studierna har delats upp i två subgrupper. Resultatet för respektive subgrupp kan avläsas, och en eventuell skillnad mellan dem.

7.1.7 Tolkning av resultat

Metaanalys kan användas på flera olika sätt och den är ett bra analysverktyg för att få en bättre förståelse för data. Vilka tolkningar och slutsatser som kan dras från resultatet av en metaanalys beror på hur lika studierna som ingår i analysen är. Översiktligt kan detta beskrivas i tre nivåer:

de studier som ingår är i allt väsentligt lika
de studier som ingår skiljer sig åt, men på slumpartade vis
de studier som ingår skiljer sig åt vad gäller viktiga aspekter.

I den första nivån bedöms effekten som robust för de studerade populationerna. I den andra nivån rapporteras medeleffekten. Vad kan spridningen av data bero på och vad detta har för betydelse? I den tredje nivån är medeleffekten däremot inte relevant. Här är det spridningen av data och vad denna kan bero på som är av intresse. Fundera även på möjligheten att göra subgruppsanalyser eller att sammanställa resultaten på annat sätt, till exempel genom att göra en syntes utan metaanalys.

7.1.8 Tolkning av utfallet uttryckt som SMD

Alla mätbara dimensioner kan inte omvandlas till dikotoma mått utan visst mått av förenkling. Det gäller exempelvis många psykologiska mått. Människor är inte antingen eller vad gäller exempelvis emotioner eller psykisk hälsa utan befinner sig någonstans på en kontinuerlig skala. Att använda SMD som effektmått är en vanlig metod som gör det möjligt att väga samman sådana skalor och göra en metaanalys trots det.

Att använda SMD gör det dock något svårare att kvalitativt uppskatta effektens storlek eftersom SMD anger effektstorleken i antal standardavvikelser. Faktorer som påverkar standardavvikelsen, till exempel urvalet och antalet personer i varje grupp, påverkar därmed även effektensstorleken uttryckt i SMD. SMD är därmed mer påverkat av stickprovsstorleken än till exempel OR. Ett resultat som uttrycks i SMD-termer är inte heller lika tolkningsbart för den som arbetar inom till exempel hälso- och sjukvården eller socialtjänsten. För att öka tolkningsbarheten är det därför en bra idé att komplettera resultat uttryckt i SMD med ett eller flera alternativa effektmått som inte är beroende av standardavvikelsen, som exempelvis NNT (eng. number needed to treat). Att uttrycka resultatet av en utvärderad insats på olika sätt är generellt sett önskvärt. Se Faktaruta 7.4 för råd kring metaanalyser av kontinuerliga mått.

Faktaruta 7.4 Sammanfattande råd för metaanalyser med kontinuerliga utfallsmått och SMD.

Om alla studierna har använt samma skala så använd medelvärdesskillnaden på skalan som effektmått.
Om studierna har använt olika skalor så motivera varför de är tillräckligt lika för att slås samman i en metaanalys, eller varför de inte kan slås samman.
Komplettera gärna SMD med ett annat effektmått för att underlätta tolkningen av effektens storlek eller relevans.
Ett annat sätt att underlätta tolkningen av SMD är att konvertera effektstorleken till en väletablerad skala, om det finns en sådan.
Om det inte finns en etablerad skala så kan tolkningen av ett resultat uttryckt i SMD underlättas genom att konvertera det till en oddskvot.
Om det är möjligt så presentera både absoluta och relativa mått.
Underlätta tolkningen av effektens storlek genom att tydligt beskriva alla de skalor som har använts i studierna.
Förklara och motivera hur konverteringar har utförts och vilka data som användes.
Ge en ytterligare dimension till resultaten genom att beskriva dem i termer av antal individer som har uppnått en viss effekt.

7.1.9 Publikationsbias påverkan på metaanalysen

Publikationsbias innebär att studier av olika skäl inte publiceras alls eller med tidsfördröjning [100]. Den vanligaste orsaken till det är att studien inte kunnat finna tillförlitliga eller trovärdiga resultat som ger svar på eller stöd för frågeställningen, vilket kan göra såväl forskaren som eventuella finansiärer men också tidskrifter mindre benägna att publicera den.

Det finns följaktligen en risk att resultaten i en metaanalys eller fynden i en syntes av kvalitativ evidens har snedvridits på grund av att opublicerade studier inte finns med. Störst är risken att de har överskattats. Översiktens författare bör försöka bedöma risken för publikationsbias och redovisa resultatet av den bedömningen. Det är ofta mycket svårt att fastställa om det råder publikationsbias, men det finns verktyg som stöd för att bedöma det [101] [102]. Ett annat sätt är att söka i databaser över registrerade studieprotokoll, för att se om det finns fler studier som har påbörjats men ännu inte publicerats.

En vanlig metod som kan användas för att få en uppfattning om risken är att göra ett så kallat trattdiagram (eng. funnel plot, se Figur 7.4). Trattdiagrammet kan konstrueras i RevMan eller CMA om det finns många publicerade studier, ofta behövs ett minimum på 12 studier. I diagrammet jämförs storlek och resultat från varje enskild studie. Om det inte finns någon publikationsbias liknar resultatet en symmetrisk upp-och-nervänd tratt – därav namnet. Om grafen däremot är asymmetrisk kan det finnas skäl att misstänka publikationsbias, framför allt om små studier med negativa resultat saknas. Det kan dock finnas andra orsaker bakom asymmetrin, så att enbart använda trattdiagram räcker inte för att fullt ut påvisa publikationsbias [101], se Faktaruta 7.5.

Ett trattdiagram som visar på att det finns en publikationsbias. Det saknas små studier och studier med negativa effekter.

Det finns särskilda tester för att undersöka publikationsbias ytterligare, till exempel Eggers test. Det går också att spegla studier som ligger långt ut och se vad som skulle hända med det gemensamma effektmåttet om det fanns motsvarande studier på andra sidan av mittlinjen i trattdiagrammet. Dessa åtgärder finns tillgängliga bland annat i programmet CMA.

Ett vanligt verktyg för att upptäcka och korrigera för publikationsbias är trim-and-fill-metoden. Den syftar till att uppskatta studier som skulle kunna saknas på grund av publiceringsbias i trattdiagrammet och på så sätt justera skattningen av den totala effekten. Tanken med trim-and-fill-metoden är att först trimma bort de studier som orsakar en asymmetri i trattdiagrammet så att skattningen av den totala effekten från de återstående studierna kan betraktas som minimalt påverkad av publikationsbias. Sedan läggs de imputerade studierna in i trattdiagrammet baserat på den biaskorrigerade övergripande effektskattningen. Det grundläggande antagandet för trim-and-fill-metoden är att studierna med de mest extrema effektstorlekarna inte publiceras i samma omfattning, oavsett om de hamnar på den vänstra eller högra sidan i figuren ovan. Läs mer om metoden här [103].

7.2 Metaanalys av icke-randomiserade studier och exponeringsstudier

Metaanalyser baseras huvudsakligen på resultat från randomiserade studier. Det går att göra metaanalyser som grundar sig på resultat från icke-randomiserade studier, men det är ofta mer arbetskrävande. Grundprincipen är dock den samma: att analysera resultaten för insatsens och jämförelsegruppens effekter. Ett problem med att göra metaanalyser av studier utan randomisering är att de ofta använt olika metodik. Det kan till exempel bero på om det finns en matchad jämförelsegrupp vid baslinjen, det vill säga de mätningar som görs före insatsen, eller om författarna har skapat en matchning i efterhand genom någon form av multivariat metodik. Variationen kan också bero på att studierna har olika många jämförelsegrupper och mäter utfallen vid olika tidpunkter.

En annan viktig aspekt vid metaanalys av icke-randomiserade studier är att ta hand om frågorna om confounding (förväxlingsfaktorer) och kausalitet (orsakssamband), se Avsnitt 5.1.2.2. Ofta är det orsakssambandet som är av intresse; om en viss faktor A påverkar utfallet B. Ibland kan det dock finnas förväxlingsfaktorer, så att det verkar som att faktor A leder till utfallet B, men i själva verkat är det förväxlingsfaktor C som påverkar sambandet. Att en viss faktor ofta förekommer tillsammans med ett problem bevisar inte att det är den som orsakar problemet och ännu mindre att problemet skulle försvinna om faktorn togs bort. Vid tillräckligt stora randomiserade studier är tanken att olika förväxlingsfaktorer som kan påverka utfallet kommer att fördelas jämnt mellan grupperna som jämförs, och därmed kommer deras påverkan på utfallet att bli marginell eller obefintlig. I icke-randomiserade studier finns istället olika statistiska analysmetoder som justerar för att grupperna har olika fördelning av förväxlingsfaktorer. Till exempel kan grupperna skilja sig åt vad gäller ålder och kön, vilket i så fall går att justera för. Grundregeln är att sammanväga studier som har justerat för samma eller snarlika förväxlingsfaktorer. Ett större problem är att det kan finnas dolda skillnader mellan grupperna som inte kan justeras för eftersom det är okänt att de finns där. Sammanfattningsvis behöver mer avancerade statistiska metoder användas för att hantera data från icke-randomiserade studier när orsakssamband undersöks. I stället är det vanligt att försöka analysera risk- och skyddsfaktorer eller funktionshindrande och funktionsfrämjande faktorer, det vill säga faktorer som förekommer tillsammans med ett hälsotillstånd, behov eller problem och som statistiskt är kopplade, antingen associerade eller korrelerade, till problemet men inte nödvändigtvis orsakar det.

7.2.1 Sammanvägning när underlaget består av både RCT-studier och andra studiedesigner

Randomiserade och icke-randomiserade studier bör inte läggas in i samma metaanalys [30]. Om det finns randomiserade studier kommer de nästan alltid att ge ett tillförlitligare resultat. Kvasirandomiserade studier och klusterrandomiserade studier kan dock gå bra att väga ihop med RCT-studier om grupperna är likartade vid baslinjen. Observationsstudier bör dock oftast hantera separat. Om underlaget består av ett fåtal små, randomiserade studier och flera stora icke-randomiserade studier kan separata metaanalyser göras för att undersöka om de visar samma eller avvikande resultat.

7.2.2 Val av programvara

Det finns flera programvaror som kan användas för att göra metaanalyser för insatsstudier. Ett vanligt program är RevMan från Cochrane Collaboration. När mer komplicerade beräkningar behövs finns möjlighet att använda till exempel programmen Comprehensive Meta-analysis (CMA) eller R (paketet metafor). Det finns också gratisprogramvaror som JASP och JAMOVI.

7.3 Metaanalys för diagnostisk tillförlitlighet

Studier om diagnostisk tillförlitlighet skiljer sig från insats- och observationsstudier på flera sätt, vilket ställer andra krav på vilka metoder som kan användas för att göra en metaanalys. Tre viktiga skillnader är:

effektmåtten
tröskelvärden
hög heterogenitet.

Sensitivitet och specificitet är beroende av varandra så att en ökad sensitivitet sker på bekostnad av en sänkt specificitet och vice versa. Metoden för metaanalysen måste kunna hantera två olika utfallsmått i en och samma analys. Tröskelvärdet påverkar sensitiviteten och specificiteten. Ett lägre tröskelvärde kommer göra att sensitiviteten ökar och omvänt leder ett högt tröskelvärde till att specificiteten ökar. Om studierna har använt olika tröskelvärden måste metaanalysen kunna ta hänsyn till det.

Diagnostiska studier uppvisar dessutom oftast heterogena resultat om de har olika individsammansättning, om deras tröskelvärde varierar eller om båda föreligger. Att väga samman resultaten från dem i metaanalyser är därför inte alltid lämpligt.

För att kunna gör en metaanalys om diagnostisk tillförlitlighet behövs metoder som tar hänsyn till både sensitivitet och specificitet, förhållandet mellan dem och heterogeniteten i testets tillförlitlighet (eng. test accuracy). Metoderna som används för metaanalys finns utförligare beskrivna i Cochrane Collaborations handbok [104].

7.3.1 Hierarkiska modeller

För att kunna ta hänsyn till den oftast negativa korrelationen mellan sensitivitet och specificitet, heterogeniteten och att studier använder olika tröskelvärden behövs multivariata metoder för att utföra metaanalys [104] [106] [107].

Det har utvecklats två så kallade hierarkiska modeller för metaanalyser av diagnostiska studier: den bivariata modellen och den hierarkiska sROC-modellen (HSROC). Modellerna består av två nivåer för att modellera data. På den första nivån behandlar modellerna variationen i sensitivitet och specificitet inom varje studie och på den andra nivån hanterar de variationer mellan studierna.

Parametrar som skattas med hjälp av båda modellerna läggs sedan in i RevMan-programmet. Resultatet blir antingen en sammanfattande punkt för sensitivitet och specificitet med bivariatmodellen eller en sROC-kurva (HSROC).

7.3.1.1 Sammanfattande punkt

Metaanalys som ger en sammanfattande punkt för sensitivitet och specificitet, en så kallad bivariat analys, användas när resultaten bygger på samma tröskelvärde. Förutom punkten ger metaanalysen en 95-procentig konfidensregion och en 95-procentig prediktionsregion, se exempel i Figur 7.5.

Konfidensregionen baseras på konfidensintervallet för den sammanfattande punkten. Prediktionsregionen uppskattar området inom vilket vi skulle förvänta oss resultat från en framtida studie. Den är därför bredare än konfidensregionen. Konfidens- respektive prediktionsregionen är användbara för att illustrera osäkerheten i punktens värden och graden av heterogenitet.

En bivariat analys som visar studier med olika specificitet och sensitivitet samt tillhörande konfidensregion och prediktionsregion.

7.3.1.2 HSROC-kurva

När resultaten i studierna baseras på olika tröskelvärden är det bättre att beräkna en summerande hierarkisk ROC-kurva, en så kallad HSROC-kurva. Figur 7.6 visar exempel på en sådan. Den blå linjen visar samband mellan sensitiviteten och specificiteten utifrån olika tröskelvärden. Att punkterna är utspridda längs hela ROC-arean beror på att studierna använder olika tröskelvärden. Punkternas avstånd från kurvan ge dig en uppfattning om hur heterogena de är – ju längre bort från kurvan punkterna ligger, desto mer heterogena är resultaten.

En graf som visar studier med olika specificitet och sensitivitet samt tillhörande HSROC-kurva.

7.3.1.3 Sammanfattande punkt eller HSROC-kurva?

Vilken hierarkisk modell man bör välja beror på om den diagnostiska tillförlitligheten ska gälla ett visst tröskelvärde eller över flera. Ibland kan det vara meningsfullt att beräkna både en sammanfattande punkt och en HSROC-kurva eftersom analyserna då kan ge olika information och komplettera varandra.

Studierna som har inkluderats kan rapportera resultat på olika sätt. Om alla studierna har använt liknande tröskelvärden går det med fördel att redovisa resultaten i en sammanfattande punkt. Även när det är möjligt att definiera ett gemensamt tröskelvärde kommer det finnas större eller mindre variationer mellan studieresultaten. Variation kan uppstå på grund av skillnader i kalibrering av instrument, subjektiv tolkning av resultat samt skillnader i genomförande av testet.

Om varje studie rapporterar sensitivitet och specificitet för ett tröskelvärde men har använt olika tröskelvärden är det meningslöst att presentera metaanalysresultat i en sammanfattande punkt. Då behövs en HSROC-kurva som beskriver hur sensitivitet och specificitet varierar med tröskelvärdet.

Om några eller alla studier rapporterar sensitivitet och specificitet för flera tröskelvärden kan man antingen räkna fram flera sammanfattande punkter, en för varje tröskelvärde, eller konstruera en HSROC-kurva över flera olika tröskelvärden. Tänk bara på att då enbart använda ett tröskelvärde per studie.

7.3.2 Heterogenitet

Heterogenitet i metaanalyser av diagnostiska studier är snarare regel än undantag. Testets sensitivitet och specificitet kan skilja sig åt mellan studierna beroende på deras studiedesign, genomförande, sammansättning av deltagare, insats, indextest, referenstest och tröskelvärde. Därtill tillkommer sådan heterogenitet som orsakas av slumpen, och sådan som orsakas av systematiska fel som följd av brister i genomförandet av studierna.

En kopplad forest plot kan ge dig en snabb visuell överblick över heterogeniteten, som den i Figur 7.7. Ett annat sätt att undersöka heterogeniteten är att inkludera variabler som är karakteristiska till studierna, så kallade kovariater, i de hierarkiska modellerna. Kovariaterna kan exempelvis vara kön, ålder, blindning, antal besök i familjeterapi eller läkemedelsdos. Genom att välja en kovariat åt gången går det att studera dess inverkan på effektestimaten. Bivariatmodellen och HSROC-modellen skiljer sig i hur kovariaterna är inkluderade. Med bivariatmodellen undersöker man hur kovariaterna påverkar testets sensitivitet och specificitet. Med HSROC-modellen undersöker man kovariaternas effekt på hur sROC-kurvan ser ut och var den placerar sig i ROC-arean.

En forest plot över både sensitivitet som specificitet för fyra studier, där ingen sammanvägt resultat visas ut.

I Faktaruta 7.6. finns ett detaljerat förslag till hur man kan lägga upp arbetet med en metaanalys på diagnostisk tillförlitlighet.

Faktaruta 7.6 Arbetsgången i metaanalys av diagnostisk tillförlitlighet.

Inspektera data: Börja med att titta på sensitivitet och specificitet med tillhörande konfidensintervall i exempelvis en kopplad forest plot (Figur 7.7). Om studieresultaten visar stor variation, som sensitiviteten gör i Figur 7.7 ovan, är det ingen bra idé att väga samman studierna.

Presentera resultatet: Bestäm i förväg hur den blandade rapporteringen av tröskelvärden som kan finnas i studierna ska hanteras. Bör analysen begränsas till studier med ett gemensamt tröskelvärde för att kunna uppskatta en sammanfattande punkt eller ska alla studier oavsett tröskelvärde inkluderas för att kunna uppskatta en HSROC-kurva men på bekostnad av en tolkning av sammanfattande sensitivitet och specificitet? Tänk på att båda modellerna kräver att det finns minst fyra studier att lägga in i metaanalysen. Om studierna visar 100 procent sensitivitet eller specificitet (så kallade nollceller) kommer modellerna inte heller att fungera optimalt. Om antalet studier är begränsat eller visar 100 procent sensitivitet och specificitet kan man försöka laborera med modellerna men det kräver en del programmering [108]. Eventuella undergrupper bör bestämmas innan metaanalysen.
Gör metaanalysen: RevMan är inte anpassat för de hierarkiska modellerna utan delar av metaanalysen måste göras i ett annat statistikprogram, som till exempel SAS, Stata eller R som har speciella moduler för hierarkiska modeller. För den som inte själv behärskar eller har tillgång till något av dessa program, finns även ett kostnadsfritt webbaserat program metaDTA, som bygger på kod från R. Lägg in de enskilda studiernas resultat i statistikprogrammen, uttryckt som sant och falskt positiva respektive sant och falskt negativa. Importera sedan resultaten från de multivariata analyserna till RevMan, som ger dig en grafisk redovisning av resultaten.
Undersök heterogeniteten: Genom att göra en metaregression, det vill säga inkludera kovariater i modellen, går det att undersöka hur de påverkar den sammanfattande punkten eller HSROC-kurvan. Observera att sådan information inte alltid är tillgänglig i de inkluderade studierna. Kovariater kan läggas in i SAS och R men inte i Stata. Tänk på att vissa R-paket inte klarar av metaregression. För praktiska detaljer se Cochrane DTA handbok [104] eller Cochranes ”Software for meta-analysis of DTA studies”.
Tolka resultatet:
- Sammanfattande punkt: Sensitivitet och specificitet presenteras ofta som proportioner eller en procentsats. Resultaten kan göras mer begripliga genom att istället utrycka antalet TN/TP/FN/FP per 100 eller 1 000 individer. Om sensitiviteten exempelvis är 75 procent kan man skriva att för varje 100 individer med det sökta tillståndet eller behovet, kommer vi att korrekt identifiera 75 individer. Det är viktigt att specificera vilken grupp det gäller, till exempel 100 individer som testades eller behovsbedömdes eller 100 individer med tillståndet eller behovet. Resultat kan även presenteras utifrån tillståndets eller behovets prevalens.
- HSROC-kurva: Välj en punkt på kurvan vid en bestämd sensitivitet eller specificitet (till exempel 95 procent) och läsa av den motsvarande sensitiviteten eller specificiteten (Figur 7.6). Därefter kan resultat redovisas på samma sätt som för den sammanfattande punkten. Det är viktigt att välja en punkt som är relevant för frågeställningen. Är det viktigare med hög sensitivitet eller specificitet?

Oavsett hur resultaten presenteras är det viktigt att diskutera konsekvenserna av falskt negativa och falskt positiva resultat. Innebär det onödiga invasiva ingrepp vid falskt positiva resultat? Onödig oro? En försenad diagnos eller bedömning av behov?

Det finns en kalkylator i RevMan och en funktion i metaDTA som ger antalet TP/FN/FP/TN per 1 000 testade individer, beroende på tillståndets eller behovets prevalens vid en viss sensitivitet och specificitet. Om prevalensen är 0,2 och man testar eller bedömer behov hos 1 000 individer, kommer 160 individer med tillståndet eller behovet att korrekt identifieras, medan 40 individer missas. Vidare kommer testet att korrekt klassificera att 760 individer inte hade tillståndet eller behovet (sant negativt), och ge falskt positivt svar till 40 individer som inte har tillståndet eller behovet

7.4 Metaanalys av prediktionsstudier

Liksom för studier som undersöker diagnostisk tillförlitlighet förekommer heterogenitet när resultaten från prediktionsstudier vägs samman. Överväg därför noga om det är lämpligt att kombinera resultatet från dem statistiskt i en metaanalys.

7.4.1 Metaanalys av studier om prediktionsfaktorer

Studier om prediktionsfaktorer presenterar vanligen resultaten i form av en hazardkvot (HR), en oddskvot (OR) eller en riskkvot (RR) [109]. Undersök alltid att samma effektmått används och tänk på att det inte alltid är möjligt att inkludera olika effektmått i en metaanalys. Ytterligare en sak som bör undersökas är om författarna har justerat för samma kovariater i analyserna. Studierna som ingår i en metaanalys bör som regel ha justerat för viktiga kovariater. Överväga om de är så pass olika att de inte bör vägas samman. Det är möjligt att i en metaanalys få en visuell översikt av resultaten för att se hur de förehåller sig till varandra oavsett om de går att väga samman eller inte.

Heterogeniteten bör alltid analyseras via exempelvis känslighetsanalyser genom att beräkna och presentera prediktionsintervall eller en metaregression. Mer information om metaanalyser av resultat från prediktionsfaktorer finns här [110] [111].

7.4.2 Metaanalys av studier om prediktionsmodeller

Det går att väga samman data från olika primärstudier om prediktionsmodeller. Heterogenitet i data kan förväntas och möjliga orsaker till den bör analyseras. De effektmått som då ska vägas samman är dels diskriminering, dels kalibrering. Se kap 3 för en närmare beskrivning av dessa begrepp. I Faktaruta 7.7 går det att läsa mer om statistiska överväganden vid metaanalyser av studier om prediktionsmodeller. Mer information om metaanalyser av resultat från prediktionsmodeller finns här [112] [113]:

7.5 Nätverksmetaanalys

Metaanalyser av randomiserade kontrollerade studier (RCT-studier) anses ofta vara den bästa möjliga studiedesignen vid utvärdering av evidens för insatseffekter, till exempel jämföra insats A med insats B. Ibland saknas dock möjlighet till den här typen av direkta jämförelser mellan insatser. Då finns möjlighet att göra nätverksmetaanalyser (NMA). Nätverksmetaanalyser är en vidareutveckling av metaanalyser där det dels är möjligt att jämföra insatser där direkta jämförelser saknas, dels jämföra fler än två insatser samtidigt. Se Figur 7.8 för ett exempel på en visuellt beskriven nätverksmetaanalys med hjälp av ett evidensnätverk.

Figur som visar hur olika behandlingar och jämförelser kan hänga samman i ett nätverk.

Nätverksmetaanalys är ett paraplybegrepp som innefattar en rad olika statistiska modeller för att analysera data. Ett vanligt exempel på det är indirekt jämförelse (eng. indirect treatment comparison, ITC) där insatserna av intresse helt saknar direkta jämförelser med varandra och därför jämförs med någon annan gemensam insats, till exempel placebo. En variant av indirekt jämförelse är Buchermetoden där alla parvisa jämförelser som läggs in i analysen behöver vara oberoende av varandra, det vill säga det får inte förekomma studier med armar för flera insatser. En annan vanlig variant är mixed treatment comparison (MTC) där det finns både indirekta och direkta jämförelser som kompletterar varandra. MTC-analyser används för mer komplexa nätverksmetaanalyser, så kallade evidensnätverk. I evidensnätverken lägger man in alla insatser från studierna som noder, och aktiva jämförelser som streck mellan noderna. Streckade eller svagare linjer kan betyda indirekta jämförelser.

Förutsättningar för att göra en nätverksmetaanalys är att studierna som ingår ska vara lika varandra sett till exempelvis studiedesign, population, deltagarnas ålder och tillståndets svårighetsgrad eller behovets angelägenhetsgrad. Nätverket ska hypotetiskt kunna motsvara ”en enda stor RCT-studie” där en grupp deltagare slumpmässigt har fördelats till varje studie som ingår i det. För att få så lite heterogenitet som möjligt i analysen bör insatserna som tas med vara jämförbara i ett och samma nätverk.

Jämförelser görs normalt sett bara mellan insatser som sitter ihop i ett gemensamt nätverk och har någon form av gemensam koppling, till exempel att de har samma jämförelse som placebo eller sedvanlig insats. Det finns även metoder där också insatser utan gemensamma noder kan hanteras så kallat disconnected networks. I Faktaruta 7.8 finns mer att läsa om val av utfall och bedömning av nätverksmetaanalyser.

För bedömning av kvaliteten i en nätverksmetaanalys har ISPOR tagit fram en mall med en grundlig genomgång av de olika momenten [114]. För att bedöma evidens från en nätverksmetaanalys har GRADE Working Group tagit fram underlag [115] [116] [117] [118].

Vanliga utfallsmått från en NMA

Rank: En jämförelse mellan vilken av insatserna som är ”bäst”. Beräknas med hjälp av upprepade simuleringar i en statistisk modell. Insatserna tilldelas en rank baserat på hur ofta en viss insats rankas till en viss position (första, andra, tredje osv.) dividerat med antalet simuleringar, det vill säga det antal gånger som modellen har upprepats.

P(best): Antal gånger som en viss insats rankas som bäst, dividerat med antalet simuleringar.

SUCRA: En beräkning av hur procentuellt effektiv en viss insats är jämfört med en ideal insats som alltid skulle anses vara bäst utan någon osäkerhet kring måttet. Beräkningen baseras på rank, men anses ofta vara ett mer stabilt mått.

Viktigt att tänka på

Vilken rank en insats får beror i hög grad på vilka studier som ingår i nätverket. Om en studie tas bort från nätverket så kommer rankningen för alla de andra att påverkas, eftersom en del av den data som ligger till grund för rankningen är indirekta jämförelser där studien som tas bort har bidragit med information.
Rankning speglar inte klinisk relevans eller hur starkt bevisläget är. Data bakom en insats som rankas högt kan ha ett lågt evidensvärde, medan data bakom en lågt rankad insats kan ha ett högt evidensvärde.
En insats, A, kan rankas högre än en annan insats, B. Men den kliniskt relevanta skillnaden mellan A och B kan vara obefintlig och A kan ha fler biverkningar än B.
Studier med större osäkerhet har större chans att rankas högt.
Rankningen kan bli olika för olika utfall som effekt, återfall eller drop-outs även om de inkluderade studierna i nätverket är desamma.

SUCRA anses ofta som ett mer stabilt mått än enbart rank, men det tar inte hänsyn till möjliga slumpeffekter. Det går inte heller att avgöra vad som är en ”stor” eller ”liten” skillnad mellan insatserna mätt med SUCRA, varken kliniskt eller statistiskt.

Bedömning av en NMA

Vid bedömning av en NMA finns följande nyckelfrågor [114]:

Har alla relevanta studier identifierats?
Vilken är kvaliteten på studierna som ingår och hur stor är deras risk för bias?
Finns det risk för heterogenitet mellan studierna som ingår eller inkonsistens mellan direkta och indirekta jämförelser som kan ha lett till confounding bias?

Specifikt för just NMA är frågan om inkonsistens mellan direkta och indirekta jämförelser. I en genomgång av flera olika nationella riktlinjer identifierades ett antal punkter för att bedöma om en NMA kan anses ha tillräckligt god kvalitet [119]. Följande ansågs vara relevant:

att det finns en beskrivning av den systematiska litteratursökningen
att inklusions- och exklusionskriterium var fastställda innan materialet söktes fram
att endast randomiserade studier har inkluderats
att risk för bias har rapporterats för alla studier som ingår
att eventuella skillnader vid baslinjen mellan studierna har rapporterats
att uppföljningstiderna har angetts
att motivation för modellval finns med (fixed effect eller random effects model samt Bayesianskt eller frekventistiskt nätverk)
att heterogenitet diskuteras och hanteras
att subgruppsanalyser har redogjorts för
att inkonsistens har kontrollerats
att författarna inte gör några naiva indirekta jämförelser.

7.6 Syntes utan metaanalys

Om studierna är mycket heterogena och skiljer sig avsevärt åt sett till deltagare, insats, jämförelseinsats eller utfallsmått kan det vara olämpligt att sammanställa data i en metaanalys. Man kan då istället sammanfatta studiernas resultat genom att beskriva dem i text. Ibland kan det vara möjligt att göra en övergripande analys av sammanvägda resultat genom en syntes utan metaanalys. Det kan till exempel fungera om studierna undersöker samma fenomen men presenterar olika effektmått som inte går att väga samman statistiskt, eller när det finns både randomiserade kontrollerade studier och studier utan randomisering i samma underlag.

Vid en syntes utan metaanalys ställs krav på att tydligt i text eller tabell beskriva studiernas likheter och olikheter och vikten av de individuella resultaten. I stället för att visa ett specifikt metaresultat med konfidensintervall kan exempelvis tillförlitligheten i en resultatriktning bedömas. Exempelvis kan sinsemellan olika insatser eller olika uppföljningstider visa på en tydlig positiv resultattrend. En forest plot kan ibland också ge visuell hjälp om det exempelvis visar resultaten för varje enskild studie med samma utfallsmått, inklusive deras konfidensintervall. Diagrammet gör materialet mer överskådligt än om redovisning sker med de enskilda utfallen i separata figurer eller i löptext. Någon sammanvägd effekt ska däremot inte matematiskt räknas fram i detta fall. Istället blir det viktigt att tydligt beskriver hur syntesen har utförts, så att läsaren förstår vilka överväganden som har gjorts. I Cochranes handbok [120] finns mer detaljerad information om olika metoder för syntes utan metaanalys, och det finns riktlinjer för hur rapporteringen bör gå till: Synthesis Without Meta-analysis (SWiM).

7.7 Syntes av kvalitativ evidens

Några år efter att kvantitativ metaanalys hade etablerats som en metod inom samhällsvetenskaplig forskning presenterades en motsvarande metod för synteser av studier med kvalitativ metodik: metaetnografin [121]. Numera finns ett stort antal syntesmetoder beskrivna i litteraturen och i olika handböcker. Vissa används för att beskriva ett fenomen utan att vidare tolka resultaten, andra används för att tolka eller förklara och ytterligare andra kan innehålla såväl beskrivande analys som en tolkning. I många metoder är målet att syntesen ska gå utöver primärstudierna, det vill säga att syntesen leder till en helt ny tolkning som inte kan avläsas från de enskilda studierna [122]. Det finns för närvarande ingen metod för syntes av kvalitativ evidens som kan ses som ett givet förstahandsalternativ i systematiska översikter och HTA-rapporter, men ofta kan metoderna metaaggregering och tematisk syntes vara bra alternativ [24]. Gemensamt för många av metoderna är att de bygger på en stegvis kondensering eller aggregering. Hur detta kan se ut finns beskrivet i Figur 7.9.

En processbeskrivning av hur kvalitativa data stegvis kondenseras till teman

EU har stöttat ett forskningsprojekt om kvalitativ syntes [46] som kom fram till att valet av syntesmetod påverkas av sju olika aspekter som sammanfattas i ramverket RETREAT (review question, epistemology, time, resources, expertise, audience and purpose och type of data) [24]. En utförligare beskrivning av dem finns i Faktaruta 7.9.

Valet av metod för kvalitativ syntes påverkas av sju olika aspekter som kan sammanfattas i ramverket RETREAT (eng. review question, epistemology, time, resources, expertise, audience and purpose, type of data) [24] (Figur 7.10).

1. Forskningsfrågan

Denna fråga är redan besvarad när syntesen påbörjas eftersom den handlar om hur forskningsfrågan ska formuleras (Kapitel 2).

2. Epistemologi

Val av syntesmetod beror på forskningsfrågan och syftet med översikten. Om syftet till exempel är att förstå ett socialt fenomen används troligen en annan metod än om syftet är att förstå effekter av en klinisk insats. Med ett idealistiskt synsätt tenderar man att använda mer iterativa metoder för sökning och mindre fokus på granskning av studier. Ett realistiskt synsätt karakteriseras av en mer linjär och strukturerad process.

Inför valet av metod behöver man överväga:

i vilken utsträckning syntesen ska ta hänsyn till olika underliggande filosofier eller teorier i primärstudierna och hur ska skillnaderna hanteras, om ni till exempel ska använda metaetnografi och grounded theory som tar stor hänsyn till underliggande teorier
vilket perspektiv projektgruppen har, om det är realistiskt, idealistiskt eller någonstans mellan. SBU:s projekt har generellt sett sådana frågor att ett realistiskt synsätt är det mest lämpliga.

3. Tid

Den tid finns till förfogande ska inte ensamt avgöra vilken metod som väljs, men det kan ändå spela en praktisk roll. I tid ingår dels när rapporten ska vara färdig, dels hur arbetskrävande metoden är. Faktorer som kan behöva beaktas är hur komplex metoden är, hur omfattande litteraturen är, hur många studier som inkluderas och hur rika och detaljerade data som de inkluderade studierna erbjuder.

Det finns några syntesmetoder som underlättar ett snabbt arbete. Metaaggregation kan till exempel användas för att presentera fynd från primärstudierna på ett tillförlitligt sätt utan att göra några tolkningar. Tematisk syntes ger dels möjlighet till att utveckla deskriptiva teman som ligger nära primärstudierna, dels mer tid att utveckla analytiska teman som är tolkande och genererar ny kunskap.

Frågor som behöver övervägas är:

Syftar syntesen till att ta fram ny kunskap eller går det att använda existerande kunskapsresurser (kategorier, ramverk, modeller etc.) för att snabba upp processen?
Ska översikten bygga på en uttömmande täckning av alla studier som uppfyller inklusionskriterierna eller går det att snabba upp processen genom att använda ett strategiskt urval av litteratur?

4. Resurser

Resursfrågan gäller i första hand om det behövs eller finns tillgång till programvara som underlättar syntesen. Det går att strukturera kodning och kondensering med stöd av Word eller Excel vid mindre synteser. Om syntesen ska göras som meta-aggregering tillhandahåller Joanna Briggs Institute programvaran SUMARI. Rad-för-rad kodning som ingår i en variant av tematisk analys behöver tillgång till program som NVivo eller Atlas Ti.

5. Expertis

Samtliga syntesmetoder kräver kunskap i stegen för en systematisk översikt samt ämneskunskap. Vissa metoder kräver djup förkunskap och erfarenhet av de metoder som används i primärstudierna.

6. Målgrupp och syfte

Vem som ska läsa den systematiska översikten och varför spelar roll för vilka metoder som kan användas och hur fynden formuleras. Tematisk syntes, best fit framework-syntes och metaaggregering ger till exempel resultat som är mer direkt relevanta för beslutsfattare än metastudier och metaetnografi som ger mera komplexa och konceptuella resultat.

7. Typ av data

Mängd och typ av data avgör valet mellan en deskriptiv och tolkande metod. Tolkande metoder fungerar bäst med ett mindre antal studier som detaljerat beskriver en situation och ett sammanhang (eng. thickness) eller ett koncept (eng. richness), det vill säga i vilken utsträckning det finns tillräckligt med data för att kunna utveckla tolkande förklaringar eller teorier. En syntes baserad på metoden för metastudier med så få som tre primärstudier. Med fler studier blir materialet så omfattande att det blir svårt att få en överblick men det finns inga definierade gränser för när studierna blir för många [24]. Det omvända gäller om studierna har ”tunna” (eng. thin) data från till exempel enkäter med öppna frågor eller korta fallbeskrivningar. De kommer inte att vara tillräckliga för att tillåta tolkningar. De kräver därför deskriptiva metoder som metaaggregering, tematisk syntes, best fit framework-syntes och narrativ syntes som kan hantera ett större antal studier.

Sammanvägd bedömning

Om inte valet av metod blir tydligt efter att ha gått igenom de sju aspekterna rekommenderar INTEGRATE-HTA för närvarande att tematisk syntes används [46]. Med en tematisk analys går det att få deskriptiva resultat i ett första steg, men om data är tillräckligt rika går det att gå vidare till en tolkande nivå.

Figuren visar aspekter som styr valet av kvalitativ syntes.

I avsnittet nedan beskrivs kortfattat två syntesmetoder som är vanliga i HTA-rapporter: metaaggregering och tematisk syntes. Det finns fler metoder som går att använda om de som utför syntesen har tillräcklig erfarenhet av och ser den som bäst lämpad för att besvara forskningsfrågan. Se information om andra metoder här [24].

7.7.1 Metaaggregering

Metaaggregering är en textnära metod som lämpar sig väl när underlaget består av många studier med ”tunna” data. Programvaran SUMARI (eng. the system for the unified management, assessment and review of information) och dess verktyg QARI (eng. qualitative assessment and review instrument) stödjer hela processen för metaaggregering, inklusive granskning av studierna. Den granskningen är däremot inte direkt användbar för bedömning av de syntetiserade fyndens tillförlitlighet med CERQual. Mer om detta går att läsa i Kapitel 8.

Metoden grundar sig i pragmatism och fenomenologi [105] [123]. Metaaggregering är ingen tolkande analys av data från primärstudierna. Istället koncentrerar sig metoden på ursprungsförfattarnas fynd i form av exempelvis kategorier och teman och sammanfattar gemensamma och motstridiga fynd från de inkluderade studierna så att de kan användas som grund för rekommendationer. Syftet är att balansera komplexiteten i primärstudierna med hur användbara fynden blir för praktiker och beslutsfattare.

Studier som använder olika ansatser kan inkluderas i samma syntes. Fynd från studierna betraktas här som resultat på nivå 1 och därefter aggregeras dessa vidare till kategorier på nivå 2 och syntetiserade fynd på nivå 3. Ett praktiskt exempel på hur metoden tillämpas finns här [105]. I Faktaruta 7.10 finns mer information om de steg som ingår i en metaaggregering.

Faktaruta 7.10 Stegen i en metaaggregering.

Ett fynd på nivå 1, det vill säga från primärstudierna, kan vara ett tema, en kategori eller en metafor, som bör stödjas av ett illustrativt citat. Vid metaaggregering håller man sig så nära författarnas formulering av sina fynd som möjligt. Det kan hända att en del fynd är så breda att man inte kan använda dem. Det är då möjligt att ta tillvara mer specifika beskrivningar men sänka trovärdigheten för ditt resultat.

När fynden från studierna i den andra nivån är kategoriserade undersöks likheter mellan studiernas olika fynd med ett tolkande inslag. Likartade fynd placeras i en gemensam kategori. Ge kategorierna namn i fullständiga meningar istället för enstaka ord som inte ger tillräcklig information. Kategorin ”klinikernas attityder var ett hinder för implementering av Evidens-baserad praktik, EBP” är till exempel mer användbar än enbart ”attityder”. Under respektive kategori skrivs en kort sammanfattning av fynden i den. I exemplet ovan skulle sammanfattningen kunna lyda ”kategorin avslöjar en brist på motivation eller vilja att arbeta evidensbaserat samt ett motstånd mot hela evidensrörelsen, vilket delvis hänger ihop med klinikernas personligheter och delvis med vissa discipliner inom sjukvården” [105].

I den tredje nivån är ett syntetiserat fynd som definieras som en övergripande beskrivning av en grupp fynd som medger formulerandet av rekommendationer baserat på dem. Fynden ska hjälpa till att överväga möjliga handlingsalternativ. Här ska man tolka sina fynd så gott det går. Ett syntetiserat fynd för kategorin om attityd ovan kan då bli: ”En brist på kompetens kommer att hindra implementering av EBP om gap i kunskap och färdigheter inte fylls och ansträngningar för att ändra kontraproduktiva attityder inte tas.” [105].

I exemplet omvandlas slutligen fyndet till en rekommendation: ”Integrera EBP i grundutbildningen” [105].

7.7.2 Tematisk syntes

Även tematisk syntes lämpar sig väl om underlaget består av stora mängder studier och ”tunn” data, men tematisk syntes fungerar också med rika data. Metoden används ofta för frågor om behov och för frågor om hur acceptabla och lämpliga olika insatser är. Metoden, som utvecklades av Thomas och Harden [124], har ingen stark filosofisk komponent och studier inkluderas utan hänsyn till deras respektive vetenskapsteoretiska ansats. Enligt metodens principer granskas relevanta studiers metodologiska stringens och samtliga relevanta studier inkluderas i syntesen. Därefter görs en sorts sensitivitetsanalys för att undersöka om metodproblem slår igenom i resultaten.

Syntesen består av tre steg:

koda primärstudiernas fynd
konstruera deskriptiva teman
utveckla analytiska teman.

De två första stegen är textnära (eng. data-driven) medan det tredje är teoridrivet. När forskningsfrågan handlar om till exempel behov kan frågan ses som ett teoretiskt ramverk. I Faktaruta 7.11 finns en beskrivning av de steg som ingår i en tematisk syntes.

Faktaruta 7.11 Stegen i tematisk syntes.

I det första steget sätts preliminära koder för varje rad av fynden (eng. line-by-line coding), för en studie i taget. Såväl citat som hur författarna beskriver sina resultat kan utgöra fynd. Kodningen ska vara induktiv, det vill säga inte vara bestämd i förväg. Koderna kan vara strukturerade hierarkiskt eller utan struktur. Denna del av arbetet underlättas om fynden läggs in i en programvara. Vartefter kodningen fortsätter kommer en bank med koder att byggas upp.

I det andra steget söks det efter skillnader och likheter mellan koderna och översiktsförfattarna grupperar dem i deskriptiva teman. I vissa fall kan det innebära att kodernas innehåll och namn förändras för att täcka hela innehållet. Skriv en sammanfattning av de deskriptiva temana.

I det tredje steget utvecklas analytiska teman som ska ge ny kunskap, dvs ett tolkande steg. Teman utvecklas i en iterativ process som inkluderar länkar mellan deskriptiva teman och vilka följder de skulle kunna ha för deltagarna. De analytiska temana kan baseras på flera deskriptiva teman och varje deskriptivt tema kan förekomma i flera analytiska teman.

8. Tillförlitlighet av det sammanvägda resultatet

Processen över att ta fram en HTA där delen Bedömning av tillförlitligheten av sammanvägda resultat är markerad

Detta kapitel handlar om att bedöma hur tillförlitligt det sammanvägda resultatet är. SBU och många andra HTA-organisationer tillämpar GRADE (grading of recommendations assessment development and evaluation) [125] som stöd för att bedöma resultat från kvantitativa studier. Principerna för GRADE beskrivs i GRADE Handbook [126]. Mer information om GRADE finns på GRADE Working Group:s webbplats. Observera att GRADE Working group kontinuerligt utvecklar sina processer, och att GRADE därmed inte är ett fastslaget sätt att bedöma tillförlitlighet. För sammanvägningar av studier med kvalitativ metodik används GRADE CERQual, se vidare Avsnitt 8.2.

8.1 GRADE: Tillförlitlighet av sammanvägda resultat från studier med kvantitativ metodik

Detta avsnitt beskriver hur GRADE används liksom hur resultaten presenteras i en så kallad SoF-tabell (summary of findings). Det kan inte nog betonas att GRADE är ett stöd för att projektgruppen ska kunna göra en strukturerad bedömning och att bedömningarna alltid kommer att ha subjektiva inslag. GRADE bidrar genom att motiveringar och överväganden för bedömningarna framgår i SoF-tabellerna.

GRADE är avsett för såväl resultat från systematiska översikter som för rekommendationer i riktlinjer baserade på systematiska översikter. GRADE skiljer mellan en systematisk översikt, som förutsätts vara oberoende av sammanhang (eng. context) och rekommendationer, som är beroende på sammanhanget. För att läsa mer om hur GRADE kan tillämpas för att utarbeta styrkan i rekommendationer se GRADE Handbook [126].

Det sammanvägda resultatet från studier med kvantitativ metodik kan uttryckas på flera sätt, ofta i form av ett punktestimat med ett 95-procentigt konfidensintervall. Även tillförlitligheten av sammanvägda resultat från till exempel syntes utan metaanalys eller sambands- eller exponeringsstudier kan bedömas med GRADE.

Syftet med GRADE är att på ett strukturerat och transparent sätt bedöma osäkerheter och risker i det sammanvägda resultatet. En GRADE-bedömning görs per utfallsmått. Till skillnad från äldre system är inte kvaliteten på de studier som inkluderats i översikten den enda utgångspunkten för att bedöma om resultatet är tillförlitligt. Bristande samstämmighet mellan studierna och problem med överförbarhet är några andra faktorer som påverkar tillförlitligheten enligt GRADE. GRADE kan ses som ett teoretiskt ramverk där resultatet granskas ur olika synvinklar som brukar kallas domäner eller riskområden (eng. domains).

Med GRADE klassificeras tillförlitligheten som hög (), måttlig (), låg () eller mycket låg (). Beskrivningen av de olika nivåerna finns i Faktaruta 8.1.

Bedömningen inleds utifrån antagandet att resultatet har hög tillförlitlighet. Det motsvarar att underlaget består av studier med optimal design för att besvara frågan, till exempel randomiserade studier om frågan gäller effekter av insatser. Tidigare var utgångsbedömningen för icke-randomiserade studier (NRSI, non-randomised studies of interventions), att resultatet har låg tillförlitlighet (), på grund av risken för confounding (förväxlingsfaktorer eller störfaktorer) det vill säga att en eller flera variabler samvarierar med både insatsen och utfallet). Eftersom confounding numera hanteras inom risk för bias bedömningen är utgångsläget oftast hög tillförlitlighet även för NRSI-studier [127]. I faktiska utvärderingar är det dock mycket sällan så att den samlade evidensen från icke-randomiserade insatsstudier hamnar högre i tillförlitlighetsbedömning än samlad evidens från randomiserade studier.

Därefter bedöms risken för att resultatet har påverkats av osäkerheter i de olika riskområdena. Om osäkerheten som introduceras i ett riskområde är allvarlig, sänker man tillförlitligheten med ett steg. Om osäkerheten är mycket allvarlig sänker man tillförlitligheten med två steg. För icke-randomiserade insatsstudier tillkommer möjligheten att tillförlitligheten ökar, till exempel om effekterna är stora. Observera att en brist i underlaget ibland kan ge avtryck i flera riskområden. Det får då inte bli en ”dubbelbestraffning” så att det görs avdrag flera gånger för samma problem.

Faktaruta 8.1 Tillförlitlighet enligt GRADE.

En systematisk översikt väger samman resultat från olika studier till exempel i en metaanalys. Sammanvägningen görs separat för varje utfall som utvärderas. Det sista steget i arbetet med den systematiska översikten är att bedöma hur tillförlitliga de sammanvägda resultaten är. SBU använder det internationellt utarbetade GRADE-systemet (http://www.gradeworkinggroup.org) som ett stöd i bedömningarna. En viktig aspekt av GRADE är att alla bedömningar ska motiveras så att det är möjligt för läsaren att granska dem och göra sin egen värdering av tillförlitligheten.

Bedömningen av det sammanvägda resultatet med GRADE görs utifrån fem olika aspekter:

sammanvägd risk för bias (snedvridning) för resultaten från de ingående studierna
hur mycket resultaten i studierna motsäger varandra (bristande samstämmighet; engelska: inconsistency)
i vilken utsträckning som förhållandena i de ingående studierna skiljer sig från översiktens inklusionskriterier (bristande överförbarhet; engelska: indirectness),
hur stor den statistiska osäkerheten är i det sammanvägda resultatet (bristande precision; engelska: imprecision) samt
hur stor risken är för snedvriden publicering av studier och resultat (engelska: publication bias).

När det vetenskapliga underlaget består av studier som inte är randomiserade tas även hänsyn till storleken på resultatet, eventuellt samband mellan dos och respons samt om tänkbara snedvridande faktorer (engelska: confounders) kan förväntas missgynna en intervention.

Tillförlitligheten klassificeras i fyra nivåer:

() Det sammanvägda resultatet har hög tillförlitlighet
() Det sammanvägda resultatet har måttlig tillförlitlighet
() Det sammanvägda resultatet har låg tillförlitlighet
() Det sammanvägda resultatet har mycket låg tillförlitlighet. (Det innebär att det inte går att bedöma om resultatet stämmer)

När det saknas studier som uppfyller inklusionskriterierna anges ”studier saknas”, utan klassificering.

En måttlig tillförlitlighet kan tolkas som att det är troligt att resultatet stämmer medan en låg tillförlitlighet kan tolkas som att det är möjligt att resultatet stämmer. I båda fallen är resultaten osäkra och tolkningen är att det i de flesta fall behövs mera forskning.

8.1.1 Riskområde 1: Risk för bias

Detta riskområde gäller inte risken för bias i enskilda studier, som redan är granskade med stöd av mallarna i Kapitel 5, utan hur stor risken är att det sammanvägda estimatet påverkas av brister i studierna [128]. Ett praktiskt hjälpmedel för att bedöma denna övergripande risk är en sammanställning av riskerna över samtliga inkluderade studier, det vill säga en tabell över risk för bias.

En tumregel när gruppen bedömer risken för bias är att inte göra ett enkelt genomsnitt av bedömningarna av respektive studie. Om det till exempel finns två studier som har flera mycket allvarliga risker och två som har få och mindre allvarliga risker så ska man inte ge totalbedömningen ”allvarlig risk” och dra ner tillförlitligheten ett steg. Istället måste projektgruppen noggrant överväga hur mycket varje studie bidrar till resultatet. Ett sätt att göra det är att utesluta studien ur metaanalysen och se hur mycket det påverkar resultatet. Om studier med mycket allvarliga brister bidrar litet så påverkar de inte heller resultatet i avsevärd omfattning. Titta även på hur stora studierna är och antalet utfall eller händelser som en del av övervägandet. GRADE rekommenderar en försiktig hållning vad gäller att göra avdrag för risk för bias. Det ska finnas en välgrundad uppfattning om att det finns en avsevärd risk för bias i de flesta studierna för att dra av.

Som regel inkluderar inte SBU studier med hög risk för bias i sina analyser. Om man använder systematiska översikter som andra forskare har tagit fram där studier med hög risk för bias har inkluderats kan det vara värt att överväga att ta bort dem från analysen om de förefaller störa resultatet. Nackdelen är att precisionen försämras eftersom antalet deltagare minskar. Det är viktigt att vara rättvis mot materialet, inte exkludera studier med hög risk för bias och sedan vara alltför kritisk vid bedömningen med GRADE i de kvarvarande studierna.

8.1.2 Riskområde 2: Bristande samstämmighet

Bristande samstämmighet, även kallat heterogenitet, betyder att studierna visar olika resultat. Om effekten varierar kraftigt mellan studier kan förklaringar ligga till exempel i att deltagarna haft olika svårighetsgrad av ett tillstånd eller problem, att insatserna eller jämförelserna inte varit tillräckligt lika, att resultaten mätts vid olika tidpunkter eller att studierna haft olika risk för bias [128].

Om det inte går att förklara den bristande samstämmigheten minskar resultatets tillförlitlighet.

Bedömningen av samstämmighet beror på om syftet med analysen är att avgöra om det finns någon effekt över huvud taget eller hur stor effekten är. I Faktaruta 8.2 och i Figur 8.1 till 8.3 finns exempel på hur samstämmighet kan bedömas. Mer information finns också i denna artikel av Guyatt och medarbetare [129].

Ett sätt att undersöka orsaker bakom resultat som skiljer sig åt är att genomföra stratifierade analyser på subgrupper. Dessa ska vara definierade redan i protokollet och funktionellt motiverade, till exempel ha en bakomliggande teoretisk förklaring.

Om subgruppsanalysen ingår i en redan publicerad systematisk översikt föreslår GRADE att analysen undersöks utifrån en uppsättning kriterier [129]:

författarna har definierat hypoteser om subgrupper och deras riktning på effekten i förväg
det finns en rimlig mekanism för en subgruppseffekt
man ser skillnader i effekt mellan olika subgrupper inom studier snarare än mellan studier
en statistisk analys antyder att slumpen är en osannolik förklaring
skillnaderna i effekt för en subgrupp är synliga genom studierna och med olika utfallsmått
subgruppsanalysen är en av få testade hypoteser.

8.1.3 Riskområde 3: Bristande precision

Precisionsdomänen bedöms främst utifrån konfidensintervallet för det sammanvägda resultatet. Ju smalare konfidensintervall, desto högre precision. GRADE fokuserar på konfidensintervallet för den absoluta effekten vid bedömningen av osäkerheter i precisionen. Beroende på vilken fråga som undersöks, kan det vara relevant att undersöka de relativa effekterna. För relativa effekter kan konfidensintervallet dock bli brett även när resultatet baseras på ett stort antal deltagare om antalet händelser i jämförelsegruppen är lågt. Projektgruppen kan då överväga att utgå från konfidensintervallet för den absoluta effekten för att bedöma precisionen [128]. För SBU är den vanligaste utgångspunkten att enbart bredden och läget på konfidensintervallet som bedöms.

Precisionen kan även bedömas utifrån ett på förhand specificerat tröskelvärde. För en närmare beskrivning av hur tröskelvärden konstrueras och används i GRADE hänvisar vi till denna artikel av Guyatt och medarbetare [128]. Se Faktaruta 8.3 om brist i precision även när konfidensintervallen är smala.

Även om konfidensintervallen verkar vara betryggande smala och resultatet robust kan det finnas en underliggande brist i precision när antalet händelser eller deltagare är lågt. I små randomiserade studier kan det till exempel fortfarande finnas en prognostisk obalans mellan grupperna. GRADE föreslår i dessa fall att precisionen även bedöms med stöd av måttet optimal information size (OIS). I en metaanalys är OIS det minsta antalet studiedeltagare som skulle behövas för att få tillräcklig statistisk teststyrka för att kunna påvisa en viss önskad effekt utifrån en förväntad relativ riskminskning och antalet händelser i jämförelsegruppen. OIS kan uppskattas med hjälp av webbverktyg som beräknar nödvändigt antal deltagare. För att beräkna OIS behöver α och β specificeras liksom Δ, det vill säga önskvärd effekt. Ofta används α = 0,05 vilket motsvarar 95 procent konfidensnivå och β = 0,2 vilket motsvarar en statistisk teststyrka på 80 procent. GRADE tillhandahåller också ett diagram som visar vilket antal deltagare som behövs för att uppnå olika nivåer av relativ riskminskning. Läs mer i denna artikel av Guyatt och medarbetare [128].

8.1.4 Riskområde 4: Bristande överförbarhet

Överförbarhet innebär att resultatet från studierna kommer att vara likartat för det sammanhang som forskningsfrågan avser [130]. Brister i överförbarheten kan bero på skillnader i population, insats, välfärdsystem, utfallsmått samt på indirekta jämförelser.

8.1.4.1 Population och insats

I GRADE finns det sällan skäl att göra avdrag för skillnader i populationerna om det gäller grupper som patienter eller personer som får en omsorgs- eller funktionsfrämjande insatser. Det ska då finnas tunga argument för att till exempel biologiska mekanismer skiljer sig så mycket åt att insatseffektens storlek påverkas. Undantagsvis kan underlaget för ett resultat baseras på helt andra populationer. Ett exempel på det är när man studerar biverkningar på råttor eller penicillinresistens som kan mätas i provrörsmiljö. I dessa fall minskar överförbarheten och enligt GRADE görs då avdrag med två steg. Överförbarheten kan också påverkas av att det i olika välfärdsystem är olika populationer som får likartade omsorgs- eller funktionsfrämjande insatser.

Överförbarheten kan också påverkas av skillnader i sammanhang (eng. setting) och hur en insats implementeras. Studier där insatsen getts av forskare eller utförare där genomförandet kontrolleras noga ger till exempel sannolikt bättre effekter än när insatsen implementeras och genomförs utanför forskarens kontroll. Det kan motivera ett avdrag.

8.1.4.2 Utfall

Det finns två viktiga aspekter på vid valet av utfallsmått och hur det påverkar överförbarheten. Den ena är användningen av så kallade surrogatmått. GRADE bygger på att utfallet mäts med mått som är viktiga för patienten eller individen (se även Kapitel 2 om val av utfall). Utfall som dödlighet, svår sjukdom, hög grad av funktionsnedsättning eller mycket angelägna behov av en stödinsats kan inträffa mer sällan under studietiden. För att sådana utfall ska uppkomma och detta i en mängd som blir tillräckligt stor ur statistisk synvinkel krävs stora studier och långa uppföljningstider. Därför väljer forskare istället ofta indirekta mått. Ett exempel på det är att mäta skolnärvaro som ett indirekt mått för psykisk ohälsa, eftersom psykisk ohälsa är svårare att mäta än skolnärvaro. Andra exempel är att mäta effekter av blodtrycksinsatser som förändrat blodtryck istället för hjärtinfarkt eller död i hjärt–kärlhändelser, eller att mäta effekter av osteoporosinsats som bentäthet istället för frakturer. För att bedöma hur överförbart ett indirekt mått är måste hänsyn tas till bland annat verkningsmekanismer och naturalförlopp. I vissa fall kan det skapa stora brister i överförbarheten, som motiverar två stegs avdrag enligt GRADE. Ett exempel på det är insatser med fosfatsänkande läkemedel för personer med njursvikt och hyperfosfatemi. Om surrogatmåttet förkalkning av kranskärl istället för hjärtinfarkt använts kan ni behöva göra ett stegs avdrag, och surrogatmåttet mätningar av omsättningen av kalcium och fosfat använts kan det motivera två stegs avdrag.

Den andra aspekten att tänka på gäller uppföljningstider som avviker från forskningsfrågan. Effekter vid korttidsmätningar kan ha ett litet värde för att bedöma effekter på längre sikt. Många insatser för att förebygga psykisk ohälsa hos barn har till exempel enbart uppföljningstider på några få månader trots är tänkta att minska problemen på flera års sikt.

8.1.4.3 Indirekta jämförelser

Ytterligare en hörnsten i GRADE är att i första hand basera systematiska översikter på jämförelser mellan två insatser som har förmodad effekt. Ofta saknas sådana direkta jämförelser. Istället kan underlaget bygga på studier som till exempel jämför insatserna var för sig mot placebo eller mot att inte få någon insats alls. Enligt GRADE:s vägledning ska man då överväga att göra avdrag med minst ett steg för bristande överförbarhet [130]. Ett sätt att hantera det problemet är att göra en nätverksmetaanalys. Det är en avancerad statistisk metod som sammanställer såväl direkta som indirekta jämförelser av insatser även när de inte har prövats sida vid sida i samma studie (Avsnitt 7.5).

8.1.5 Riskområde 5: Publikationsbias

Fenomenet publikationsbias, det vill säga att studier av olika skäl inte publiceras alls eller med tidsfördröjning, är sannolikt mycket vanligt, oavsett om det gäller effekter av insatser eller värdet av diagnostiska tester. Se Figur 8.4 nedan för exempel. I Avsnitt 7.1.9 finns mer information om publikationsbias.

Ett liggande stapeldiagram som visar att fler studier med negativa resultat är opublicerade.

I exempelstudien ovan undersökte forskarna om effektstorleken för att minska symtom på egentlig depression med antidepressiva läkemedel påverkades av att de tog med resultat från opublicerade studier i en metaanalys [64]. Av de publicerade studierna visade de flesta av studierna att läkemedlen var effektiva. Ytterligare ett antal studier redovisade ingen signifikant skillnad på det primära utfallet men presenterade resultat för till exempel subgrupper (”positiv vinkel”). Av de opublicerade studierna såg endast två någon effekt av läkemedlen. Konsekvensen blev en överskattning av läkemedlens effekt.

Det kan vara svårt att bedöma hur allvarlig risken för publikationsbias är. Det finns flera metoder som kan ge en fingervisning om att det saknas studier men det behövs indicier från mer än en metod för att motivera avdrag för det. Till skillnad från övriga riskområden i GRADE kan bara ett stegs avdrag göras för publikationsbias. GRADE rekommenderar att man överväger att göra avdrag med ett steg om underlaget enbart består av små studier [131]. Om studierna dessutom är sponsrade av företag eller om studieförfattarna har någon annan form av intressekonflikter ökar risken för publikationsbias. Om underlaget består av många studier kan även risken för publikationsbias undersökas med hjälp av ett trattdiagram. Läs mer om trattdiagram i Avsnitt 7.1.9.

En viktig informationskälla för att bedöma risken för publikationsbias är sakkunniga på området. Fråga dem ifall de känner till att det finns studier som har presenterats på till exempel kongresser men som inte publicerats i vetenskapliga tidskrifter. Det går också att fråga forskare och forskande företag och organisationer om de har opublicerade studier. Ett annat bra komplement för insatsstudier är att undersöka om det finns några protokoll registrerade i forskningsdatabaserna, till exempel clinicaltrials.gov eller WHO:s databas ICTRP. Registrerade protokoll bör i normalfallet leda till en publicerad studie. Dock är det möjligt att studierna har avbrutits av fullt legitima skäl.

8.1.6 Att bedöma tillförlitlighet när det bara finns en eller ett fåtal små studier

Tillförlitligheten av ett resultat ska bedömas med stöd av GRADE även när det vetenskapliga underlaget är litet, det vill säga om det består av en enda studie eller ett fåtal små studier. Tillämpa GRADE på samma sätt som när det finns ett mer omfattande underlag när det gäller överförbarhet och publikationsbias. Brister i samstämmighet är endast relevant att bedöma om det finns mer än en studie. Ett resultat som bygger på ett klent underlag blir dock mer känsligt för brister som leder till bias eller dålig precision.

8.1.7 Ökar risken för bias när resultaten inte har upprepats?

Risken för bias ökar om en studie inte har upprepats av andra forskare eller forskargrupper. Ett undantag kan vara om underlaget består av en stor studie där flera vård- eller omsorgsgivare deltar, en så kallad multicenterstudie, och där resultaten är samstämmiga mellan de centrum som deltar. De olika centrumen bör då ha bidragit i likartad utsträckning – det får inte vara så att ett enskilt, stort center fått en dominerande effekt på studiens resultat.

Risken för att resultatet påverkats av bias minskar också om det finns en vetenskaplig grund, och inte bara en rimlig hypotes. Det gäller särskilt om det finns en känd verkningsmekanism eller om insatsen bygger på en teoretiskt välunderbyggd och allmänt vedertagen programteori. På samma sätt minskar risken att resultaten påverkats när det finns vedertagna likartade insatser inom samma område som har bekräftad effekt, till exempel läkemedel inom samma läkemedelsklass eller föräldrastödsprogram som bygger på liknande komponenter.

Slutligen minskar risken att resultaten påverkats om resultaten är likartade för olika utfallsmått, till exempel att samtliga visar en statistiskt signifikant effekt, eller om utfall med olika känslighet uppvisar samma trend. Om resultaten skiljer sig åt behöver det inte försvaga tillförlitligheten om det finns en bra förklaring, exempelvis om bortfallen för olika utfallsmått är olika stora.

8.1.8 Finns det risk för att förväntningar eller bristande forskningsetik påverkat resultatet?

När underlaget består av en enda studie eller av flera små studier där en enda forskare eller forskargrupp haft ett stort inflytande bör man vara extra uppmärksam på risken för att data har snedvridits. Studierna och de analyser som ingår kan nämligen ha vinklats för att bekräfta en viss hypotes och i värsta fall kan data vara fabricerade. Om projektgruppen bedömer att det finns en risk för felaktig rapportering kan det motivera ett extra avdrag i domänen risk för bias. Maximalt avdrag blir då alltså tre steg.

Resultatet kan anses vara mer tillförlitligt när studien är gjord av forskare som inte själva har utvecklat metoden eller insatsen som de studerar.

8.1.9 Är antalet observationer så litet att slumpen får en avgörande roll?

Det viktiga är inte hur många deltagare studien har utan hur många händelser som observerats. När det finns få händelser spelar slumpen en större roll. Det går dock inte att ge några generella råd om vad som är för få eller tillräckligt många observationer utan det behöver avgöras från fall till fall. Problem med få observationer hanteras inom domänen Precision.

Om den statistiska säkerheten i studien är övertygande med ett stort antal händelser så stärker det tillförlitligheten.

8.1.10 Faktorer som kan öka tillförlitligheten av det sammanvägda resultatet

För kontrollerade studier utan randomisering kan det enligt GRADE undantagsvis finnas skäl att gradera upp tillförlitligheten ett eller två steg [132]. Tre faktorer nämns som kan öka tillförlitligheten:

den sammanvägda effekten av en insats är mycket stor
det finns ett samband mellan exempelvis dos av ett läkemedel eller antal gånger en psykosocial insats genomförs och effekten på ett relevant utfall (medicinsk term: dos-responssamband)
det finns kända confounders (förväxlingsfaktorer) som resulterar i en lägre effekt.

En förutsättning för att kunna gradera upp tillförlitligheten är dock att risken för bias inte får vara allvarlig.

8.1.11 Sammanställning i en SoF-tabell

Sammanvägda resultat för de olika måtten och deras tillförlitlighet ska redovisas i ett standardiserat format, en så kallad SoF-tabell (eng. summary of findings), se Tabell 8.1 [133] [134]. Syftet med tabellen är att underlätta för läsaren att förstå och tolka resultaten. Det måste framgå om det är ett punktestimat med konfidensintervall eller att det finns någon effekt överhuvudtaget som bedöms med hjälp av GRADE, För läsaren kan det vara intressant att kunna läsa om både relativa och absoluta effekter. Det kan också vara värdefullt att dela upp resultat för deltagare med olika risker vid baslinjen. Relativa effekter är visserligen mer likartade oavsett risk, men uppgifter om absolut risk kan underlätta beslut i vård och socialtjänst.

Tabell 8.1 Exempel på en Summary of findings-tabell [135]. Tabellen sammanställer effekter av Oxikodon på smärta vid diabetesneuropati hos äldre personer jämfört med placebo samt hur tillförlitliga resultaten är.
Utfallsmått	Antal individer respektive studier	Sammanvägt resultat	Tillförlitlighet i vetenskapligt underlag	Kommentarer
¹ En effektskillnad vad gäller smärta med cirka 0,7 skalsteg på en skala 0–10 bedömer vi som mycket liten effekt. ² Bristande överförbarhet: studiedeltagarna var i genomsnitt cirka 60 år. Vår frågeställning berör individer 65 år och äldre. KI = Konfidensintervall; RCT = Randomiserad kontrollerad studie; RD = Risk difference
Oxikodon 10–160 mg jämfört med placebo
Förändring på numerisk smärtskal (0–10)	n=497 2 RCT	Oxikodon minskar smärta med i genomsnitt 0,7 skalsteg (95 % KI, 0,29 till 1,12) mer än placebo	Måttlig tillförlitlighet för en mycket liten¹effekt av oxikodon vad gäller smärta	Överförbarhet^2:–1

Det är viktigt att ange motiveringarna till varje GRADE-bedömning i tabellen, antingen i en särskild kolumn eller i fotnoter. Det finns också en programvara, GRADE Pro, som kan användas som stöd för att fylla i tabellen. Mer information om hur uppgifter för dikotoma utfall kan beskrivas i SoF-tabellen finns här [133], och här finns information om kontinuerliga utfall [134].

Ett speciellt problem med att sammanställa resultat i tabellen uppstår när utfallsmåttet är kontinuerligt och beräknas som en standardiserad medelvärdesskillnad, uttryckt som SMD eller Cohen’s d (Faktaruta 7.2). Den standardiserade medelvärdesskillnaden kan vara svårtolkad. Den kan dock översättas direkt till effektstorlek uttryckt enligt tumreglerna för Cohen’s d eller Hedges g. För forskningsfält där de måtten är väl etablerade kan det därför vara en bra idé att presentera resultaten som Cohen’s d.

8.1.12 Diagnostisk tillförlitlighet

GRADE fokuserar på utfall som är viktiga för patienten, personen eller klienten, det vill säga värdet av att en metod förbättrar hälsa, minskar problem eller tillgodoser behov. Inom GRADE anses därför att sensitivitet och specificitet som surrogatmått för det viktiga utfallet. Resultaten får därmed minskad överförbarhet. När forskningsfrågan gäller vilken diagnostisk tillförlitlighet en metod har, det vill säga när de primära utfallsmåtten är just sensitivitet och specificitet, görs dock inget avdrag för brister i överförbarheten för denna aspekt.

Om en bedömning av tillförlitligheten för sensitivitet eller specificitet görs, presentera dem var för sig. Det innebär alltså att tillförlitligheten kan skilja sig mellan resultatet för sensitivitet och specificitet.

Eftersom dessa resultat kan vara svårtolkade är det bra att visa vad resultatet betyder för exempelvis 100 000 personer vid olika prevalens av tillståndet. I Tabell 8.2 finns ett exempel.

Tabell 8.2 Exempel SoF-tabell med ett indextest (Sensitivitet = 90%, Specificitet = 80%).
	Resultat per 100 000 testade individer (95 % KI)		Antal deltagare(Studier)	GRADE	Kommentar
Utfall	Prevalens 5 %	Prevalens 10 %	Antal deltagare(Studier)	GRADE	Kommentar
Sant positiva	4 500	9 000	2 000 (10)		−1 Risk för bias
Falskt positiva	19 000	18 000	2 000 (10)		−1 Risk för bias
Sant negativa	76 000	72 000	2 000 (10)		−1 Risk för bias
Falskt negativa	500	1 000	2 000 (10)		−1 Risk för bias

Det går även att bedöma tillförlitligt det är att sensitiviteten respektive specificiteten överskrider ett visst tröskelvärde, till exempel att tillförlitligheten att testet eller bedömningsmetoden har minst 70 procents specificitet. Tröskelvärdet bör i dessa fall ha satts redan innan projektstarten utifrån vad som är relevant och tillräckligt bra inom sjukvård respektive socialtjänst eller arbetsmiljöområdet. Ett sådan värde påverkas också av i vilket skede av det diagnostiska flödet ett test utförs. Om man vid ett positivt resultat går vidare och validerar med ytterligare ett test eller bedömningsmetod så kan man troligen acceptera fler falskt negativa tester än annars.

8.1.13 Prediktion

Tillförlitligheten av sammanvägda resultat för prediktionsfaktorer bedöms utifrån samma fem domäner som för insatsstudier enligt GRADE [136]. Det gäller även tillförlitlighet hos den typ av prediktion som innefattar stratifierad medicin, det vill säga effekten av insatser baserat på en prediktionsfaktor eller -modell.

Det kan krävas särskilda ställningstaganden vid bedömning av tillförlitligheten hos resultat från prognostiska modeller. En arbetsgrupp inom GRADE arbetar med att ta fram underlag om detta.

8.2 CERQual: Tillförlitlighet av sammanvägda fynd från syntes av studier med kvalitativ metodik

Tillförlitligheten av fynd från kvalitativa synteser bedöms med stöd av GRADE-CERQual [137]. Syftet är att på ett transparent sätt bedöma och beskriva hur stor tilltro som beslutsfattare och andra kan ha till fynden. CERQual definierar tillförlitligheten som en bedömning av i vilken utsträckning fyndet är en rimlig representation av fenomenet. Ett alternativt sätt att formulera det är i vilken utsträckning fyndet är ”substantiellt” skiljt från fenomenet. Med det menas att skillnaden är så stor att den påverkar beslutsfattandet.

Med fynd avses resultatet från ett analytiskt arbete som beskriver ett fenomen eller en aspekt av ett fenomen baserat på data från primärstudier. CERQual är inspirerat av GRADE och har utvecklats i samarbete med GRADE Working Group. CERQual är avsett att fungera som ett strukturerat stöd för bedömningar och tolkningar som är subjektiva. I publicerade studier har CERQual hittills tillämpats för deskriptiva fynd och inte för tolkande, men utvecklingsarbete pågår inom det området. Organisationen bakom CERQual har också tagit fram ett gratisprogram som stöd för tillförlitlighetsbedömningen.

CERQual består av fyra riskområden, som också kallas komponenter eller domäner:

metodologiska begränsningar
relevans
koherens
tillräckliga data.

Precis som med GRADE utgår man från att fyndet är tillförlitligt och gör avdrag för brister som kan påverka tillförlitligheten. Tillförlitligheten klassificeras i fyra nivåer. I Faktaruta 8.4 beskrivs hur de olika nivåerna kan tolkas.

Faktaruta 8.4 Klassificering av tillförlitlighet enligt CERQual.

En systematisk översikt av studier med kvalitativ ansats syntetiserar fynd från olika studier i en metasyntes. Det sista steget i arbetet är att bedöma hur tillförlitliga de syntetiserade fynden är. SBU använder det internationellt utarbetade systemet GRADE-CERQual (https://www.cerqual.org/) som ett stöd i bedömningarna. En viktig del av GRADE-CERQual är att alla bedömningar ska motiveras så att det är möjligt för läsaren att granska dem och göra sin egen värdering av tillförlitligheten.

Bedömningen med GRADE-CERQual tar hänsyn till fyra olika aspekter:

risken för att det syntetiserade fyndet påverkats av metodproblem i de underliggande studierna (engelska: Methodological limitations)
hur klart och övertygande fyndet avspeglar komplexitet och variation i underliggande data (engelska: Coherence)
i vilken utsträckning som förhållandena i de ingående studierna skiljer sig från inklusionskriterierna (bristande relevans; engelska: Relevance),
risk för att fyndet påverkats av mängden och kvaliteten på data (otillräckliga data; engelska: Adequacy of data)

Tillförlitligheten klassificeras i fyra nivåer:

() Det syntetiserade fyndet har hög tillförlitlighet
() Det syntetiserade fyndet har måttlig tillförlitlighet
() Det syntetiserade fyndet har låg tillförlitlighet
() Det syntetiserade fyndet har mycket låg tillförlitlighet. (Det innebär att det inte går att bedöma om fyndet avspeglar fenomenet ifråga)

En måttlig tillförlitlighet kan tolkas som att det är troligt att fyndet representerar fenomenet medan en låg tillförlitlighet kan tolkas som att det är möjligt att fyndet representerar fenomenet. I båda fallen finns en osäkerhet och tolkningen är att det behövs mera forskning.

8.2.1 Riskområde 1: Metodologiska begränsningar

Med metodologiska begränsningar avses i vilken utsträckning design och genomförandet av studierna påverkar tillförlitligheten hos deras resultat [138]. Bedömningen grundar sig på resultatet av granskningen av de individuella studier som är underlag för fyndet. Man måste ta hänsyn till hur mycket varje enskild studie bidrar, vilka brister som identifieras och hur de kan påverka fyndet. Mer information om metodologiska begränsningar finns i [138].

Det går också att göra en matris som illustrerar metodbrister hos de olika studierna på samma sätt som för kvantitativa studier.

8.2.2 Riskområde 2: Relevans

Med relevans avses i vilken utsträckning de data som finns i de underliggande studierna är tillämpliga för forskningsfrågan och för sammanhanget [139] och motsvarar ungefär riskområdet bristande överförbarhet i GRADE. Ofta stämmer studierna väl överens med satta inklusionskriterier men ibland måste man acceptera vissa avvikelser. Relevansen kan då bli indirekt, partiell eller osäker. Mer information om relevanskomponenten finns här [139].

Bedömningen underlättas om relevansen i de enskilda studierna har noterats i samband med granskningen av metodbrister i primärstudierna.

8.2.3 Riskområde 3: Koherens

Kvalitativa fynd utvecklas genom att identifiera mönster i data över de studier som ingår. Med koherens avses att fyndet är väl underbyggt av data från studierna och ger en övertygande förklaring för de mönster som identifierats [140]. Koherensen kan vara kontextuell, där studierna är likartade beträffande population, sammanhang med mera, eller konceptuell, där mönstren kan förklaras i relation till en ny eller existerande teori. Teorin kan vara internt utvecklad, det vill säga härröra från en eller flera studier i underlaget, eller externt, det vill säga en etablerad teori. Ett tredje alternativ är att teorin utvecklas som del av syntesprocessen.

Fynd från synteser kan ses som transformationer av underliggande data till beskrivningar, tolkningar eller förklaringar av fenomenet. Beskrivningar är de minst transformerade formerna medan förklaringar är de mest transformerade. Mellan dessa ytterligheter finns fynd som till exempel visar mönster av samband eller länkar mönster i data till teoretiska koncept. Olika syntesmetoder ger också fynd med olika grad av transformation. Metaaggregation ger mer deskriptiva fynd medan till exempel metaetnografi ger mer förklarande fynd. Risken för bristande koherens ökar ju mer förklarande fynden är.

Deskriptiva fynd ger en sammanfattning av underliggande mönster av data som har extraherats från studierna. Om mönstren är komplexa eller varierande beror koherensen på hur väl komplexitet och variation beskrivs i fyndet. Det innebär att ett fynd kan behöva beskrivas detaljerat. Koherensen försämras om endast de mest dominanta mönstren i fyndet beskrivs och beskrivningen inte täcker oklara eller avvikande data. Ett exempel på det är fyndet ”kvinnor känner sig bekväma med att genomföra en medicinsk abort hemma” som är en alltför förenklad bild av fyndet ”kvinnors erfarenheter av att genomföra en medicinsk abort i hemmet varierade – några kände sig överväldigade, andra kände sig komfortabla och ’empowered’ och ytterligare några uppgav att det var precis som vilken annan mindre procedur som helst” [140].

Koherensen i mer förklarande fynd minskar om det finns data i de underliggande studierna som utmanar den tolkning eller förklaring som gjorts i översikten. Den minskar också om det finns andra möjliga tolkningar eller förklaringar.

Bedömning av koherens i en syntes ger en möjlighet till både reflexivitet och att överväga om det kan finnas andra sätt att syntetisera fynden på som bättre kan fånga underliggande data. Det är därför viktigt att aktivt leta efter data som komplicerar eller utmanar fynden och försöka förklara dessa variationer eller undantag. Om det inte går att komma fram till någon övertygande förklaring till dem minskar tillförlitligheten till att fyndet verkligen representerar fenomenet. Det kan finnas flera orsaker till att det är svårt att förklara undantag, som att dataunderlaget är för magert, teorin har brister eller att urvalet av studier till översikten var alltför begränsat. Undvik att släta över eller bortse från motstridiga fynd. Det kan vara frestande att till exempel formulera fyndet på ett vagare sätt för att öka koherensen, men hela syftet med bedömningen är att klarlägga graden av osäkerheter i fyndet.

Läs mer om koherensbedömningen i [140].

8.2.4 Riskområde 4: Tillräckliga data

Riskområdet handlar dels om hur rika data är, dels kvantiteten data [139]. Rika data ger tillräckligt med detaljer för att man ska förstå fenomenet, men den totala mängden data är också viktig. Om underlaget består av ett fåtal studier eller ett fåtal observationer minskar tillförlitligheten till att fyndet återspeglar fenomenet. Det är i så fall oklart om studier som genomförs i andra miljöer eller med andra grupper skulle ge samma bild.

Det finns inga regler som avgör när data är tillräckligt rika eller tillräckligt omfattande utan den bedömning som måste göra från översikt till översikt. CERQual föreslår att begreppet mättnad kan vara användbart i vissa fall eller att man överväger i vilket utsträckning ytterligare data skulle påverka fyndet. För övrigt kan ett mindre antal konceptuellt rika studier bidra mer till ett fynd än ett större antal studier med magra, deskriptiva data. Läs mer här kring bedömning av tillräckliga data [141].

8.2.5 Sammanvägd bedömning

För att underlätta den sammanvägda bedömningen av tillförlitligheten utifrån bedömningen från de olika domänerna kan en så kallad evidensprofil användas. Här finns ett förslag på en sådan från CERQual [142]. Precis som med GRADE sammanställs sedan fynden, antal underliggande studier och deltagare samt en sammanvägd bedömning av tillförlitligheten hos respektive fynd i en SoF-tabell. Motiven till eventuella avdrag ska framgå i anslutning till tabellen, till exempel i form av fotnoter eller i en egen kolumn. Exemplet i Tabell 8.2 visar en SoF-tabell med CERQual-bedömningar av sex underteman i ett projekt om erfarenheter av behandling av postpartumdepression.

Tabell 8.3 Exempel på SoF-tabell för en syntes av kvalitativ evidens.
Fynd på nivå 2: underteman	Antal studier Antal deltagare för undertemat	Fyndets tillförlitlighet (CERQual)	Kommentar till gjorda avdrag
Viktiga förutsättningar för kvinnorna att få insats var de egna praktiska möjligheterna och socialt stöd.	5 99	Låg tillförlitlighet	–1 för metodbrister,totalt –1 för mindre brister i tillräckliga data och relevans
Kvinnornas förväntningar, tidigare erfarenheter och syn på postpartumdepression inverkade på deras upplevelse av behandling och dess möjligheter.	7 145	Måttlig tillförlitlighet	–1 för metodbrister
Den givna behandlingens format upplevdes av de flesta som positivt, men specifika önskemål framfördes angående individuell anpassning och omfattning.	6 129	Måttlig tillförlitlighet	–1 för metodbrister
En god relationen till behandlaren, och tankar om dennes kompetens, hade betydelse för kvinnornas upplevelse av behandlingen.	8 256	Måttlig tillförlitlighet	–1 för metodbrister
Kvinnorna uttryckte skilda åsikter om behandlingarnas innehåll, terapeutiska förhållningssätt och förväntad egen insats.	7 234	Måttlig tillförlitlighet	–1 för metodbrister
Kvinnorna beskrev positiva resultat av behandlingen såsom högre självtillit och ökad föräldrakompetens, men enstaka kvinnor upplevde inte någon förbättring.	8 256	Måttlig tillförlitlighet	–1 för metodbrister

9. Om vetenskapliga kunskapsluckor och behov av ytterligare forskning

Detta kapitel är avsett att ge vägledning för att skriva om vetenskapliga kunskapsluckor och behov av fortsatt forskning utifrån den systematiska översiktens frågeställning.

9.1 Viktigt att även lyfta var mer forskning behövs

Genom att granska och sammanställa forskning i en systematisk översikt går det att identifiera vilka insatser som har ett vetenskapligt stöd och var det finns oklarheter, det vill säga vetenskapliga kunskapsluckor. Det gör att systematiska översikter bör vara en självklar utgångspunkt vid prioritering och uppstart av nya forskningsprojekt.

I en välgjord systematisk översikten presenteras resultat för alla delar av ett förutbestämt PICO, PIRO eller annat frågeformat på ett transparent sätt, oavsett hur många relevanta studier som identifierats. Översikten kan peka ut vetenskapliga kunskapsluckor där det antingen helt saknas studier för frågan eller där de studier som finns är för få, för små, har hög risk för bias eller visar motstridiga resultat. Då behövs mer praktiknära forskning för att ta fram kunskap om för- och nackdelar med åtgärden eller metoden. Det är därför viktigt att publicera systematiska översikter även när de inte identifierar några primärstudier inom området. De visar på behov av ytterligare forskning.

9.2 De viktigaste kunskapsluckorna

De kunskapsluckor där det finns ett klart behov av vidare forskning bör anges i översikten. Fler studier ska kunna leda till att det blir tydligt vilka insatser som ger en tillräckligt bra effekt för att göra en relevant skillnad för patienter, personer och klienter, deras närstående och personal.

9.3 Vad som behövs i kommande forskning för att stärka det vetenskapliga underlaget

För att öka sannolikheten att framtida forskning kommer att stärka det vetenskapliga underlaget är det bra att beskriva hur de identifierade bristerna i översikten skulle kunna överbryggas, det vill säga hantering av orsaken till att tillförlitligheten inte är tillräckligt hög hos det slutliga resultatet. Det kan till exempel gälla vad som skulle behövas för att minska risken för bias och ge tillförlitliga resultat eller vilken studiedesign som skulle vara lämplig för att besvara frågan. Det kan också gälla viktiga utfall som saknas i de befintliga studierna, till exempel utifrån prioriterade utfall (eng. core outcome set). Om det är ett helt område som behöver en större satsning eller samordning för att komma till rätta med kunskapsluckorna bör detta tas upp i rapporten. I faktaruta 9.1 finns mer information om vetenskapliga kunskapsluckor och om SBU:s databas.

SBU listar vetenskapliga kunskapsluckor inom områdena hälso- och sjukvård, tandvård, socialtjänst, funktionstillstånd och funktionshinder samt arbetsmiljö för att visa var det behövs ny forskning. Med hjälp av databasen över vetenskapliga kunskapsluckor samverkar SBU bland annat med forskningsfinansiärer. Målet är att framtida forskningsprojekt ska göra nytta för brukare, klienter, patienter och närstående.

Vad är en vetenskaplig kunskapslucka och vad behövs för att fylla den?

En vetenskaplig kunskapslucka innebär att det saknas evidens som visar vilken sammanvägd effekt en metod eller insats har, det vill säga kunskap från en systematisk översikt. Det finns tre typer av vetenskapliga kunskapsluckor enligt SBU:s modell baserat på vilken forskning som behövs för att fylla luckan:

En systematisk översikt behövs när vi inte vet vilka studier som finns och därmed inte den sammanvägda effekten. De primärstudier som eventuellt finns behöver därför identifieras, granskas och vägas samman i en systematisk översikt för att kunskapsläget ska kunna fastställas.
Fler primärstudier behövs när det finns en tillförlitlig systematisk översikt som visar att det är osäkert vilken den sammanvägda effekten är. Det kan bero på att det saknas studier, att studierna har bedömts ha hög risk för systematiska fel, är för få, för små eller visar motsägande resultat. Man säger då att tillförlitligheten av den sammanvägda effekten är mycket låg, till exempel enligt bedömningsverktyget GRADE.
En uppdaterad systematisk översikt behövs när det tidigare har gjorts en systematisk översikt som visar att det behövs primärstudier, och det finns skäl att tro att nya studier har tillkommit som kan ändra kunskapsläget.

Kunskapsluckorna i SBU:s databas kommer från SBU:s egna rapporter och från de vetenskapliga underlagen till Socialstyrelsens nationella riktlinjer, rapporter från de regionala HTA-organisationerna och från andra systematiska översikter, till exempel från Cochrane och Campbell Collaboration. För att SBU ska lägga in en ny vetenskaplig kunskapslucka databasen krävs att metoden eller insatsen används i Sverige, eller kan bli aktuell för det inom en snar framtid.

De primära målgrupperna för SBU:s arbete med vetenskapliga kunskapsluckor är forskare och forskningsfinansiärer. Databasen ger SBU möjlighet att sammanställa, analysera och visa på vetenskapliga kunskapsluckor inom områdena hälso- och sjukvård, tandvård, socialtjänst, funktionstillstånd och funktionshinder samt arbetsmiljö. Den ger också möjlighet för forskare och forskningsfinansiärer att själva söka efter konstaterade kunskapsluckor, se Figur 9.1.

Ett hjul där brukare, profession och närstående är placerade i mitten. Runt hjulet finns olika forskningsrelaterade aktiviteter utmärkta som kan leda till ökad nytta för de i centret.

Att fylla vetenskapliga kunskapsluckor genom praktiknära forskning kräver samverkan mellan många olika aktörer. Processen kan liknas vid ett ekologiskt system där de enskilda aktiviteterna är beroende av varandra (Figur 9.1). I den processen bidrar SBU på flera sätt, bland annat genom att göra systematiska översikter och publicera konstaterade vetenskapliga kunskapsluckor i en databas.

10. Tillämpning av redan publicerade systematiska översikter

Under de senaste 20 åren har antalet publicerade systematiska översikter och metaanalyser ökat kraftigt. Att återanvända publicerade systematiska översikter kan vara ett kostnadseffektivt arbetssätt som ökar hälso- och sjukvårdens tillgång till evidensbaserad kunskap; detta gäller också andra områden som socialtjänst, funktionshinder och arbetsmiljö. Systematiska översikter från andra aktörer kan användas antingen helt eller delvis (Figur 10.1).

En illustration av olika användningsområden för systematiska översikter utifrån risken för bias hos översikten.

10.1 Möjliga användningsområden för systematiska översikter

Förutsättningen för att man ska kunna använda delar av en redan publicerad systematisk översikt är att den ryms inom ditt projekts urvalskriterier. I ett första steg bedöms graden av användbarhetmed hjälp av formuläret SNABBSTAR , som bygger på frågorna i granskningsmallen AMSTAR [143] [144]. SNABBSTAR är uppbyggd så att den systematiska översikten granskas utifrån sex delsteg. Dessa delsteg är:

Frågeställning och litteratursökning
Relevansbedömning
Risk för bias bedömning och datapresentation av de inkluderade studierna
Sammanvägning och analys
Evidensgradering och slutsatser
Transparant dokumentering.

Syftet är att med minsta möjliga arbetsinsats avgöra vilka systematiska översikter som inte kan användas alls, vilka som kan vara grund för fortsatt arbete och vilka som redan är helt användbara. De översikter som bedöms som helt användbara bör granskas ytterligare med hjälp av ROBIS (Avsnitt 10.2) innan man inkluderar resultat från dem i sin översikt. Om man däremot enbart vill använda sig av sökstrategin eller inkluderade studier från en befintlig systematisk översikt behövs ingen ytterligare granskning. Man kan även använda sig av resultaten i en översikt men göra en ny bedömning av tillförlitligheten med hjälp av GRADE. I Faktaruta 10.1 finns exempel på SBU-rapporter som delvis bygger på andra systematiska översikter.

Faktaruta 10.1 SBU-rapporter som delvis bygger på översikter.

Flera SBU-rapporter, till exempel [145] [146] [147] har utgått helt eller delvis från andra, äldre systematiska översikter. SBU har då gjort en ny litteratursökning från det år där den äldre översiktens litteratursökning slutade.

Ett annat exempel är SBU:s rapport om att förebygga missbruk hos barn och unga [148]. Här fanns redan flera systematiska översikter från Cochrane Collaboration med välgjorda sökstrategier och tillfredsställande processer för att gallra studier. Problemet var att de översikterna hade accepterat studier med kortare uppföljningstid än SBU:s specificerade PICO. Med ledning av information i tabellerna valde SBU ut de studier som hade tillräcklig uppföljningstid ut, bedömde risken för bias och förde in studier med låg och måttlig risk för bias i nya metaanalyser. I och med att det ursprungliga antalet abstrakt var mycket stort sparades mycket tid genom att använda Cochrane-rapporterna.

10.2 Bedömning av risk för bias för systematiska översikter med ROBIS-mallen

ROBIS-mallen är utvecklad för att bedöma av systematiska översikters risk för bias och kan integreras i GRADE (Kapitel 9). ROBIS har utvecklats av Cochrane Collaboration. Originalformuläret på engelska med en detaljerad manual finns här. Den som inte har tidigare erfarenhet av att bedöma systematiska översikter med ROBIS rekommenderas att läsa igenom manualen. SBU har översatt formuläret till svenska och till skillnad från Cochranes original-mall har den svenska översättning en tilläggsfråga (en domän) för att bedöma intressekonflikter. För skillnader och val mellan AMSTAR och ROBIS, se Faktaruta 10.2.

10.2.1 Struktur på ROBIS

Detta avsnitt beskriver översiktligt de olika riskområdena i ROBIS-mallen. Mer detaljerad information finns i SBU:s steg-för-steg-instruktioner och i den tillhörande manualen.

ROBIS är uppbyggd på samma sätt som mallarna för primärstudier, med metodologiska domäner och stödfrågor. Bedömningen görs i tre steg:

relevansbedöm översikten, granska den sedan med hjälp av ROBIS
identifiera eventuella brister i översiktens metodologiska arbetsprocess utifrån fyra domäner: kriterier för val av studier (PICO, SPICE eller motsvarande), identifiering och val av studier, datainsamling och bedömning av studierna och de inkluderade utfallens risk för bias samt analys och slutsatser
bedöm den sammantagna risken för bias som låg, hög eller oklar med stöd av fyra frågor.

10.2.2 Domän 1: Kan urvalskriterierna leda till risk för bias?

Författarna bör ha specificerat sin frågeställning och sina kriterier för vad de ska inkludera redan innan de påbörjar arbetet med litteratursökningen. För att kunna bedöma om de har gjort avsteg från sin frågeställning eller kriterierna för inkludering behövs tillgång till översiktens protokoll, alternativt studieplanen eller forskningsplanen. Protokollen kan exempelvis finnas registrerade i databasen PROSPERO. Författare publicerar också ibland protokollet som en vetenskaplig artikel.

10.2.3 Domän 2: Leder brister i litteratursökning och relevansbedömning till att relevanta studier saknas?

En bristande sökstrategi kan leda till att relevanta studier inte kommer med i litteratursökningen och att översiktens resultat blir otillförlitligt. Om sökstrategin bedöms bristfällig bedöms denna domän som hög risk för bias. Det kan vara svårt att avgöra om en sökstrategi fångat den nödvändiga litteraturen. Ett tips kan då vara att ta hjälp av en informationsspecialist (en specialist på att söka vetenskaplig litteratur) för att bedöma om hur sökstrategin påverkat sökresultatet.

Ytterligare en aspekt som bedöms inom domän 2 är hur urvalet av studier genomförts. Har utförarna gjort oberoende abstrakt och relevansgranskning? Först därefter görs en slutlig bedömning för hela domänen.

10.2.4 Domän 3: Har den systematiska översiktens resultat snedvridits genom bedömning av studierna eller vid dataextraktion?

I den här domänen bedöms om översiktsförfattarna har hanterat data från de inkluderade studier på ett lämpligt sätt. Här bedöms också om dataextraktionen kontrollerades av flera personer oberoende av varandra och om all essentiell information om studien finns tillgänglig och redovisad.

10.2.5 Domän 4: Påverkas den systematiska översiktens resultat av brister i dess syntes och analys?

I den här domänen bedöms risk för bias vid syntes och analys samt om utfallet är pålitligt utifrån till exempel publikationsbias. Fundera på om de metoder författarna har använt för att väga samman studiernas resultat är lämpliga. Ett första övervägande är om de har gjort metaanalyser eller kvalitativa synteser och om det var lämpligt att göra sådana. Är studierna som ingår i metaanalysen tillräckligt homogena? Har författarna motiverat sitt val av metod för metaanalysen eller den kvalitativa syntesmetoden (se Kapitel 7 för närmare beskrivning av olika metoder).

10.3 Granskning av metodproblem i systematiska översikter av kvalitativ forskning

Det finns ytterst få mallar eller checklistor framtagna som stöd för att bedöma risk för att fynden har påverkats av metodproblem för systematiska översikter av studier med kvalitativ metodik. Många aspekter i bedömningen är samma som för kvantitativ forskning men några skiljer sig åt. SBU har tagit fram två granskningsmallar (en kort och en mer utförlig) som bygger på ROBIS och ENTREQ:s riktlinjer för att genomföra och rapportera kvalitativa översikter [6].

10.4 Publicerade och befintliga systematiska översikter som huvuddel till en ny systematisk översikt

En redan publicerad systematisk översikt kan utgöra ett underlag en ny systematisk översikt. Den systematiska översikten behöver först risk för bias-bedömas med stöd av ROBIS eller granskningsmallen för kvalitativa översikter. För att kunna godta översiktens resultat bör den systematiska översikten ha bedömts ha låg risk för bias. Exempelvis bör författarna ha genomfört en uttömmande litteratursökning och redovisat den på ett transparent sätt. Även systematiska översikter som bedömts ha måttlig risk för bias kan ibland utgöra underlag till en ny systematisk översikt om till exempel bristen ligger i att författarna inte har bedömt risken för bias för enskilda studier. Då får man bedöma risken för bias i de studier som inkluderats och därefter göra en ny tillförlitlighetsbedömning.

Om den systematiska översikten redan används som underlag i en ny systematisk översikt är det också möjligt att göra en ny bedömning av tillförlitligheten hos utfallet med hjälp av GRADE. Översiktsförfattarnas bedömning kan nämligen ändras.

10.4.1 Flera systematiska översikter som bedömts ha låg risk för bias finns publicerade

Ibland kan det publiceras flera systematiska översikter för samma frågeställning och tidsperiod och samtliga kan ha bedömts ha låg risk för bias. Dock kan de rapporterade resultaten skilja sig åt. Ett första viktigt steg i att granska dem är att noggrant gå igenom deras PICO, SPICE eller liknande frågeformat samt deras övriga urvalskriterier. Det kan förekomma skillnader genom att urvalskriterierna inte är exakt lika. Exempelvis kanske en systematisk översikt enbart inkluderar studier där populationen fått sin diagnos satt enligt specifika kriterier, medan en annan inte har samma avgränsning. Andra saker som ofta kan skilja är att primärstudier med olika språk har inkluderats, att studier som inte genomgått en peer review inkluderats i vissa översikter eller att vissa författare i vissa översikter har exkluderat studier som har få deltagare, till exempel färre än tio personer i varje undersökningsgrupp.

Det finns vägledande principer som Agency for Healthcare Research and Quality (AHRQ) i USA tagit fram [151] [152]. De kan sammanfattas som att den bästa översikten, det vill säga den mest relevanta med minst risk för systematisk bias, som är publicerad senast är den översikt som ska användas. Ett alternativt sätt att välja, enligt AHRQ, är att enligt förbestämda kriterier för aktualitet redovisa de översikter som bedöms vara relevanta och har låg risk för bias. Den metoden kräver dock att översikterna är samstämmiga. Om de visar motsägande resultat kan det vara en tydlig signal om att det behövs en ny oberoende systematisk översikt. Det finns mycket att vinna på att utgå från samtliga primärstudier som ingår i de identifierade systematiska översikterna och utifrån det göra om analysen och tillförlitlighetsbedömningen.

11. Ekonomiska aspekter

Processen över att ta fram en HTA där delen Hälsoekonomi är markerad

Detta kapitel är avsett att ge en inblick i ekonomiska utvärderingar inom hälso- och sjukvården, socialtjänst och funktionshinderområdet. Kapitlet inleds med en överblick över grundläggande metoder och centrala begrepp. Sedan diskuteras tolkningen av resultaten från hälsoekonomiska utvärderingar. Slutligen presenteras kortfattat SBU:s arbetssätt med hälsoekonomiska utvärderingar inom hälso- och sjukvård, socialtjänst och funktionshinderområdet.

11.1 Inledning

I Sverige finansieras hälso- och sjukvård och socialtjänst främst med offentliga medel. Eftersom samhällets resurser är begränsade finns det ett glapp mellan vad samhället kan erbjuda och vad som efterfrågas. När efterfrågan på insatser överstiger vad samhället kan erbjuda måste man därför prioritera.

Ekonomiska utvärderingar syftar till att underlätta den prioriteringen genom att på ett strukturerat och systematiskt vis jämföra olika insatsers kostnader och effekter. De blir på så sätt ett stöd för beslutsfattare att bedöma om en kostnad är rimlig i förhållande till den effekt som en insats ger. Genom att länka samman data och evidens från olika källor med syfte att belysa konsekvenserna av ett beslut ur flera perspektiv utgör ekonomiska utvärderingar viktiga faktaunderlag för beslutsfattande.

Det finns vedertagna metoder för att göra ekonomiska utvärderingar av insatser inom hälso- och sjukvården. Inom området för exempelvis socialtjänst och funktionshinder finns inte samma tradition av att göra ekonomiska utvärderingar. Det finns därför vissa olikheter i hur man utvärderar dem ekonomiskt som till exempel beror på hur insatserna ser ut och vilket sammanhang de implementeras i. De grundläggande metoderna för hur analyserna ska struktureras skiljer sig dock inte nämnvärt mellan områdena.

I detta kapitel använder vi genomgående begreppet hälsoekonomi när vi talar om ekonomiska utvärderingar inom hälso- och sjukvården, socialtjänsten samt funktionshinderområdet. I de fall där det finns en tydlig skillnad mellan hur den ekonomiska utvärderingen ska genomföras inom hälso- och sjukvård och socialtjänsten kommer detta att behandlas separat.

11.2 Hälsoekonomiska utvärderingar inom hälso- och sjukvård och socialtjänst

En hälsoekonomisk utvärdering utgår alltid från ett beslutsproblem. Det kan till exempel handla om att det finns en ny insats tillgänglig; beslutsproblemet blir då om man ska införa den nya insatsen i stället för att fortsätta med den insats som ges idag. Det finns olika metoder för att göra en hälsoekonomisk utvärdering. De vanligaste presenteras i Tabell 11.1. I samtliga analysmetoder jämförs två eller flera alternativa insatser, både vad de kostar och vilka effekter de har i syfte att analysera kostnadseffektiviteten [153]. Det som skiljer analysmetoderna åt är hur effekterna uttrycks.

Kostnadsintäktsanalyser (eng. cost benefit analysis, CBA) har traditionellt använts för att bedöma hur lönsamma olika investeringar är. I en kostnadsintäktsanalys uttrycks fördelar och nackdelar av en investering i pengar för att på så vis undersöka om vinsterna med att genomföra investeringen överstiger kostnaderna. Vid ekonomiska utvärderingar av insatser inom hälso- och sjukvården och socialtjänsten är det däremot problematiskt att uttrycka effekter på liv, hälsa och välfärd i pengar. I en hälsoekonomisk utvärdering ställs därför kostnader i relation till effekter som exempelvis sänkt blodtryck, antal undvikna amputationer, minskat antal återfall eller antal vunna levnadsår.

Tabell 11.1 Olika typer av hälsoekonomiska analysmetoder.
Typ av utvärdering	Effektmått	Hur analysens resultat presenteras
^ᵃQALY, efter engelskans Quality-Adjusted Life Year ^ᵇICER, efter engelskans Incremental Cost-Effectiveness Ratio
Kostnadsintäktsanalys (Cost Benefit Analysis, CBA)	Uttryckt i monetära termer	Nettokostnad
Kostnadseffektanalys (Cost-Effectiveness Analysis, CEA)	Uttryckt i naturliga enheter, till exempel levnadsår, antal personer med lyckat resultat, genomsnittlig minskning i riskmarkör	Inkrementell kostnadseffektkvot (ICER^ᵇ)
Kostnadsnyttoanalys (Cost-Utility Analysis, CUA)	Uttryckt i QALYs^ᵃ, mått som kombinerar överlevnad och livskvalitet	Inkrementell kostnadseffektkvot (ICER^ᵇ)
Kostnadsminimeringsanalys (Cost-Minimisation Analysis, CMA)	Inget effektmått då effekterna förutsätts vara helt lika över tid	Endast kostnader

De vanligaste analysmetoderna vid utvärderingar av insatser inom hälso- och sjukvården är kostnadseffektivitetsanalys (CEA) eller kostnadsnyttoanalys (CUA). Kostnadsnyttoanalysen är en form av kostnadseffektivitetsanalys men med skillnaden att kvalitetsjusterade levnadsår (QALY) alltid används som effektmått. Resultatet från en kostnadseffektivitetsanalys och en kostnadsnyttoanalys presenteras som en inkrementell kostnadseffektivitetskvot (ICER). Denna kvot är inkrementell eftersom den utgörs av skillnaden i kostnader och effekter mellan de två alternativen.

En ICER anger vad det kostar att uppnå ytterligare en effektenhet, till exempel ett extra levnadsår, när man väljer den ena metoden framför den andra. På det sättet tar analysen hänsyn till den så kallade alternativkostnaden, det vill säga värdet av det alternativ som väljs bort. I avsnitt 11.3 finns en fördjupning om hur resultat från en hälsoekonomisk utvärdering ska tolkas.

Metoderna ovan är jämförande analyser, det vill säga en insats, A, jämförs med en annan insats, B. Valet av metod beror på frågeställningen, men även av tillgången på relevanta data. Om utvärderingen ska användas för att välja mellan två insatser där både positiva och negativa effekter är desamma över tid, är det naturligt att nöja sig med en kostnadsminimeringsanalys (CMA). Om beslutsfattaren behöver mer information finns det också andra typer av hälsoekonomiska analyser, till exempel budgetpåverkansanalyser och cost of illness-studier (COI). I en budgetpåverkananalys (eng. budget impact analysis) beskrivs hur en eller flera budgetar påverkas om man inför en insats och vilka konsekvenser som kan förväntas. Mer vägledning om budgetpåverkansanalyser finns bl a här [154]). I cost of illness-studier (COI) beskriver man istället övergripande en sjukdomsbörda eller sociala problem genom att beräkna vilka samlade kostnader de innebär för samhället [155] [156]. Däremot utvärderar varken budgetpåverkansanalyser eller cost of illnes-studier relationen mellan insatsers kostnader och deras effekter. Därmed kan man inte göra den typen av prioriteringar utifrån kostnadseffektivitet [157] [158].

11.2.1 Val av perspektiv

Vilka kostnader och effekter som ska inkluderas i analysen beror på vilket perspektiv som används. Ett budgetperspektiv tar endast hänsyn till kostnader som faller inom budgeten för den huvudman som genomför insatsen. Ett budgetperspektiv för hälso- och sjukvården innefattar exempelvis kostnader för läkartid och operationsutrustning, medan ett budgetperspektiv inom socialtjänsten exempelvis innefattar kostnader för personlig assistans och färdtjänst. I Sverige brukar en analys som utgår från ett samhällsperspektiv förespråkas [159]. Det innebär att man försöker identifiera och inkludera alla kostnader och effekter i samhället som kan tänkas påverkas av insatsen, oavsett om de faller på region, kommun, stat eller den enskilde individen. Kostnader till följd av produktionsbortfall, som uppstår när en person inte kan arbeta på grund av till exempel sjukdom, eller kostnader för informell vård, det vill säga vården man får av närstående eller anhöriga, är båda exempel på aspekter som inkluderas i ett samhällsperspektiv.

11.2.2 Tidshorisont

Den valda tidshorisonten i en analys bör vara tillräckligt lång för att fånga alla de kostnader och effekter som insatserna ger upphov till. Om en insats väntas ge livslånga effekter på kostnader eller utfallsmått som livskvalitet bör ett livstidsperspektiv appliceras, medan en insats som inte har några bestående effekter tillåter en kortare tidshorisont.

När analyser sträcker sig över en längre tid behöver man ta hänsyn till att kostnader och effekter generellt värderas högre idag än de kommer att göra i framtiden [153]. Detta antagande innebär att en tidshorisont längre än ett år kräver att kostnader och effekter diskonteras för att spegla deras nutida värde; det innebär att kostnader eller effekter som infaller i framtiden värderas lägre än de som infaller här och nu. Tandvårds- och läkemedelsförmånsverket (TLV) rekommenderar en diskonteringsränta på tre procent för både kostnader och effekter [159].

11.2.3 Kostnader

1. Olika typer av kostnader

Kostnader relaterade till insatser som ges inom hälso- och sjukvården eller socialtjänsten kan delas in i direkta och indirekta kostnader [160]. Direkta kostnader är den resursförbrukning som uppstår som en direkt följd av en insats, som personal, lokal, utrustning och förbrukningsmaterial, men även kostnader för transport kopplat till insatsen. Indirekta kostnader består huvudsakligen av kostnader för produktionsbortfall, det vill säga kostnader kopplat till att man inte kan arbeta på grund av ohälsa eller en funktionsnedsättning.

I en hälsoekonomisk analys tar man hänsyn till både kostnader och kostnadsbesparingar. Kostnader uppstår när resurser förbrukas för att man genomför en insats. Kostnadsbesparingar uppstår när den resursförbrukningen minskar. Kostnaderna för en insats beräknas i tre steg [161]. Steg ett kallas identifiering, och där identifieras vilka kostnadsposter, både direkta och indirekta, som påverkas av de insatser som utvärderas. Steg två kallas kvantifiering, och där undersöks hur mycket respektive kostnadspost påverkas av insatsen. Den informationen kan till exempel hämtas från studier som undersöker resursåtgången för insatser eller genom att be experter göra antaganden om resursåtgången. I det tredje och sista steget, som är värdering, ska resursförbrukningen värderas, vilket innebär att ett monetärt värde appliceras per enhet av resursförbrukningen. Det kan till exempel handla om kostnaden per operation, kostnaden per dygn i slutenvård eller kostnaden per dygn i särskild bostad för äldre. Man kan ofta hämta underlag för att beräkna kostnader från svenska register eller statistikkällor. Läs mer om källor för att beräkna kostnader i Faktaruta 11.1.

I en ekonomisk analys är det den totala kostnaden för en insats som är av intresse, även om den faller på flera aktörer eller huvudmän. Det innebär exempelvis att eventuella avgifter som den enskilde betalar ska tas med i beräkningen men endast om de påverkar totalkostnaden. Om en enskild person betalar avgifter eller får bidrag som inte påverkar den totala samhällskostnaden klassas det istället som en transferering och tas därför inte med i beräkningen. Annars skulle det leda till dubbelräkning. Däremot kan det vara intressant ur ett fördelningspolitiskt perspektiv att analysera hur kostnaden fördelas på olika aktörer eller huvudmän för att tydliggöra var effekterna och kostnaderna uppstår.

Socialstyrelsen

Socialstyrelsen har hälsodataregister och statistikdatabaser som innehåller uppgifter om vårdtillfällen, antal operationer, vårddagar, medelvårdtider och läkemedelskonsumtion för olika åldersgrupper uppdelat på diagnoser, operationer eller diagnosrelaterade grupper. Socialstyrelsen tillhandahåller också öppna jämförelser av socialtjänst och kommunal hälso- och sjukvård. Ytterligare en källa för att beräkna kostnader är de nationella kvalitetsregistren som ofta innehåller specifika data om insatssinsatser och patientens status.

Socialstyrelsen har fått i uppdrag av regeringen att kontinuerligt samla in och publicera statistik i syfte att långsiktigt följa upp hjälpmedelsområdet [162]. I denna kontinuerliga insamling ingår även statistik om hjälpmedelskostnader, men enbart kostnader för den enskilde individen och inte kostnader för huvudmännen.

Sveriges kommuner och regioner (SKR)

Sveriges Kommuner och Regioner (SKR) ansvarar för att kostnadsdata från sjukhusen sammanställs i en nationell KPP-databas [163] [164]. KPP står för kostnad per patient och är en metod för att beräkna sjukvårdens kostnader per vårdkontakt och patient. De sex sjukvårdsregionerna publicerar dessutom regionala prislistor som ska spegla faktisk resursåtgång (se till exempel [165] [166] [167]. Dessa är framtagna för att debitera regioner vars patienter sökt vård utanför den egna regionen.

SKR har i samarbete med staten bildat den ideella föreningen Rådet för främjande av kommunala analyser (RKA). Inom deras uppdrag ska RKA underlätta uppföljning och analys av olika verksamheter i kommuner och regioner genom att tillhandahålla statistik i kommun- och regionsdatabasen Kolada. RKA har i samarbete med SKR dessutom tagit fram ett verktyg som kallas ”Koll på…” [168] för att analysera kostnaderna inom bland annat äldreomsorg [169], funktionshinderområdet [170] samt hemtjänsten [171] inom respektive kommun för att jämföra med övriga kommuner i riket.

Statistikmyndigheten (SCB)

Hos Statistikmyndigheten (SCB), kan information hämtas om exempelvis dödsrisken i befolkningen för olika åldersgrupper och genomsnittliga månadslöner för olika yrkeskategorier.

2. Att beräkna värdet av produktion

När en individ inte kan arbeta på grund av sjukdom eller funktionsnedsättning uppstår kostnader för produktionsbortfall. Även sjuknärvaro, det vill säga att individen arbetar men har lägre produktivitet än tidigare till följd av sin sjukdom eller skada, räknas som produktionsbortfall.

Det finns två metoder för att skatta värdet av produktion: humankapitalmetoden och friktionskostnadsmetoden [153]. Med humankapitalmetoden görs värderingen av produktion vanligtvis under antagande att produktionen kan värderas till marknadspris, det vill säga lön plus arbetsgivaravgifter och sociala avgifter (så kallat lönekostnadspåslag). Med friktionskostnadsmetoden görs en värdering av hur mycket tid som går innan en tidigare arbetslös individ fullt ut kan ersätta en person och vad det skulle kosta, men också kostnaden för att kollegor kan täcka upp en viss andel [172] [173]. Humankapitalmetoden är vanligast medan friktionskostnadsmetoden är mer teoretiskt förankrad, eftersom den tar hänsyn till en naturlig arbetslöshet och att individer kan ersättas på arbetsmarknaden.

Produktionspåverkan inkluderas enbart i den ekonomiska analysen om den relevanta populationen är i arbetsför ålder. Detta har kritiserats eftersom ålderspensionärer ofta bidrar med informell produktion, vilket är sådana aktiviteter som inte är lönearbete men ändå är värdefulla för samhället [174] [175]. Att inkludera effekter på produktion i hälsoekonomiska analyser har också debatterats utifrån ett etiskt perspektiv [160] [175]. Om man tar med effekter på produktion har insatser som riktas till personer i arbetsför ålder, allt annat lika, möjlighet att visa sig vara mer kostnadseffektiva. Det har argumenterats att detta skulle kunna få fördelningsmässiga konsekvenser där insatser riktade till yngre arbetsföra grupper prioriteras framför insatser riktade till äldre icke arbetsföra grupper. Det skulle strida mot människovärdesprincipen som säger att prioriteringar inte får styras av kronologisk ålder [176] [177]. Det har därför rekommenderats att resultatet från hälsoekonomiska analyser ska presenteras så att det går att urskilja vilka kostnader som uppstått till följd av produktionspåverkan och hur det inverkar på resultatet [153] [176]. Detta förhållningssätt rekommenderas även av SBU.

11.2.4 Relevanta utfallsmått inom hälsoekonomiska utvärderingar

Utfallsmåttet i hälsoekonomiska utvärderingar ska reflektera målet med verksamheten som genomförs inom hälso- och sjukvården eller socialtjänsten, det vill säga att skapa hälsa och välfärd hos befolkningen. Vid en jämförelse av olika insatser kan man därigenom se vilken insats som bäst främjar målet givet våra tillgängliga resurser. I kliniska prövningar och insatsstudier använder man ofta intermediära, tillståndsspecifika effektmått, som blodtryck, minskning på en depressionsskala eller minskat antal återfall. Även om dessa mått går att ställa i relation till kostnader så är kopplingen mellan dem och exempelvis hälsa och välfärd inte given. Dessutom är resultatet svårtolkat när det jämförs med andra insatser som använder andra intermediära utfallsmått.

För att kunna jämföra kostnadseffektiviteten av olika insatser som syftar till att främja hälsa rekommenderas ofta att man ska använda kvalitetsjusterade levnadsår (eng. quality adjusted life-years) eller QALY som effektmått [159] [178] [179]. QALY är ett mått på hälsa som väger samman livslängd och hälsorelaterad livskvalitet och kan appliceras inom olika områden eftersom det inte är ett sjukdoms- eller tillståndsspecifikt mått. Hur man beräknar en QALY beskrivs i Faktaruta 11.3.

Att använda QALYs kan emellertid vara problematiskt om det saknas tillräckligt säkra och generellt giltiga livskvalitetsvikter, så kallade QALY-vikter. QALY-vikter kan skattas med både direkta och indirekta metoder. Läs mer om dem i Faktaruta 11.4.

Direkta metoder för att skatta QALY

De direkta metoderna för att skatta QALYs används för att uppskatta värdet av olika hälsotillstånd. De vanligaste direkta metoderna är standard gamble (SG) [180], time trade-off (TTO) [181] och visuell analog skala (eng. visual analogue scale, VAS) [182]. Alla kan användas såväl för att be patienter och brukare skatta sin egen livskvalitet som för att be allmänheten skatta hypotetiska hälsotillstånd. SG och TTO är baserade på att individer får göra val mellan olika scenarion som innebär en avvägning mellan olika utfall, exempelvis mellan att leva en längre tid med sämre livskvalitet eller att leva en kortare tid med bättre livskvalitet. VAS baseras på att individer markerar hur de värderar ett hälsotillstånd på en linje mellan bästa tänkbara och sämsta tänkbara tillstånd. Metoden medför alltså inte någon avvägning.

På grund av att SG och TTO innebär en avvägning mellan olika alternativ anses de vara mer förankrade i underliggande teorier jämfört med VAS som inte kräver en avvägning. Samtidigt kan SG och TTO kritiseras för att vara svåradministrerade och att det kan vara svårt att veta hur respondenterna faktiskt tolkar frågorna.

Indirekta metoder för att skatta QALY

De indirekta metoderna för att skatta QALYs består av ett frågeformulär, ofta kallat livskvalitetsinstrument, som kan kopplas till ett värderingssystem, även kallat tariff eller algoritm, som tagits fram med någon av de direkta metoderna. De vanligaste indirekta instrumenten är EQ-5D [183], SF-36 ( [184] [185]), RAND36 ( [186]) och HUI-3 [187] och dessa är utformade på olika sätt. Det finns även andra instrument, till exempel AQoL [188] och särskilda instrument framtagna för barn och ungdomar [189]. Dessa instrument kräver olika värderingssystem för att omvandla svaren i formulären till QALY-vikter [184] [190] [191]). Värderingssystemen har tagits fram på olika sätt och skiljer sig åt sett till vad som värderas och av vem. När det gäller vad som värderas förekommer två typer: hypotetiska värderingar, där studiedeltagarna får ett antal hälsotillstånd beskrivna för sig, eller erfarenhetsbaserade värderingar, där personer värderar sitt eget hälsotillstånd. Båda typer av värderingar kan göras av olika grupper, oftast ett urval från allmänheten, eller en specifik patientgrupp. Generellt brukar värderingar som görs av patienter ge högre värden, det vill säga att patienter anger en högre livskvalitet givet sitt tillstånd, jämfört med om den allmänna befolkningen får värdera samma tillstånd.

Sjukdom, ohälsa, funktionsnedsättning och sociala problem kan beskrivas och mätas med olika instrument och utifrån olika perspektiv. Inom socialtjänstområdet råder ännu inte konsensus om vilken typ av utfallsmått som ska användas vid ekonomiska utvärderingar. Vid utvärdering av insatser som sträcker sig över flera sektorer kan det dessutom vara nödvändigt att använda ett utfallsmått som inte enbart fokuserar på hälsorelaterad livskvalitet. Det pågår därför arbeten inom flera forskargrupper för att utveckla mått med en bredare ansats än hälsorelaterad livskvalitet. Några forskargrupper har tagit avstamp från Sens kapabilitetsteori (capability approach) [192] [193] [194] och utvecklat mått för att bedöma en persons förmåga. Ett exempel på detta är ICEpop CAPability measure (ICECAP) [195] [196] [197]. Ett annat exempel är capability adjusted life-years (CALY) [198] [199] som utvecklas utifrån ett svenskt sammanhang [200]. För att möjliggöra en översättning till QALYs har vissa forskargrupper fokuserat på mer generiska mått för både hälsa och välmående, exempelvis EQ-HWB [201].

11.2.5 Modellanalyser

Det finns generellt två typer av hälsoekonomiska studier: empiriska och modellbaserade. I en empirisk hälsoekonomisk studie samlas data över kostnader och livskvalitet som del av en klinisk prövning, vilket innebär att data kring resursförbrukning och utfall kommer från en enda källa. Denna typ av studier har kritiserats bland annat för att de inte alltid inkluderar alla relevanta jämförelsealternativ, för att tidshorisonten är begränsad till uppföljningstiden i den kliniska prövningen eller empiriska studien och för att all evidens som är relevant för beslutsproblemet inte inkluderas [202].

En modellbaserad hälsoekonomisk studie syftar till att belysa ett beslutsproblem utifrån bästa tillgängliga information. I modellanalyser används data från insatsstudier tillsammans med uppgifter från andra källor, exempelvis register, epidemiologiska studier och prislistor. Modellanalyser är till exempel aktuella när det saknas relevanta empiriska studier, eller när de inte inkluderar data på kostnader och QALY. Modeller tillåter extrapolering av intermediära utfallsmått, exempelvis från blodtryck till hjärtinfarkt, och resultaten kan då anpassas till ett givet sammanhang, till exempel behandlingsmönster eller förväntad population i klinisk eller praktisk verksamhet [153] [203]. En fördel med modellstudier är också att de gör det lättare att utvärdera olika typer av osäkerhet. Det finns både bra och dåliga exempel på såväl empiriska hälsoekonomiska analyser som modellanalyser och det är viktigt att noggrant granska de antaganden och källor som analyserna baseras på.

De vanligaste metoderna vid modellanalyser inom hälsoekonomin är så kallade beslutsträd och Markovmodeller [203]. Principerna för dessa två metoder är i stort sett lika, men ett beslutsträd visar en sekvens av händelser under en bestämd tidsperiod vilket Markovmodellen inte gör. Det har även blivit vanligt att använda sig av händelsestyrda modeller (eng. discrete event simulation, DES) [204]. För smittsamma sjukdomar är dynamiska modeller (eng. dynamic transmission models) oftast mest lämpade [205]. Läs mer om olika modeller i Faktaruta 11.5.

Beslutsträd

Denna teknik är lämplig vid utvärdering av insatser som rör mer akuta sjukdomar eller problem, med ett händelseförlopp som är begränsat till en relativt kort tidsperiod. I Figur 11.1 jämförs två alternativa insatser A och B med hjälp av ett beslutsträd. Modellen består av två beslutsgrenar som sedan förgrenar sig ytterligare beroende på olika utfall av insatserna. Sannolikheten för olika utfall anges vid respektive gren. Samtliga grenar slutar i så kallade slutnoder trianglar i figuren. I det övre vänstra hörnet anges ingångsvärden för de parametrar som är aktuella., Till höger om trädet, i första kolumnen, anges sannolikheten för att hamna i respektive slutnod, givet det initiala valet av insats. I övriga kolumner anges på motsvarande sätt kostnad, förväntad kostnad, effekt och förväntad effekt. Inramade värden i den tredje och femte kolumnen anger förväntad kostnad och förväntad effekt av de två alternativen A och B. Den inkrementella kostnadseffektivitetskvoten (ICER), det vill säga merkostnaden per effektenhet om man väljer insats B istället för A, blir (20 500–12 000)/(0,95–0,80) = 56 667 kronor.

Ett träddiagram som visar möjliga konsekvenser av två insatser för andelen personer som sannolikt blir sjuka eller avlider, och kopplar andelarna till förväntade kostnader och effekter.

Markovmodeller

Markovmodeller är uppbyggda kring ömsesidigt uteslutande tillstånd, se Figur 11.2. Varje tillstånd är förknippat med en viss kostnad och en viss QALY-vikt. Modellerna innehåller alltid ett initialt tillstånd, exempelvis att en individ har en viss sjukdom eller att en tonåring har ökad risk för kriminalitet, och ett slutligt tillstånd, vanligtvis död. Pilarna i figuren representerar övergångsannolikheter, det vill säga risker, för förflyttningar mellan de olika hälsotillstånden. Dessa risker kan i moderna Markovmodeller via så kallad mikrosimulering variera över tid, exempelvis öka med personernas ålder. Markovmodellen är mer användbar för att analysera beslutsproblem över en lång tid, till exempel insatser vid kroniska problem, och är därför den vanligaste typen av hälsoekonomisk modell.

Diagrammet visar ett exempel på övergångar mellan fyra olika hälsotillstånd: frisk, två sjukdomsgrader och död.

Discrete event simulation, DES

En modell baserad på discrete event simulation (DES) bygger på olika händelser som inträffar vid specifika tidpunkter istället för att utgå från olika hälsotillstånd som Markovmodellerna. Det kan vara händelser som att en patient insjuknar, ett läkarbesök eller att en viss insats påbörjas. Flera olika händelser kan ske samtidigt och var och en av dessa händelser kan få en eller flera konsekvenser i form av till exempel kostnader, livskvalitetsförändringar eller förändrad risk för framtida händelser. DES-modellerna har kritiserats för att de kräver mer detaljerade data, som ofta inte är publicerade och därmed svåra att få tag på. En annan kritik mot DES-modellerna är att det har ansetts svårt och tidskrävande att utföra så kallade probabilistiska känslighetsanalyser i dessa modeller [206], men den uppfattningen delas inte av alla [204].

Dynamic transmission models (dynamiska modeller)

Dynamiska modeller kan användas både för epidemiologiska och för hälsoekonomiska skattningar inom infektionssjukdomar. Insatser på området Infektionssjukdomar, i både behandlande och förebyggande syfte, har effekter på både de personer som får insatsen, de i den direkta närheten och på en övergripande befolkningsnivå. Detta medför att antaganden och analysansats skiljer sig från andra områden. Till exempel minskar risken för smitta även hos de som inte nås av ett vaccinationsprogram genom att infektionens utbredning i samhället minskar när tillräckligt många är vaccinerade, så kallad flockimmunitet.

11.2.6 Osäkerhet i hälsoekonomiska utvärderingar

Resultatet från en hälsoekonomisk utvärdering är alltid förknippat med en viss osäkerhet, till exempel på grund av att man har behövt göra olika antaganden och utgå från de datakällor som finns. Baserat på vad som orsakar osäkerheten brukar man prata om parameterosäkerhet och strukturell osäkerhet. Parameterosäkerhet är när man inte känner till det sanna värdet av en parameter som har inkluderat i en hälsoekonomisk modell. Strukturell osäkerhet handlar om en mer övergripande osäkerhet och om vilka antagande modellen vilar på, exempelvis val av modellstruktur, kostnader, effekter eller tidsperspektiv [207]. För att beskriva osäkerheten i resultatet från hälsoekonomiska utvärderingar är det viktigt att göra känslighets- och scenarioanalyser [160]. Det innebär att man varierar en eller flera variabler eller antaganden i analysen för att undersöka vad som händer med analysens resultat då [207] [208].

För att undersöka parameterosäkerhet finns till exempel envägs-, flervägs-, och probabilistiska känslighetsanalyser. I en envägsanalys varieras en parameter åt gången för att se hur resultatet påverkas. I en flervägsanalys varieras två eller flera parametrar samtidigt. I hälsoekonomiska modeller brukar probabilistisk känslighetsanalys (eng. probabilistic sensitivity analysis, PSA) tillämpas [203], vilket innebär att den statistiska osäkerheten kring modellens variabler analyseras [209]. Vid empiriska studier kan den statistiska osäkerheten undersökas med hjälp av bootstrapping-metoden. Läs mer om PSA och bootstrapping i Faktaruta 11.6.

Probabilistisk känslighetsanalys (PSA)

Varje variabel får en statistisk fördelning, till exempel normal-, beta- eller gammafördelning, utifrån den osäkerhet som omger den specifika variabeln, till exempel baserat på uppgifter om standardavvikelse. Därefter körs modellen flera gånger, ofta mellan 1 000 och 10 000 gånger, varvid olika tänkbara variabelvärden kombineras för att beräkna en förväntad kostnad per effekt. I varje körning dras ett värde från varje variabelfördelning och ett resultat beräknas. I Figur 11.3 visas resultatet av en modell som körts 5 000 gånger. Linjerna i figuren anger olika nivåer för betalningsviljan för en effektenhet. Förutom medelvärdet av alla skattningar presenteras i en PSA sannolikheten för att metoden är kostnadseffektiv. Den beräknas utifrån hur många procent av skattningarna som hamnar till höger om den linje som representerar betalningsviljan för en effekt. Till exempel visar figuren nedan att cirka 90 procent av skattningarna hamnar till höger om linjen som representerar en betalningsvilja på 30 000 kronor per effektenhet. Det betyder att sannolikheten för att metoden är kostnadseffektiv är cirka 90 procent om vi är beredda att betala 30 000 kronor för att vinna ytterligare en effektenhet.

Ett punktdiagram med två axlar, där x-axeln visar inkrementell effekt och y-axeln inkrementell kostnad. Punkternas spridning gör att bedömningen av kostnadseffektivitet beror på betalningsviljan per effektenhet.

Bootstrapping

Vid empiriska hälsoekonomiska studier med tillgång till individdata kan man använda gruppernas data på kostnader och effekter för att beräkna ett stort antal kostnadseffektivitetskvoter. Det görs genom att slumpmässigt dra individdata för kostnader och effekter ur de två grupperna och beräkna skillnaden. Det gör man ett stort antal gånger – ofta minst 1 000 gånger – och varje gång läggs individdata tillbaka så att den kan dras igen. Bootstrapping ger alltså ett stort antal olika kostnadseffektivitetskvoter, och ett slags konfidensintervall kan anges genom att beräkna mellan vilka värden 95 procent av dragningarna återfinns.

Den strukturella osäkerheten är minst lika viktig som parameterosäkerheten, men den är ofta svårare att analysera på ett uttömmande vis. En möjlighet är att använda scenarioanalyser, där man jämför flera olika scenarier som har andra antaganden eller förutsättningar än vad grundscenariot har [210] [211].

Osäkerheten i parametrarna ska inte förväxlas med osäkerhet i själva beslutet att till exempel införa eller inte införa en insats. Även om en känslighetsanalys visar att kostnadseffektiviteten har låg precision och därmed stor spridning över kostnadseffektivitetsplanet, behöver inte det innebära att det finns stor osäkerhet kring beslutet, till exempel för att alla skattningarna visar att insatsen har högre kostnad och lägre effekt än jämförelsealternativet.

11.3 Tolkning av resultat från hälsoekonomiska utvärderingar

Resultatet av en hälsoekonomisk utvärdering kan beskrivas i ett så kallat kostnadseffektivitetsplan, där värdet för den inkrementella kostnadseffektivitetskvoten (ICERn) placeras i en figur med fyra kvadranter (Figur 11.4).

Ett fyrfältsdiagram där x-axeln visar skillnaden i effekt och y-axeln skillnaden i kostnader. Tolkningen av resultatet för en ny insats beror på resultatets placering i kostnadseffektivitetsplanet.

I kvadrant II har den nya insatsen lägre kostnad och bättre effekt än den jämförda insatsen. Den nya insatsen kallas då ”dominant” och valet mellan insatserna är enkelt ur en hälsoekonomisk synpunkt. I kvadrant IV har den nya insatsen sämre effekt och högre kostnad. Här dominerar alltså den gamla insatsen.

I allmänhet fokuserar man främst på ICERs som hamnar i kvadrant I och III. I dessa återfinns resultatet när den nya insatsen har större effekt till en högre kostnad eller sämre effekt till en lägre kostnad, jämfört med alternativet. Om man vet hur stor den maximala betalningsviljan är för en effektenhet kan man rita in en gräns för vad som är kostnadseffektivt, ett så kallat tröskelvärde. Linjen som motsvarar tröskelvärdet går då igenom kvadranterna I och III och alla insatser som har en ICER som hamnar till höger om linjen uppfattas som kostnadseffektiva.

Men det är inte bara den skattade kostnadseffektiviteten som avgör om insatsen anses vara kostnadseffektiv, vilket i praktiken innebär att olika aspekter påverkar betalningsviljan för en QALY. I Sverige ska prioriteringar inom offentligt finansierad hälso- och sjukvård göras utifrån den etiska plattformen [212], som omfattar människovärdesprincipen, behovs- och solidaritetsprincipen samt kostnadseffektivitetsprincipen. Enligt kostnadseffektivitetsprincipen ska det råda en rimlig relation mellan kostnader och effekter [212]. Det finns alltså inte ett specifikt tröskelvärde att jämföra ICERn med som avgör om insatsen är kostnadseffektiv. Normativa aspekter som exempelvis svårighetsgrad, sällsynthet eller att insatsen berör en särskilt utsatt population kan också påverka betalningsviljan. Tolkningen av en ICER måste därför alltid göras utifrån sitt sammanhang.

11.3.1 Tolkning av tröskelvärden för kostnadseffektivitet

Kostnadseffektivitet är alltså ett relativt begrepp. Resultatet från en hälsoekonomisk utvärdering ska därför inte ses som en beslutsregel utan som beslutsunderlag [213] . En metod bedöms som kostnadseffektiv om dess ICER är lägre än betalningsviljan för en enhet av utfallsmåttet, till exempel en QALY. Gränsen för betalningsviljan kallas för tröskelvärde. Hur mycket vi är villiga att betala för exempelvis en QALY beror på hur tröskelvärdet definieras.

För en beslutsfattare kan det dock vara till hjälp att få en uppfattning om vad som kan anses vara en rimlig kostnad för en QALY. I dagsläget förekommer ofta fyra alternativa metoder för att sätta ett tröskelvärde i ett svenskt sammanhang:

konsumtionsvärdet av en QALY
marginalproduktiviteten inom hälso- och sjukvården
TLV:s beslut
kategorisering av kostnadseffektivitet i Socialstyrelsens riktlinjearbete.

1. Konsumtionsvärdet av en QALY

En metod för att skatta tröskelvärdet för kostnadseffektivitet är att studera hur mycket individer är villiga att betala för en QALY. Det kan då benämnas konsumtionsvärdet eller betalningsviljan för en QALY [214]. Flera empiriska skattningar har gjorts av betalningsviljan för en QALY. Resultaten från dem varierar mycket vilket kan förklaras av att de har använt olika metoder för att skatta det. I en svensk studie från år 2018 har betalningsviljan uppskattats till 2,4 miljoner kronor för en QALY [215], men att den kan variera mellan 1,5 och 5,3 miljoner kronor beroende på hur allvarligt tillståndet är [216].

2. Marginalproduktiviteten inom hälso- och sjukvården

Marginalproduktiviteten inom hälso- och sjukvården motsvarar vad det kostar att producera ytterligare en QALY inom svensk hälso- och sjukvård. Grundidén med denna typ av ansats bygger på att antalet QALYs ska maximeras givet en fast hälso- och sjukvårdsbudget. Då skulle betalningsviljan för en QALY motsvara alternativkostnaden. Det innebär att om en insats med högre ICER än hälso- och sjukvårdens marginalproduktivitet implementeras, skulle den nya insatsen tränga undan andra aktiviteter som genererade högre effekt. Vi skulle då få ut mindre hälsa än vi får när resurserna är fördelade som de redan är med de insatser vi har idag. Den svenska hälso- och sjukvårdens marginalproduktivitet har i en avhandling från år 2022 uppskattats ligga mellan 180 000 kronor och 420 000 kronor [217]. Detta antagande utgår från att hälso- och sjukvårdens primära syfte är att maximera hälsa. Det gör det svårt att bedöma tröskelvärdet om även andra samhällssektorer inkluderas i beslutet om deras primära syfte kanske inte är att maximera hälsa.

3. Tröskelvärde härlett från TLV:s subventionsbeslut

TLV:s subventionsbeslut kan också användas för att skatta tröskelvärdet för vad som kan anses kostnadseffektivt inom Sverige. Det indirekta tröskelvärdet i den baseras då på kostnadseffektiviteten för de läkemedel som TLV anser är tillräckligt kostnadseffektiva för att de ska subventioneras med statliga medel. En studie visade att den genomsnittliga ICERn uppgick till cirka 350 000 kronor per QALY mellan år 2005 och 2011 [218]. Kvoterna varierade från att vara negativa, alltså både kostnadsbesparande och ge bättre effekt, till 1,2 miljoner kronor per QALY [218]. Att även andra aspekter vägs ihop med kostnadseffektiviteten reflekteras också i TLV:s beslut där en högre kostnad per QALY i vissa fall accepteras för läkemedel som behandlar svåra tillstånd.

4. Kategorisering av kostnadseffektivitet i Socialstyrelsens riktlinjearbete

I Socialstyrelsens arbete med nationella riktlinjer har de valt att kategorisera den inkrementella kostnadseffektkvoten (ICERn) som låg (<100 000 kr), måttlig (100 000–499 999 kr), hög (500 000–1 000 000 kr) eller mycket hög (>1 000 000 kr) [219]. På detta sätt visar de att tröskelvärdet är flytande och att det inte finns ett enskilt tröskelvärde som kan appliceras i alla beslut. I Faktaruta 11.7 finns mer information om SBU:s arbete med hälsoekonomiska utvärderingar inom hälso- och sjukvård och socialtjänst.

SBU besvarar vanligen hälsoekonomiska frågor genom ett eller flera av följande steg:

göra en systematisk översikt av hälsoekonomiska studier
gör egna analyser, till exempel:

beräkna insatsers kostnader, enklare kostnadseffektkvoter eller båda
göra modellanalyser
göra budgetpåverkansanalyser.

Systematisk översikt över hälsoekonomiska studier

Det första steget i SBU:s arbete med att analysera hälsoekonomiska frågeställningar i ett projekts är att göra en systematisk översikt över de hälsoekonomiska studier som har publicerats och är relevanta. SBU gör därför en systematisk sökning efter hälsoekonomiska studier utifrån de söktermer som använts för det övergripande projektets litteratursökning och kompletterar dessa med ekonomiska sökord och studietyper.

De hälsoekonomiska studier som uppfyller projektets PICO kvalitetsgranskas av två hälsoekonomer, oberoende av varandra. SBU använder granskningsmallar för olika typer av hälsoekonomiska studier [158] [220] [221] [222].

Hur god kvaliteten är på hälsoekonomiska utvärderingar beror på hur den bakomliggande effektutvärderingen har gjorts samt vilka data och metoder som författarna har använt för att beräkna kostnader och effekter. Den ekonomiska utvärderingen kan inte bli bättre än vad de data den bygger på möjliggör, samtidigt som en hälsoekonomisk utvärdering kan bedömas vara av god kvalitet sett enbart till de metoder som använts. I SBU:s granskningsmallar finns därför frågor både om val av analys och redovisning av resultat, men också frågor om de data avseende kostnader och effekter som har använts i analysen.

Majoriteten av de hälsoekonomiska analyser som har publicerats är gjorda i andra länder, så en viktig del i SBU:s granskning är att bedöma i vilken mån en analys med svenska data skulle ge likartade resultat. Skillnader i organisation, kostnader, dödlighet och livskvalitet samt skillnader i epidemiologiska data påverkar alla de hälsoekonomiska resultaten [223] [224].

För att beskriva resultatet av kvalitetsgranskningen anges om studierna efter en samlad bedömning är av hög, måttlig eller låg kvalitet avseende den ekonomiska analysen samt om de har hög, måttlig eller låg överförbarhet till svenska förhållanden. Endast studier som bedöms ha minst måttlig kvalitet och överförbarhet redovisas i rapporten.

Egna analyser av kostnader och kostnadseffektivitet

Ofta kan den publicerade litteraturen inte besvara projektets hälsoekonomiska frågor. Antalet studier är ofta för få eller så är resultaten från studier i andra länder inte relevanta för svenska förhållanden. En möjlighet för SBU är då att göra egna analyser, under förutsättning att det går att få fram tillförlitliga data för kostnader och effekter. Analyserna kan bli mer eller mindre omfattande beroende på hur komplex frågan är och hur tillgången på data ser ut.

Ibland räcker det med enbart ett resonemang kring insatsens kostnader för att belysa kostnadseffektiviteten, i andra fall kan det bli aktuellt att göra egna kostnadsberäkningar eller modellanalyser. De görs vanligen med utgångspunkt i tillgängliga kliniska studier och anpassas till svenska förhållanden, till exempel kostnadsdata. Hälsoekonomerna konsulterar också sakkunniga som SBU tar in till sina projekt för att bedöma om de uppgifter som har använts i kalkylerna är relevanta och korrekta. Vid en modellanalys gör SBU också känslighetsanalyser för att undersöka resultatets osäkerhet. Ibland kompletteras den hälsoekonomiska analysen även med en budgetpåverkansanalys.

12. Etiska aspekter

Processen över att ta fram en HTA där delen Etiska aspekter är markerad

12.1 En del av beslutsunderlaget

I detta kapitel redogör vi för hur etiska aspekter kommer in i HTA och liknande rapporter, med fokus på SBU:s arbetssätt. Etiska aspekter på terapeutiska, stödjande eller diagnostiska insatser kan stå för en viktig del i beslutfattares underlag när de ska fatta beslut om att en metod ska införas, fortsätta användas eller utmönstras inom hälso- och sjukvården, socialtjänsten eller funktionshinderområdet. Till viss del är betydelsen av etiska bedömningar begränsade av tvingande lagar kring olika verksamheter. Samtidigt kräver andra lagar inom hälso- och sjukvård att man gör etiska avvägningar vid införandet av vissa nya metoder, som ”kan ha betydelse för människovärde och integritet” (HSL 5 kap 3§). Eller så ger lagrummet stöd och ramverk för etiska värderingar (prop 1996/97:60, HSL 3 kap 1§ och 4 kap 1§).

12.1.1 Arbetet med etiska aspekter

Etiska aspekter är inte en självklar del av alla systematiska översikter. Men om de ska ingå finns det vägledningar för hur arbetet ska utföras. Projektgruppen bör diskutera detta tidigt under projektprocessen. I projektplanen bör det beskrivas både vilken omfattning och inriktning det etiska arbetet ska ha, och specificera om det finns behov av att göra en särskild litteratursökning efter studier kring etiska aspekter. Beroende på frågeställning kan det ibland räcka med en kortare diskussion av etiska aspekter, medan det i andra fall behövs en mer omfattande etisk analys. För att identifiera viktiga etiska frågeställningar, intressentkonflikter och olika problemområden kan det vara värdefullt att tidigt i projektarbetet involvera företrädare för patient- och brukarorganisationer, anhörigorganisationer och berörda professioner. Projektgruppen bör också tidigt i processen överväga om det behövs en etikexpert, en mer omfattande etisk diskussion eller analys. I vissa fall kan ett samarbete med Statens medicinsk-etiska råd (Smer) bli aktuellt. Formerna för detta samarbete bör tydliggöras innan arbetet startar. Slå till exempel fast vem som äger den slutliga utformningen av analysen och hur analysen ska presenteras i relation till huvudrapporten.

Processen för att arbeta med etiska aspekter beskrivs närmare i de etiska vägledningar som SBU tagit fram. Läs mer om dessa nedan.

12.1.2 Identifiering av etiska aspekter

För att underlätta arbetet med att identifiera och beskriva etiska aspekter på utvärderade insatser har SBU utarbetat vägledningar för att identifiera etiska aspekter vid utvärdering av insatser inom hälso- och sjukvården respektive socialtjänsten och funktionshinderområdet. De är tänkta att användas som stöd och för att undvika att viktiga etiska aspekter glöms bort. De innehåller ett antal frågor som kan ställas i den aktuella utvärderingen men endast de aspekter som är aktuella för översikten bör tas upp och beskrivas i rapportens etikkapitel. I vägledningarna understryks vikten av att en initial diskussion hålls inom projektgruppen för att identifiera relevanta etiska aspekter innan frågelistorna ni gås igenom. Det är för att säkerställa att ni varken missar vägledningens eller projektgruppens intuitivt identifierade aspekter. Exempel på aspekter som lyfts i vägledningarna är hur åtgärden påverkar jämlikhet, rättvisa, autonomi, integritet och strukturella faktorer med etiska implikationer. Det är av största betydelse att också lyfta de etiska problem som kan uppstå på grund av den systematiska översiktens resultat.

12.1.3 Speciella förutsättningar för det sociala området

Socialtjänsten i Sverige arbetar under särskilda förutsättningar som kan ha etisk betydelse, som den tydliga lokala politiska styrningen och att socialtjänstens uppdrag ställer stora krav på lagtolkning. Socialtjänstlagen ger inte stöd att prioritera mellan olika gruppers behov, utan alla behov ska tillgodoses. Däremot kan socialtjänsten behöva prioritera mellan olika insatser och en viss målgrupp. Det kan påverka möjligheten att väga in sådant som hur stora behov en särskild individ har eller kostnadseffektivitet, vilka är centrala begrepp inom hälso- och sjukvårdens prioriteringar.

12.1.4 Identifiering av mål- och intressekonflikter

En viktig del i arbetet med att beskriva etiska aspekter är att identifiera de olika grupper som berörs i översikten, och vilka etiska konflikter eller motsättningar som kan finnas. Det kan exempelvis vara att patienter, enskilda individer, olika professioner, anhöriga eller andra patientgrupper drabbas av alternativa kostnader men också medborgarna om skattemedel inte används effektivt. SBU:s roll är i allmänhet inte att klargöra vilka intressen som har företräde, utan snarare att beskriva hur själva konflikten ser ut och vilka intressen som behöver balanseras. Den så kallade aktörsmodellen är ett sätt att strukturera arbetet. Den beskrivs närmare i Smer:s handbok. Där finns också mer information om andra etiska principer och begrepp som kan användas som stöd i arbetet.

12.2 Prioriteringsetik

I översiktens etikkapitel bör resultaten från den hälsoekonomiska utvärderingen också diskuteras. De bör diskuteras i relation till den etiska värdegrund eller plattform som gäller för prioriteringar av metoder i hälso- och sjukvård (se t ex fråga 8 i SBU:s dokument etiska aspekter på insatser inom hälso- och sjukvården).

12.3 Forskningsetiska frågor

Att etiskt kontroversiell forskning har använts när man tagit fram kunskap om den aktuella insatsen som utvärderas utgör som regel inte ett etiskt dilemma för beslutet om insatsen kan användas eller inte ute i verksamheten. Men om det saknas kunskap om insatsens effekt, säkerhet eller båda dessa är det viktigt att identifiera om det skulle innebära etiska dilemman eller forskningsetiska problem att ta fram sådan kunskap, och om det medför att forskningen kan vara svår att genomföra. Det är i sådana fall viktigt att tydliggöra etiska konsekvenser av olika alternativa sätt att hantera denna kunskapsbrist (se fråga 3 i SBU:s dokument etiska aspekter på insatser inom hälso- och sjukvården). Diskussionen om forskningsetiska frågeställningar bör grundas på etikprövningslagen och Helsingforsdeklarationen.

13. Sammanfattning och slutsatser

Figur som visar Processen över att ta fram en HTA där delen Sammanvägda slutsatser är markerad

När arbetet med att sammanställa och bedöma tillförlitligheten av de sammanvägda resultaten är färdigt, återstår den sista delen av arbetet med den systematiska översikten. Slutsatser ska formuleras och hela rapporten ska sammanfattas på ett strukturerat sätt.

Det finns olika sätt att skriva slutsatser. Inspiration kan hämtas från redan publicerade SBU-rapporter och från internationella HTA-organisationer, till exempel Cochrane och Campbell Collaboration.

Sammanfattningen ska innehålla en självständig kondenserad version av översiktens syfte, metod och resultat, förutom slutsatserna. Olika HTA-organisationer har olika sätt att skriva sammanfattningar. Det kan finnas både en längre, mer teknisk, sammanfattning och en kortare plain language-sammanfattning. Den senare vänder sig till allmänhet och andra intressenter som inte är insatta i specifik metodologisk vokabulär.

14. Referenser

Pollock M, Fernandes RM, Becker LA, Pieper D, Hartling L. Chapter V: Overviews of Reviews. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA (editors). Cochrane Handbook for Systematic Reviews of Interventions version 6.4 (updated August 2023). Cochrane, 2023. Available from: www.training.cochrane.org/handbook.
Aromataris E, Munn Z. JBI Manual for Evidence Synthesis: JBI; 2020. [accessed April 24 2023]. Available from: https://synthesismanual.jbi.global.
Evidence and gap maps (EGMs). Philadelphia, USA: Campbell Collaboration. [accessed April 24 2023]. Available from: https://www.campbellcollaboration.org/evidence-gap-maps.html.
Socialstyrelsen. Att arbeta evidensbaserat. Ett stöd för praktiskt arbete. Stockholm: Socialstyrelsen; 2020. [accessed April 24 2023]. Available from: https://www.socialstyrelsen.se/globalassets/sharepoint-dokument/artikelkatalog/ovrigt/2020-10-6930.pdf.
Moher D, Liberati A, Tetzlaff J, Altman DG. Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement. Bmj. 2009;339:b2535. Available from: https://doi.org/10.1136/bmj.b2535.
Tong A, Flemming K, McInnes E, Oliver S, Craig J. Enhancing transparency in reporting the synthesis of qualitative research: ENTREQ. BMC Med Res Methodol. 2012;12(1):181. Available from: https://doi.org/10.1186/1471-2288-12-181.
Boutron I, Page MJ, Higgins JPT, Altman DG, Lundh A, Hróbjartsson A. 7.6.2 Including risk-of-bias assessments in analyses. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions version 63 (updated February 2022): Cochrane; 2022. Available from: www.training.cochrane.org/handbook.
Ramsay CR, Matowe L, Grilli R, Grimshaw JM, Thomas RE. Interrupted time series designs in health technology assessment: lessons from two systematic reviews of behavior change strategies. Int J Technol Assess Health Care. 2003;19(4):613-23. Available from: https://doi.org/10.1017/s0266462303000576.
Penfold RB, Zhang F. Use of interrupted time series analysis in evaluating health care quality improvements. Acad Pediatr. 2013;13(6 Suppl):S38-44. Available from: https://doi.org/10.1016/j.acap.2013.08.002.
Bernal JL, Cummins S, Gasparrini A. Interrupted time series regression for the evaluation of public health interventions: a tutorial. Int J Epidemiol. 2017;46(1):348-55. Available from: https://doi.org/10.1093/ije/dyw098.
Anttila S, Persson J, Rosén M, Vareman N, Vitols S, Sahlin N-E. Ruling out risks in medical research. Journal of Risk Research. 2019;22(6):796-802. Available from: https://doi.org/10.1080/13669877.2019.1586750.
Piaggio G, Elbourne DR, Pocock SJ, Evans SJ, Altman DG. Reporting of noninferiority and equivalence randomized trials: extension of the CONSORT 2010 statement. Jama. 2012;308(24):2594-604. Available from: https://doi.org/10.1001/jama.2012.87802.
Jaikumar V. Cochrane UK. 2022. Available from: https://s4be.cochrane.org/blog/2022/03/18/understanding-non-inferiority-trials/.
Williamson P, Clarke M. The COMET (Core Outcome Measures in Effectiveness Trials) Initiative: Its Role in Improving Cochrane Reviews. Cochrane Database Syst Rev. 2012(5):Ed000041. Available from: https://doi.org/10.1002/14651858.Ed000041.
Ferreira-González I, Permanyer-Miralda G, Busse JW, Bryant DM, Montori VM, Alonso-Coello P, et al. Methodologic discussions for using and interpreting composite endpoints are limited, but still identify major concerns. J Clin Epidemiol. 2007;60(7):651-7; discussion 8-62. Available from: https://doi.org/10.1016/j.jclinepi.2006.10.020.
Reitsma JB, Rutjes AW, Khan KS, Coomarasamy A, Bossuyt PM. A review of solutions for diagnostic accuracy studies with an imperfect or missing reference standard. J Clin Epidemiol. 2009;62(8):797-806. Available from: https://doi.org/10.1016/j.jclinepi.2009.02.005.
Rutjes AW, Reitsma JB, Coomarasamy A, Khan KS, Bossuyt PM. Evaluation of diagnostic tests when there is no gold standard. A review of methods. Health Technol Assess. 2007;11(50):iii, ix-51. Available from: https://doi.org/10.3310/hta11500.
Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology. 1982;143(1):29-36. Available from: https://doi.org/10.1148/radiology.143.1.7063747.
Mandrekar JN. Receiver operating characteristic curve in diagnostic test assessment. J Thorac Oncol. 2010;5(9):1315-6. Available from: https://doi.org/10.1097/JTO.0b013e3181ec173d.
Hemingway H, Croft P, Perel P, Hayden JA, Abrams K, Timmis A, et al. Prognosis research strategy (PROGRESS) 1: a framework for researching clinical outcomes. Bmj. 2013;346:e5595. Available from: https://doi.org/10.1136/bmj.e5595.
Riley RD, Hayden JA, Steyerberg EW, Moons KG, Abrams K, Kyzas PA, et al. Prognosis Research Strategy (PROGRESS) 2: prognostic factor research. PLoS Med. 2013;10(2):e1001380. Available from: https://doi.org/10.1371/journal.pmed.1001380.
Steyerberg EW, Moons KG, van der Windt DA, Hayden JA, Perel P, Schroter S, et al. Prognosis Research Strategy (PROGRESS) 3: prognostic model research. PLoS Med. 2013;10(2):e1001381. Available from: https://doi.org/10.1371/journal.pmed.1001381.
Hingorani AD, Windt DA, Riley RD, Abrams K, Moons KG, Steyerberg EW, et al. Prognosis research strategy (PROGRESS) 4: stratified medicine research. Bmj. 2013;346:e5793. Available from: https://doi.org/10.1136/bmj.e5793.
Booth A, Noyes J, Flemming K, Gerhardus A, Wahlster P, van der Wilt GJ, et al. Structured methodology review identified seven (RETREAT) criteria for selecting qualitative evidence synthesis approaches. J Clin Epidemiol. 2018;99:41-52.
Craig P, Dieppe P, Macintyre S, Michie S, Nazareth I, Petticrew M. Developing and evaluating complex interventions: the new Medical Research Council guidance. Bmj. 2008;337:a1655. Available from: https://doi.org/10.1136/bmj.a1655.
Noyes J, Booth A, Cargo M, Flemming K, Harden A, Harris J, et al. Chapter 21: Qualitative evidence. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions version 63 (updated February 2022): Cochrane; 2019. Available from: www.training.cochrane.org/handbook.
Patton MQ. Qualitative Research & Evaluation Methods. 3 edition: Sage publications INC; 2002. 832 p.
Noyes J, Hendry M, Booth A, Chandler J, Lewin S, Glenton C, et al. Current use was established and Cochrane guidance on selection of social theories for systematic reviews of complex interventions was developed. J Clin Epidemiol. 2016;75:78-92. Available from: https://doi.org/10.1016/j.jclinepi.2015.12.009.
EUnetHTA. Process of information retrieval for systematic reviews and health technology assessments on clinical effectiveness: EUnetHTA (European Network for Health Technology Assessment); 2017. [accessed October 2019].
Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al. Cochrane Handbook for Systematic Reviews of Interventions version 6.0 (updated July 2019). London: Cochrane; 2019. Available from: www.training.cochrane.org/handbook.
Rutter D, Francis J, Coren E, Fisher M. SCIE systematic research reviews: guidelines (2nd edition). London: Social Care Institute for Excellence (SCIE); 2013.
Kugley S, Wade A, Thomas J, Mahood Q, Jørgensen AMK, Hammerstrøm K, et al. Searching for studies: a guide to information retrieval for Campbell systematic reviews. Oslo: The Campbell Collaboration; 2017.
Lefebvre C, Glanville J, Briscoe S, Littlewood A, Marshall C, Metzendorf MI, et al. Technical Supplement to Chapter 4: Searching for and selecting studies. In: Higgins JPT, Thomas J, Chandler J, Cumpston MS, Li T, Page MJ, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions Version 6 Cochrane2019. Available from: www.training.cochrane.org/handbook.
Atkinson KM, Koenka AC, Sanchez CE, Moshontz H, Cooper H. Reporting standards for literature searches and report inclusion criteria: making research syntheses more transparent and easy to replicate. Res Synth Methods. 2015;6(1):87-95. Available from: https://doi.org/10.1002/jrsm.1127.
Cooper C, Booth A, Varley-Campbell J, Britten N, Garside R. Defining the process to literature searching in systematic reviews: a literature review of guidance and supporting studies. BMC Med Res Methodol. 2018;18(1):85. Available from: https://doi.org/10.1186/s12874-018-0545-3.
Rethlefsen ML, Farrell AM, Osterhaus Trzasko LC, Brigham TJ. Librarian co-autors correlated with higher quality reported search strategies in general internal medicine systematic reviews. Journal of Clinical Epidemilogy. 2015:999-1000. Available from: https://doi.org/10.1016/j.clinepi.2014.11.025.
Kelly MP, Noyes J, Kane RL, Chang C, Uhl S, Robinson KA, et al. AHRQ series on complex intervention systematic reviews-paper 2: defining complexity, formulating scope, and questions. J Clin Epidemiol. 2017;90:11-8. Available from: https://doi.org/10.1016/j.jclinepi.2017.06.012.
Egger M, Zellweger-Zahner T, Schneider M, Junker C, Lengeler C, Antes G. Language bias in randomised controlled trials published in English and German. Lancet. 1997;350(9074):326-9. Available from: https://doi.org/10.1016/s0140-6736(97)02419-7.
Morrison A, Polisena J, Husereau D, Moulton K, Clark M, Fiander M, et al. The effect of English-language restriction on systematic review-based meta-analyses: a systematic review of empirical studies. Int J Technol Assess Health Care. 2012;28(2):138-44. Available from: https://doi.org/10.1017/s0266462312000086.
Hartling L, Featherstone R, Nuspl M, Shave K, Dryden DM, Vandermeer B. Grey literature in systematic reviews: a cross-sectional study of the contribution of non-English reports, unpublished studies and dissertations to the results of meta-analyses in child-relevant reviews. BMC Med Res Methodol. 2017;17(1):64. Available from: https://doi.org/10.1186/s12874-017-0347-z.
Nussbaumer-Streit B, Klerings I, Dobrescu AI, Persad E, Stevens A, Garritty C, et al. Excluding non-English publications from evidence-syntheses did not change conclusions: a meta-epidemiological study. J Clin Epidemiol. 2019. Available from: https://doi.org/10.1016/j.jclinepi.2019.10.011.
Harbour J, Fraser C, Lefebvre C, Glanville J, Beale S, Boachie C, et al. Reporting methodological search filter performance comparisons: a literature review. Health Info Libr J. 2014;31(3):176-94. Available from: https://doi.org/10.1111/hir.12070.
Sampson M, Tetzlaff J, Urquhart C. Precision of healthcare systematic review searches in a cross-sectional sample. Res Synth Methods. 2011;2(2):119-25. Available from: https://doi.org/10.1002/jrsm.42.
Booth A, Papaioannou D, Sutton A. Systematic approaches to a successful literature review. London: Sage; 2012.
Lefebvre C, Glanville J, Briscoe S, Featherstone R, Littlewood A, Marshall C, et al. Chapter 4: Searching for and selecting studies. In: Higgins J, Thomas J, Chandler J, Cumpston M, Li T, Page M, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions version 6.3 (updated February 2022): Cochrane; 2022. [accessed Oct 11 2023]. Available from: www.training.cochrane.org/handbook.
Booth A, Noyes J, Flemming K, Gerhardus A, Wahlster P, van der Wilt GJ, et al. Guidance on choosing qualitative evidence synthesis methods for use in health technology assessments of complex interventions2016.
Booth A. Searching for qualitative research for inclusion in systematic reviews: a structured methodological review. Syst Rev. 2016;5:74. Available from: https://doi.org/10.1186/s13643-016-0249-x.
Papaioannou D, Sutton A, Carroll C, Booth A, Wong R. Literature searching for social science systematic reviews: consideration of a range of search techniques. Health Info Libr J. 2010;27(2):114-22. Available from: https://doi.org/10.1111/j.1471-1842.2009.00863.x.
Frandsen TF, Gildberg FA, Tingleff EB. Searching for qualitative health research required several databases and alternative search strategies: a study of coverage in bibliographic databases. J Clin Epidemiol. 2019;114:118-24. Available from: https://doi.org/10.1016/j.jclinepi.2019.06.013.
Horsley T, Dingwall O, Sampson M. Checking reference lists to find additional studies for systematic reviews. Cochrane Database Syst Rev. 2011(8):Mr000026. Available from: https://doi.org/10.1002/14651858.MR000026.pub2.
Cooper C, Booth A, Britten N, Garside R. A comparison of results of empirical studies of supplementary search techniques and recommendations in review methodology handbooks: a methodological review. Syst Rev. 2017;6(1):234. Available from: https://doi.org/10.1186/s13643-017-0625-1.
Cooper C, Lovell R, Husk K, Booth A, Garside R. Supplementary search methods were more effective and offered better value than bibliographic database searching: A case study from public health and environmental enhancement. Res Synth Methods. 2018;9(2):195-223. Available from: https://doi.org/10.1002/jrsm.1286.
Higgins J, Thomas J, Chandler J, Cumpston M, Li T, Page M, et al. Cochrane Handbook for Systematic Reviews of Interventions version 6.4 (updated August 2023): Cochrane; 2023. [accessed Oct 11 2023]. Available from: www.training.cochrane.org/handbook.
NICE. Developing NICE guidelines: the manual: process and methods. Last updated: 02 August 2023 National Institute for Health and Care Excellence; 2018. [accessed 11 Oct 2023]. Available from: https://www.nice.org.uk/process/pmg20/resources/developing-nice-guidelines-the-manual-pdf-72286708700869.
Stevinson C, Lawlor DA. Searching multiple databases for systematic reviews: added value or diminishing returns? Complement Ther Med. 2004;12(4):228-32. Available from: https://doi.org/10.1016/j.ctim.2004.09.003.
Bramer WM, Rethlefsen ML, Kleijnen J, Franco OH. Optimal database combinations for literature searches in systematic reviews: a prospective exploratory study. Syst Rev. 2017;6(1):245. Available from: https://doi.org/10.1186/s13643-017-0644-y.
Mayo-Wilson E, Li T, Fusco N, Dickersin K. Practical guidance for using multiple data sources in systematic reviews and meta-analyses (with examples from the MUDS study). Res Synth Methods. 2018;9(1):2-12. Available from: https://doi.org/10.1002/jrsm.1277.
Pitt C, Goodman C, Hanson K. Economic Evaluation in Global Perspective: A Bibliometric Analysis of the Recent Literature. Health Econ. 2016;25 Suppl 1:9-28. Available from: https://doi.org/10.1002/hec.3305.
Arber M, Glanville J, Isojarvi J, Baragula E, Edwards M, Shaw A, et al. Which databases should be used to identify studies for systematic reviews of economic evaluations? . Int J Technol Assess Health Care. 2018;34(6):547-54. Available from: https://doi.org/10.1017/s0266462318000636.
Glanville J, Paisley S. Searching for evidence for cost-effectiveness decisions. In: Shemilt I, Mugford M, Vale L, Marsh K, Donaldson C, editors. Evidence-based decisions and economics: health care, social welfare, education and criminal justice. 2 ed. Chichester: Wiley; 2010.
Glanville J, Fleetwood K, Yellowlees A, Kaunelis D, Mensinkai S. Development and Testing of Search Filters to Identify Economic Evaluations in MEDLINE and EMBASE. Ottawa: Canadian Agency for Drugs and Technologies in Health (CADTH); 2009. 2019-11-20]]. Available from: https://www.cadth.ca/media/pdf/H0490_Search_Filters_for_Economic_Evaluations_mg_e.pdf.
Glanville J, Kaunelis D, Mensinkai S. How well do search filters perform in identifying economic evaluations in MEDLINE and EMBASE. Int J Technol Assess Health Care. 2009;25(4):522-9. Available from: https://doi.org/10.1017/s0266462309990523.
Hemminki E. Study of information submitted by drug companies to licensing authorities. Br Med J. 1980;280(6217):833-6. Available from: https://doi.org/10.1136/bmj.280.6217.833.
Turner EH, Matthews AM, Linardatos E, Tell RA, Rosenthal R. Selective publication of antidepressant trials and its influence on apparent efficacy. New England Journal of Medicine. 2008;358(3):252-60.
Eyding D, Lelgemann M, Grouven U, Harter M, Kromp M, Kaiser T, et al. Reboxetine for acute treatment of major depression: systematic review and meta-analysis of published and unpublished placebo and selective serotonin reuptake inhibitor controlled trials. Bmj. 2010;341:c4737. Available from: https://doi.org/10.1136/bmj.c4737.
Song F, Parekh S, Hooper L, Loke YK, Ryder J, Sutton AJ, et al. Dissemination and publication of research findings: an updated review of related biases. Health Technol Assess. 2010;14(8):iii, ix-xi, 1-193. Available from: https://doi.org/10.3310/hta14080.
Jefferson T, Jones MA, Doshi P, Del Mar CB, Hama R, Thompson MJ, et al. Neuraminidase inhibitors for preventing and treating influenza in healthy adults and children. Cochrane Database Syst Rev. 2014(4):Cd008965. Available from: https://doi.org/10.1002/14651858.CD008965.pub4.
Jefferson T, Doshi P, Boutron I, Golder S, Heneghan C, Hodkinson A, et al. When to include clinical study reports and regulatory documents in systematic reviews. BMJ Evid Based Med. 2018;23(6):210-7. Available from: https://doi.org/10.1136/bmjebm-2018-110963.
Agency for Healthcare Research and Quality (AHRQ). Methods guide for effectiveness and comparative effectiveness reviews: AHRQ publication no. 10(14)-EHC063-EF2014. 2019-11-13]]. Available from: https://effectivehealthcare.ahrq.gov/sites/default/files/pdf/cer-methods-guide_overview.pdf.
IQWIG. General Methods Version 6.1: IQWIG Institute for Quality and Efficiency in Health Care (IQWiG); 2022. [accessed Oct 11 2023]. Available from: https://www.iqwig.de/en/about-us/methods/methods-paper/.
IQWIG. General Methods Version 7.0 (German version): IQWIG Institute for Quality and Efficiency in Health Care (IQWiG); 2023. [accessed Oct 11 2023]. Available from: https://www.iqwig.de/en/about-us/methods/methods-paper/.
The Campbell Collaboration. Campbell systematic reviews: policies and guidelines. Version 1.8.2020. [accessed Oct 11 2023]. Available from: https://onlinelibrary.wiley.com/pb-assets/assets/18911803/Campbell%20Policies%20and%20Guidelines%20_May3%202022-1653054593497.pdf.
Isojarvi J, Wood H, Lefebvre C, Glanville J. Challenges of identifying unpublished data from clinical trials: Getting the best out of clinical trials registers and other novel sources. Res Synth Methods. 2018. Available from: https://doi.org/10.1002/jrsm.1294.
Scherer RW, Meerpohl JJ, Pfeifer N, Schmucker C, Schwarzer G, von Elm E. Full publication of results initially presented in abstracts. Cochrane Database Syst Rev. 2018;11:Mr000005. Available from: https://doi.org/10.1002/14651858.MR000005.pub4.
Scherer RW, Saldanha IJ. How should systematic reviewers handle conference abstracts? A view from the trenches. Syst Rev. 2019;8(1):264. Available from: https://doi.org/10.1186/s13643-019-1188-0.
Baudard M, Yavchitz A, Ravaud P, Perrodeau E, Boutron I. Impact of searching clinical trial registries in systematic reviews of pharmaceutical treatments: methodological systematic review and reanalysis of meta-analyses. Bmj. 2017;356:j448. Available from: https://doi.org/10.1136/bmj.j448.
Knelangen M, Hausner E, Metzendorf MI, Sturtz S, Waffenschmidt S. Trial registry searches for randomized controlled trials of new drugs required registry-specific adaptation to achieve adequate sensitivity. J Clin Epidemiol. 2018;94:69-75. Available from: https://doi.org/10.1016/j.jclinepi.2017.11.003.
Schmucker CM, Blumle A, Schell LK, Schwarzer G, Oeller P, Cabrera L, et al. Systematic review finds that study data not published in full text articles have unclear impact on meta-analyses results in medical research. PLoS One. 2017;12(4):e0176210. Available from: https://doi.org/10.1371/journal.pone.0176210.
Halfpenny NJ, Quigley JM, Thompson JC, Scott DA. Value and usability of unpublished data sources for systematic reviews and network meta-analyses. Evid Based Med. 2016;21(6):208-13. Available from: https://doi.org/10.1136/ebmed-2016-110494.
Brolund A. Söka grå litteratur till systematiska översikter: Vad säger ett urval metodböcker och nyare studier? SBU praxis? Stockholm: SBU Statensberedning för medicinsk och social utvärdering; 2018.
Adams J, Hillier-Brown FC, Moore HJ, Lake AA, Araujo-Soares V, White M, et al. Searching and synthesising 'grey literature' and 'grey information' in public health: critical reflections on three case studies. Syst Rev. 2016;5(1):164. Available from: https://doi.org/10.1186/s13643-016-0337-y.
Mahood Q, Van Eerd D, Irvin E. Searching for grey literature for systematic reviews: challenges and benefits. Res Synth Methods. 2014;5(3):221-34. Available from: https://doi.org/10.1002/jrsm.1106.
Sampson M, McGowan J, Tetzlaff J, Cogo E, Moher D. No consensus exists on search reporting methods for systematic reviews. J Clin Epidemiol. 2008;61(8):748-54.
Koffel JB, Rethlefsen ML. Reproducibility of Search Strategies Is Poor in Systematic Reviews Published in High-Impact Pediatrics, Cardiology and Surgery Journals: A Cross-Sectional Study. PLoS One. 2016;11(9):e0163309. Available from: https://doi.org/10.1371/journal.pone.0163309.
Biocic M, Fidahic M, Puljak L. Reproducibility of search strategies of non-Cochrane systematic reviews published in anaesthesiology journals is suboptimal: primary methodological study. Br J Anaesth. 2019;122(6):e79-e81. Available from: https://doi.org/10.1016/j.bja.2019.02.014.
Higgins JPT, Sterne JAC, Savović J, Page MJ, Hróbjartsson A, Boutron I, et al. A revised tool for assessing risk of bias in randomized trials. Issue 10 (Suppl 1). In: Chandler J, ., McKenzie J, Boutron I, Welch VA, editors. Cochrane Methods: Cochrane Database of Systematic Reviews; 2016. Available from: https://www.cochranelibrary.com/cdsr/doi/10.1002/14651858.CD201601/full.
Sterne JA, Hernán MA, Reeves BC, Savović J, Berkman ND, Viswanathan M, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. Bmj. 2016;355:i4919. Available from: https://doi.org/10.1136/bmj.i4919.
Altman DG, Bland JM. Treatment allocation by minimisation. Bmj. 2005;330(7495):843. Available from: https://doi.org/10.1136/bmj.330.7495.843.
de Waal T, Pannekoek J, Scholtus S. Handbook of Statistical Data Editing and Imputation: Wiley Handbooks in Survey Methodology; 2011.
Whiting PF, Rutjes AW, Westwood ME, Mallett S. A systematic review classifies sources of bias and variation in diagnostic test accuracy studies. J Clin Epidemiol. 2013;66(10):1093-104. Available from: https://doi.org/10.1016/j.jclinepi.2013.05.014.
Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med. 2011;155(8):529-36. Available from: https://doi.org/10.7326/0003-4819-155-8-201110180-00009.
Hayden JA, van der Windt DA, Cartwright JL, Côté P, Bombardier C. Assessing Bias in Studies of Prognostic Factors. Annals of Internal Medicine. 2013;158(4):280-6. Available from: https://doi.org/10.7326/0003-4819-158-4-201302190-00009.
Lee J, Mulder F, Leeflang M, Wolff R, Whiting P, Bossuyt PM. QUAPAS: An Adaptation of the QUADAS-2 Tool to Assess Prognostic Accuracy Studies. Annals of Internal Medicine. 2022;175(7):1010-8. Available from: https://doi.org/10.7326/M22-0276.
Lincoln YS, Guba EG. But is it rigorous? Trustworthiness and authenticity in naturalistic evaluation. New Directions for Program Evaluation. 1986;1986(30):73-84. Available from: https://doi.org/https://doi.org/10.1002/ev.1427.
Graneheim UH, Lundman B. Qualitative content analysis in nursing research: concepts, procedures and measures to achieve trustworthiness. Nurse Educ Today. 2004;24(2):105-12. Available from: https://doi.org/10.1016/j.nedt.2003.10.001.
Munthe-Kaas HM, Glenton C, Booth A, Noyes J, Lewin S. Systematic mapping of existing tools to appraise methodological strengths and limitations of qualitative research: first stage in the development of the CAMELOT tool. BMC Med Res Methodol. 2019;19(1):113. Available from: https://doi.org/10.1186/s12874-019-0728-6.
Noyes J, Booth A, Flemming K, Garside R, Harden A, Lewin S, et al. Cochrane Qualitative and Implementation Methods Group guidance series-paper 3: methods for assessing methodological limitations, data extraction and synthesis, and confidence in synthesized qualitative findings. J Clin Epidemiol. 2018;97:49-58. Available from: https://doi.org/10.1016/j.jclinepi.2017.06.020.
Borenstein M, Hedges LV, Higgins JPT, Rothstein HR. Introduction to meta-analysis. Chichester: John Wiley & Sons Ltd; 2009.
Schmid C, Stijnen T, White I. Handbook of Meta-Analysis (1st ed.): Chapman and Hall/CRC; 2020. Available from: https://www.perlego.com/book/1705208/handbook-of-metaanalysis-pdf.
Dwan K, Gamble C, Williamson PR, Kirkham JJ. Systematic review of the empirical evidence of study publication bias and outcome reporting bias - an updated review. PLoS One. 2013;8(7):e66844. Available from: https://doi.org/10.1371/journal.pone.0066844.
Sterne JA, Egger M, Smith GD. Systematic reviews in health care: Investigating and dealing with publication and other biases in meta-analysis. Bmj. 2001;323(7304):101-5. Available from: https://doi.org/10.1136/bmj.323.7304.101.
van Aert RCM, Wicherts JM, van Assen M. Publication bias examined in meta-analyses from psychology and medicine: A meta-meta-analysis. PLoS One. 2019;14(4):e0215052. Available from: https://doi.org/10.1371/journal.pone.0215052.
Shi L, Lin L. The trim-and-fill method for publication bias: practical guidelines and recommendations based on a large database of meta-analyses. Medicine (Baltimore). 2019;98(23):e15987. Available from: https://doi.org/10.1097/md.0000000000015987.
Macaskill P, Gatsonis C, Deeks J, Harbord R, Takwoingi Y. Chapter 10: Analysing and presenting results. In: Deeks J, Bossuyt P, Gatsonis CA, editors. Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy Version 10: The Cochrane Collaboration; 2010. Available from: http://srdta.cochrane.org/.
Hannes K, Lockwood C. Pragmatism as the philosophical foundation for the Joanna Briggs meta-aggregative approach to qualitative evidence synthesis. J Adv Nurs. 2011;67(7):1632-42. Available from: https://doi.org/10.1111/j.1365-2648.2011.05636.x.
Rutter CM, Gatsonis CA. A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med. 2001;20(19):2865-84. Available from: https://doi.org/10.1002/sim.942.
Reitsma JB, Glas AS, Rutjes AW, Scholten RJ, Bossuyt PM, Zwinderman AH. Bivariate analysis of sensitivity and specificity produces informative summary measures in diagnostic reviews. J Clin Epidemiol. 2005;58(10):982-90. Available from: https://doi.org/10.1016/j.jclinepi.2005.02.022.
Takwoingi Y, Guo B, Riley RD, Deeks JJ. Performance of methods for meta-analysis of diagnostic test accuracy with few studies or sparse data. Stat Methods Med Res. 2017;26(4):1896-911. Available from: https://doi.org/10.1177/0962280215592269.
Parmar MKB, Torri V, Stewart L. Extracting summary statistics to perform meta-analyses of the published literature for survival endpoints. Statistics in Medicine. 1998;17(24):2815-34. Available from: https://doi.org/https://doi.org/10.1002/(SICI)1097-0258(19981230)17:24<2815::AID-SIM110>3.0.CO;2-8.
Riley RD, Moons KGM, Snell KIE, Ensor J, Hooft L, Altman DG, et al. A guide to systematic review and meta-analysis of prognostic factor studies. Bmj. 2019;364:k4597. Available from: https://doi.org/10.1136/bmj.k4597.
Tierney JF, Stewart LA, Ghersi D, Burdett S, Sydes MR. Practical methods for incorporating summary time-to-event data into meta-analysis. Trials. 2007;8(1):16. Available from: https://doi.org/10.1186/1745-6215-8-16.
Debray TPA, Damen JAAG, Snell KIE, Ensor J, Hooft L, Reitsma JB, et al. A guide to systematic review and meta-analysis of prediction model performance. Bmj. 2017;356:i6460. Available from: https://doi.org/10.1136/bmj.i6460.
Debray TPA, Koffijberg H, Nieboer D, Vergouwe Y, Steyerberg EW, Moons KGM. Meta-analysis and aggregation of multiple published prediction models. Statistics in Medicine. 2014;33(14):2341-62. Available from: https://doi.org/https://doi.org/10.1002/sim.6080.
Jansen JP, Trikalinos T, Cappelleri JC, Daw J, Andes S, Eldessouki R, et al. Indirect treatment comparison/network meta-analysis study questionnaire to assess relevance and credibility to inform health care decision making: an ISPOR-AMCP-NPC Good Practice Task Force report. Value Health. 2014;17(2):157-73. Available from: https://doi.org/10.1016/j.jval.2014.01.004.
Brignardello-Petersen R, Murad MH, Walter SD, McLeod S, Carrasco-Labra A, Rochwerg B, et al. GRADE approach to rate the certainty from a network meta-analysis: avoiding spurious judgments of imprecision in sparse networks. J Clin Epidemiol. 2019;105:60-7. Available from: https://doi.org/10.1016/j.jclinepi.2018.08.022.
Brignardello-Petersen R, Mustafa RA, Siemieniuk RAC, Murad MH, Agoritsas T, Izcovich A, et al. GRADE approach to rate the certainty from a network meta-analysis: addressing incoherence. J Clin Epidemiol. 2019;108:77-85. Available from: https://doi.org/10.1016/j.jclinepi.2018.11.025.
Brignardello-Petersen R, Guyatt GH, Mustafa RA, Chu DK, Hultcrantz M, Schünemann HJ, et al. GRADE guidelines 33: Addressing imprecision in a network meta-analysis. J Clin Epidemiol. 2021;139:49-56. Available from: https://doi.org/10.1016/j.jclinepi.2021.07.011.
Brignardello-Petersen R, Bonner A, Alexander PE, Siemieniuk RA, Furukawa TA, Rochwerg B, et al. Advances in the GRADE approach to rate the certainty in estimates from a network meta-analysis. J Clin Epidemiol. 2018;93:36-44. Available from: https://doi.org/10.1016/j.jclinepi.2017.10.005.
Laws A, Tao R, Wang S, Padhiar A, Goring S. A Comparison of National Guidelines for Network Meta-Analysis. Value Health. 2019;22(10):1178-86. Available from: https://doi.org/10.1016/j.jval.2019.05.013.
McKenzie JE, Brennan SE. Chapter 12: Synthesizing and presenting findings using other methods. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al., editors. Cochrane Handbook for Systematic Reviews of Interventions version 64 (updated August 2023): Cochrane; 2023. Available from: www.training.cochrane.org/handbook.
Noblit GW, Hare RD. Meta-Ethnography: Synthesizing Qualitative Studies. Newbury Park: Sage publications; 1988.
Thorne S, Jensen L, Kearney MH, Noblit G, Sandelowski M. Qualitative metasynthesis: reflections on methodological orientation and ideological agenda. Qual Health Res. 2004;14(10):1342-65. Available from: https://doi.org/10.1177/1049732304269888.
Lockwood C, Munn Z, Porritt K. Qualitative research synthesis: methodological guidance for systematic reviewers utilizing meta-aggregation. Int J Evid Based Healthc. 2015;13(3):179-87. Available from: https://doi.org/10.1097/xeb.0000000000000062.
Thomas J, Harden A. Methods for the thematic synthesis of qualitative research in systematic reviews. BMC Med Res Methodol. 2008;8(1):45. Available from: https://doi.org/10.1186/1471-2288-8-45.
Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, et al. Grading quality of evidence and strength of recommendations. Bmj. 2004;328(7454):1490. Available from: https://doi.org/10.1136/bmj.328.7454.1490.
Schünemann HJ. Handbook for grading the quality of evidence and the strength of recommendations using the GRADE approach. (Updated October 2013); 2013. [accessed April 24 2023]. Available from: https://gdt.gradepro.org/app/handbook/handbook.html.
Schünemann HJ, Cuello C, Akl EA, Mustafa RA, Meerpohl JJ, Thayer K, et al. GRADE guidelines: 18. How ROBINS-I and other tools to assess risk of bias in nonrandomized studies should be used to rate the certainty of a body of evidence. J Clin Epidemiol. 2019;111:105-14. Available from: https://doi.org/10.1016/j.jclinepi.2018.01.012.
Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidence--imprecision. J Clin Epidemiol. 2011;64(12):1283-93. Available from: https://doi.org/10.1016/j.jclinepi.2011.01.012.
Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 7. Rating the quality of evidence--inconsistency. J Clin Epidemiol. 2011;64(12):1294-302. Available from: https://doi.org/10.1016/j.jclinepi.2011.03.017.
Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 8. Rating the quality of evidence--indirectness. J Clin Epidemiol. 2011;64(12):1303-10. Available from: https://doi.org/10.1016/j.jclinepi.2011.04.014.
Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J, et al. GRADE guidelines: 5. Rating the quality of evidence--publication bias. J Clin Epidemiol. 2011;64(12):1277-82. Available from: https://doi.org/10.1016/j.jclinepi.2011.01.011.
Guyatt GH, Oxman AD, Sultan S, Glasziou P, Akl EA, Alonso-Coello P, et al. GRADE guidelines: 9. Rating up the quality of evidence. J Clin Epidemiol. 2011;64(12):1311-6. Available from: https://doi.org/10.1016/j.jclinepi.2011.06.004.
Guyatt GH, Oxman AD, Santesso N, Helfand M, Vist G, Kunz R, et al. GRADE guidelines: 12. Preparing summary of findings tables-binary outcomes. J Clin Epidemiol. 2013;66(2):158-72. Available from: https://doi.org/10.1016/j.jclinepi.2012.01.012.
Guyatt GH, Thorlund K, Oxman AD, Walter SD, Patrick D, Furukawa TA, et al. GRADE guidelines: 13. Preparing summary of findings tables and evidence profiles-continuous outcomes. J Clin Epidemiol. 2013;66(2):173-83. Available from: https://doi.org/10.1016/j.jclinepi.2012.08.001.
SBU. Läkemedelsbehandling av vanliga smärttillstånd hos äldre personer – effekter, biverkningar samt upplevelser av vård: en systematisk litteraturöversikt. Stockholm: Statens beredning för medicinsk och social utvärdering (SBU); 2020. SBU Uvärderar 315. [accessed May 5 2023]. Available from: https://www.sbu.se/315.
Foroutan F, Guyatt G, Zuk V, Vandvik PO, Alba AC, Mustafa R, et al. GRADE Guidelines 28: Use of GRADE for the assessment of evidence about prognostic factors: rating certainty in identification of groups of patients with different absolute risks. J Clin Epidemiol. 2020;121:62-70. Available from: https://doi.org/https://doi.org/10.1016/j.jclinepi.2019.12.023.
Lewin S, Glenton C, Munthe-Kaas H, Carlsen B, Colvin CJ, Gülmezoglu M, et al. Using qualitative evidence in decision making for health and social interventions: an approach to assess confidence in findings from qualitative evidence syntheses (GRADE-CERQual). PLoS Med. 2015;12(10):e1001895. Available from: https://doi.org/10.1371/journal.pmed.1001895.
Munthe-Kaas H, Bohren MA, Glenton C, Lewin S, Noyes J, Tunçalp Ö, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings-paper 3: how to assess methodological limitations. Implement Sci. 2018;13(Suppl 1):9. Available from: https://doi.org/10.1186/s13012-017-0690-9.
Noyes J, Booth A, Lewin S, Carlsen B, Glenton C, Colvin CJ, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings–paper 6: how to assess relevance of the data. Implementation Science. 2018;13(1):4. Available from: https://doi.org/10.1186/s13012-017-0693-6.
Colvin CJ, Garside R, Wainwright M, Munthe-Kaas H, Glenton C, Bohren MA, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings—paper 4: how to assess coherence. Implementation Science. 2018;13(1):13. Available from: https://doi.org/10.1186/s13012-017-0691-8.
Glenton C, Carlsen B, Lewin S, Munthe-Kaas H, Colvin CJ, Tunçalp Ö, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings—paper 5: how to assess adequacy of data. Implementation Science. 2018;13(1):14. Available from: https://doi.org/10.1186/s13012-017-0692-7.
Lewin S, Bohren M, Rashidian A, Munthe-Kaas H, Glenton C, Colvin CJ, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings—paper 2: how to make an overall CERQual assessment of confidence and create a Summary of Qualitative Findings table. Implementation Science. 2018;13(1):10. Available from: https://doi.org/10.1186/s13012-017-0689-2.
Shea BJ, Bouter LM, Peterson J, Boers M, Andersson N, Ortiz Z, et al. External validation of a measurement tool to assess systematic reviews (AMSTAR). PLoS One. 2007;2(12):e1350. Available from: https://doi.org/10.1371/journal.pone.0001350.
Shea BJ, Grimshaw JM, Wells GA, Boers M, Andersson N, Hamel C, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol. 2007;7(1):10. Available from: https://doi.org/10.1186/1471-2288-7-10.
SBU. Tidig koordinerad utskrivning och fortsatt rehabilitering i hemmiljö för äldre efter stroke. En systematisk litteraturöversikt. ISBN 978-91-85413-77-5. Stockholm: Statens beredning för medicinsk utvärdering (SBU); 2015 234. [accessed May 5 2023]. Available from: https://www.sbu.se/234.
SBU. Rehabilitering av äldre personer med höftfrakturer – interdisciplinära team. En systematisk litteraturöversikt. ISBN 978-91-85413-79-9. Stockholm: Statens beredning för medicinsk utvärdering (SBU); 2015 235. [accessed May 5 2023]. Available from: https://www.sbu.se/235.
SBU. Ljusbehandling och systemisk behandling av psoriasis. En systematisk översikt och utvärdering av medicinska, hälsoekonomiska och etiska aspekter. ISBN 978-91-88437-20-4. Stockholm: Statens beredning för medicinsk och social utvärdering (SBU); 2018 278. [accessed May 5 2023]. Available from: https://www.sbu.se/278.
SBU. Att förebygga missbruk av alkohol, droger och spel hos barn och unga. ISBN 978-91-85413-87-4. Stockholm: Statens beredning för medicinsk och social utvärdering (SBU); 2015 243. [accessed May 5 2023]. Available from: https://www.sbu.se/243.
Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, et al. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews. J Clin Epidemiol. 2009;62(10):1013-20. Available from: https://doi.org/10.1016/j.jclinepi.2008.10.009.
Whiting P, Savović J, Higgins JP, Caldwell DM, Reeves BC, Shea B, et al. ROBIS: A new tool to assess risk of bias in systematic reviews was developed. J Clin Epidemiol. 2016;69:225-34. Available from: https://doi.org/10.1016/j.jclinepi.2015.06.005.
White CM, Ip S, McPheeters M, Carey TS, Chou R, Lohr KN, et al. Using Existing Systematic Reviews To Replace De Novo Processes in Conducting Comparative Effectiveness Reviews. In: Methods Guide for Effectiveness and Comparative Effectiveness Reviews. Rockville: Agency for Healthcare Research and Quality, USA; 2009.
Whitlock EP, Lin JS, Chou R, Shekelle P, Robinson KA. Using existing systematic reviews in complex systematic reviews. Ann Intern Med. 2008;148(10):776-82. Available from: https://doi.org/10.7326/0003-4819-148-10-200805200-00010.
Drummond MF, Culpher M, G.W. T, O´Brien B, Stoddart G. Methods for the Economic Evaluation of Health Care Programmes: Oxford University Press; 2005.
Mauskopf JA, Sullivan SD, Annemans L, Caro J, Mullins CD, Nuijten M, et al. Principles of Good Practice for Budget Impact Analysis: Report of the ISPOR Task Force on Good Research Practices—Budget Impact Analysis. Value in Health. 2007;10(5):336-47. Available from: https://doi.org/https://doi.org/10.1111/j.1524-4733.2007.00187.x.
Hodgson TA, Meiners MR. Cost-of-Illness Methodology: A Guide to Current Practices and Procedures. The Milbank Memorial Fund Quarterly Health and Society. 1982;60(3):429-62. Available from: https://doi.org/10.2307/3349801.
Rice DP. Estimating the cost of illness. Am J Public Health Nations Health. 1967;57(3):424-40. Available from: https://doi.org/10.2105/ajph.57.3.424.
Byford S, Torgerson DJ, Raftery J. Economic note: cost of illness studies. Bmj. 2000;320(7245):1335. Available from: https://doi.org/10.1136/bmj.320.7245.1335.
Drummond M. Cost-of-illness studies: a major headache? Pharmacoeconomics. 1992;2(1):1-4. Available from: https://doi.org/10.2165/00019053-199202010-00001.
TLV. Tandvårds- och läkemedelsförmånsverkets allmänna råd om ekonomiska utvärderingar. TLVAR 2017:1. Stockholm: Tandvårds- och läkemedelsförmånsverket (TLV); 2017. Available from: https://www.tlv.se/download/18.467926b615d084471ac3230c/1510316374332/TLVAR_2017_1.pdf.
Gold M, Siegel J, Russell L, Weinstein MC. Cost-Effectiveness in Health and Medicine: Oxford University Press; 1996.
Bernfort L. Hälsoekonomiska utvärderingar. Vad menas och hur gör man? CMT Rapport 2009:2: Linköpings universitet; 2002. [accessed May 5 2023]. Available from: http://liu.diva-portal.org/smash/get/diva2:235003/FULLTEXT01.pdf.
Socialstyrelsen. Uppdrag statistik på hjälpmedelsområdet – slutrapport. Stockholm: Socialstyrelsen; 2021. [accessed Feb 21 2022]. Available from: https://www.socialstyrelsen.se/globalassets/sharepoint-dokument/artikelkatalog/statistik/2021-12-7696.pdf.
SKR. Kostnad per patient, KPP. Stockholm: Sveriges Kommuner och Regioner; 2023. [accessed May 16 2023]. Available from: https://skr.se/skr/halsasjukvard/ekonomiavgifter/kostnadperpatientkpp.1076.html.
SKR. KPP Databas. Stockholm: Sveriges Kommuner och Regioner; 2023. [accessed May 16 2023]. Available from: https://skr.se/skr/halsasjukvard/ekonomiavgifter/kostnadperpatientkpp/kppdatabas.46722.html.
Regionala priser och ersättningar för Södra sjukvårdsregionen 2021: Södra Regionvårdsnämnden; 2020. [accessed May 16 2023]. Available from: https://sodrasjukvardsregionen.se/download/regionala-priser-och-ersattningar-for-sodra-sjukvardsregionen-2021/?wpdmdl=21717&refresh=637269c580c3c1668442565.
Priser och ersättningar för Sydöstra sjukvårdsregionen 2022: Samverkansnämnden; Region Jököpings län, Region Kalmar län, Region Östergötland; 2022. [accessed May 16 2023]. Available from: https://sydostrasjukvardsregionen.se/wp-content/uploads/2022/05/Priser_och_ersattningar_20220401.pdf.
SKR. Sjukvårdsregionernas prislistor. Stockholm: Sveriges Kommuner och Regioner; 2023. [accessed May 16 2023]. Available from: https://skr.se/skr/halsasjukvard/ekonomiavgifter/utomlansvardriksavtal/regionernasprislistor.31055.html.
RKA. Stöd och omsorg - analysmaterialet "Koll på...". Stockholm: Rådet för främjande av kommunala analyser; 2023. [accessed May 16 2023]. Available from: https://rka.nu/radetforframjandeavkommunalaanalyser/analys/stodochomsorg.44775.html.
SKR. Publikationer och databaser. Stockholm: Sveriges Regioner och Kommuner; 2023. [accessed May 16 2023]. Available from: https://skr.se/skr/ekonomijuridik/ekonomi/sektornisiffror/publikationerochdatabaser.1885.html.
RKA. Koll på funktionshinderområdet. Stockholm: Rådet för främjande av kommunala analyser; 2023. [accessed May 16 2023]. Available from: https://rka.nu/radetforframjandeavkommunalaanalyser/analys/stodochomsorg/kollpafunktionshinderomradet.44777.html.
RKA. Koll på hemtjänsten - en handledning för analys av hemtjänstkostnader. Stockholm: Rådet för främjande av kommunala analyser; 2022. [accessed May 16 2023]. Available from: https://rka.nu/radetforframjandeavkommunalaanalyser/analys/stodochomsorg/kollpahemtjansten.44779.html.
Johannesson M, Karlsson G. The friction cost method: a comment. J Health Econ. 1997;16(2):249-55; discussion 57-9. Available from: https://doi.org/10.1016/s0167-6296(97)00006-4.
Koopmanschap MA, Rutten FF, van Ineveld BM, van Roijen L. The friction cost method for measuring indirect costs of disease. J Health Econ. 1995;14(2):171-89. Available from: https://doi.org/10.1016/0167-6296(94)00044-5.
Prioriteringar i hälso- och sjukvården: Region Skånes etiska råd; 2013. [accessed May 16 2023]. Available from: http://www.diva-portal.se/smash/get/diva2:955701/FULLTEXT01.pdf.
Heinz E, Davidson T, Rosén M. Prioritera utifrån produktivitet – ett etiskt problem? Läkartidningen. 2013;38.
Sahlén KG, Löfgren C, Lindholm L. Är det lönsamt med prevention efter 65? : ålderns betydelse i hälsoekonomiska utvärderingsmetoder : förebyggande hembesök i Nordmaling. Stockholm: Statens folkhälsoinstitut; 2007. Available from: https://www.yumpu.com/sv/document/view/8888439/ar-det-lonsamt-med-prevention-efter-65-1.
Sculpher MJ, Drummond M. The role and estimation of productivity costs in economic evaluation. In: McGuire A, editor. Economic evaluation in health care: merging theory with practice: Oxford University Press; 2001.
NICE. Guide to the methods of technology appraisal 2013: National Institute for Health and Clinical excellence; 2013. [accessed May 8 2023]. Available from: https://www.nice.org.uk/process/pmg9/chapter/foreword.
ISPOR. Lawrenceville, USA. [accessed May 8 2023]. Available from: https://www.ispor.org/heor-resources/more-heor-resources/pharmacoeconomic-guidelines/pe-guideline-detail.
von Neumann J, Morgenstern O. Theory of Games and Economic Behavior. Princeton, New Jersey, USA: Princeton University Press; 1944.
Torrance GW, Thomas WH, Sackett DL. A utility maximization model for evaluation of health care programs. Health Serv Res. 1972;7(2):118-33.
Patrick DL, Bush JW, Chen MM. Methods for measuring levels of well-being for a health status index. Health Serv Res. 1973;8(3):228-45.
EuroQol--a new facility for the measurement of health-related quality of life. Health Policy. 1990;16(3):199-208. Available from: https://doi.org/10.1016/0168-8510(90)90421-9.
Brazier J, Roberts J, Deverill M. The estimation of a preference-based measure of health from the SF-36. Journal of Health Economics. 2002;21(2):271-92. Available from: https://doi.org/https://doi.org/10.1016/S0167-6296(01)00130-8.
Ware JE, Snow KK, Kosinski M, Gandek B, New England Medical Center Hospital Health I. SF-36 health survey : manual and interpretation guide. Boston: Health Institute, New England Medical Center Boston; 1993.
Hays RD, Sherbourne CD, Mazel RM. The RAND 36-Item Health Survey 1.0. Health Econ. 1993;2(3):217-27. Available from: https://doi.org/10.1002/hec.4730020305.
Feeny D, Furlong W, Torrance GW, Goldsmith CH, Zhu Z, DePauw S, et al. Multiattribute and single-attribute utility functions for the health utilities index mark 3 system. Med Care. 2002;40(2):113-28. Available from: https://doi.org/10.1097/00005650-200202000-00006.
Mihalopoulos C, Chen G, Iezzi A, Khan MA, Richardson J. Assessing outcomes for cost-utility analysis in depression: comparison of five multi-attribute utility instruments with two depression-specific outcome measures. Br J Psychiatry. 2014;205(5):390-7. Available from: https://doi.org/10.1192/bjp.bp.113.136036.
Rowen D, Keetharuth AD, Poku E, Wong R, Pennington B, Wailoo A. A Review of the Psychometric Performance of Selected Child and Adolescent Preference-Based Measures Used to Produce Utilities for Child and Adolescent Health. Value in Health. 2021;24(3):443-60. Available from: https://doi.org/https://doi.org/10.1016/j.jval.2020.09.012.
Dolan P. Modeling valuations for EuroQol health states. Med Care. 1997;35(11):1095-108. Available from: https://doi.org/10.1097/00005650-199711000-00002.
Burström K, Sun S, Gerdtham UG, Henriksson M, Johannesson M, Levin L, et al. Swedish experience-based value sets for EQ-5D health states. Qual Life Res. 2014;23(2):431-42. Available from: https://doi.org/10.1007/s11136-013-0496-4.
Sen A. Commodities and Capabilities. Amsterdam: North-Holland; 1985.
Sen A. Development as Freedom: Oxford University Press; 1999.
Sen A. Capabilities, Lists, and Public Reason: Continuing the Conversation. Feminist Economics. 2004;10(3):77-80. Available from: https://doi.org/10.1080/1354570042000315163.
Flynn TN, Huynh E, Peters TJ, Al-Janabi H, Clemens S, Moody A, et al. Scoring the Icecap-a capability instrument. Estimation of a UK general population tariff. Health Econ. 2015;24(3):258-69. Available from: https://doi.org/10.1002/hec.3014.
Coast J, Flynn TN, Natarajan L, Sproston K, Lewis J, Louviere JJ, et al. Valuing the ICECAP capability index for older people. Soc Sci Med. 2008;67(5):874-82. Available from: https://doi.org/10.1016/j.socscimed.2008.05.015.
Huynh E, Coast J, Rose J, Kinghorn P, Flynn T. Values for the ICECAP-Supportive Care Measure (ICECAP-SCM) for use in economic evaluation at end of life. Soc Sci Med. 2017;189:114-28. Available from: https://doi.org/10.1016/j.socscimed.2017.07.012.
Månsdotter A, Ekman B, Meili KW, Feldman I, Hagberg L, Hurtig A-K, et al. Towards capability-adjusted life years in public health and social welfare: Results from a Swedish survey on ranking capabilities. PLoS One. 2020;15(12):e0242699. Available from: https://doi.org/10.1371/journal.pone.0242699.
Meili K. In Pursuit of Weights For CALY: Exploring Methods for Measuring And Calculating Capability Adjusted Life Year Weights. Umeå: Umeå universitet, Medicinska fakulteten, Institutionen för folkhälsa och klinisk medicin, Epidemiologi och global hälsa.; 2017. Centre for Public Health Report Series, ISSN 1651-341X ; 2017:36. [accessed May 16 2023]. Available from: http://umu.diva-portal.org/smash/record.jsf?language=sv&pid=diva2%3A1167340&dswid=-1461.
Meili KW, Månsdotter A, Sundberg LR, Hjelte J, Lindholm L. An initiative to develop capability-adjusted life years in Sweden (CALY-SWE): Selecting capabilities with a Delphi panel and developing the questionnaire. PLoS One. 2022;17(2):e0263231. Available from: https://doi.org/10.1371/journal.pone.0263231.
Brazier J, Peasgood T, Mukuria C, Marten O, Kreimeier S, Luo N, et al. The EQ-HWB: Overview of the Development of a Measure of Health and Wellbeing and Key Results. Value Health. 2022;25(4):482-91. Available from: https://doi.org/10.1016/j.jval.2022.01.009.
Sculpher MJ, Claxton K, Drummond M, McCabe C. Whither trial-based economic evaluation for health care decision making? Health Econ. 2006;15(7):677-87. Available from: https://doi.org/10.1002/hec.1093.
Briggs A, Sculpher M, Claxton K. Decision Modelling for Health Economic Evaluation. : Oxford University Press; 2006.
Caro JJ, Möller J, Getsios D. Discrete event simulation: the preferred technique for health economic evaluations? Value Health. 2010;13(8):1056-60. Available from: https://doi.org/10.1111/j.1524-4733.2010.00775.x.
Pitman R, Fisman D, Zaric GS, Postma M, Kretzschmar M, Edmunds J, et al. Dynamic transmission modeling: a report of the ISPOR-SMDM Modeling Good Research Practices Task Force--5. Value Health. 2012;15(6):828-34. Available from: https://doi.org/10.1016/j.jval.2012.06.011.
Claxton K, Sculpher M, McCabe C, Briggs A, Akehurst R, Buxton M, et al. Probabilistic sensitivity analysis for NICE technology assessment: not an optional extra. Health Econ. 2005;14(4):339-47. Available from: https://doi.org/10.1002/hec.985.
Gruneau L, Svensson M, Henriksson M. Precision i hälsoekonomiska utvärderingsresultat och osäkerhet i prioriteringsbeslut. CMT Rapport 2022:1. Linköpings universitet: CMT – Centrum för utvärdering av medicinsk teknologi; 2022. [accessed May 8 2023]. Available from: https://www.diva-portal.org/smash/get/diva2:1657435/FULLTEXT01.pdf.
Bojke L, Claxton K, Palmer S, Sculpher M. Defining and Characterising Structural Uncertainty in Decision Analytic Models. York, UK: Centre of Health Economics, The University of York; 2006. [accessed May 8 2023]. Available from: https://www.york.ac.uk/media/che/documents/papers/researchpapers/rp9_structural_uncertainty_in_decision_analytic_models.pdf.
Briggs AH, Weinstein MC, Fenwick EA, Karnon J, Sculpher MJ, Paltiel AD. Model parameter estimation and uncertainty analysis: a report of the ISPOR-SMDM Modeling Good Research Practices Task Force Working Group-6. Med Decis Making. 2012;32(5):722-32. Available from: https://doi.org/10.1177/0272989x12458348.
Bojke L, Claxton K, Sculpher M, Palmer S. Characterizing Structural Uncertainty in Decision Analytic Models: A Review and Application of Methods. Value in Health. 2009;12(5):739-49. Available from: https://doi.org/https://doi.org/10.1111/j.1524-4733.2008.00502.x.
Strong M, Oakley JE, Chilcott J. Managing structural uncertainty in health economic decision models: a discrepancy approach. Journal of the Royal Statistical Society: Series C (Applied Statistics). 2012;61(1):25-45. Available from: https://doi.org/https://doi.org/10.1111/j.1467-9876.2011.01014.x.
Sveriges Riksdag. Prioriteringar inom hälso- och sjukvården Proposition 1996/97:60. Stockholm. [Available from: https://www.riksdagen.se/sv/dokument-lagar/dokument/proposition/prioriteringar-inom-halso--och-sjukvarden_GK0360.
Tinghög G. Alternativkostnadens psykologi – känslor och kostnadseffektivitet vid beslut i offentlig sektor: SNS Analys 77; 2021.
Henriksson M, Siverskog J, Johannesen K, Eriksson T. Tröskelvärden och kostnadseffektivitet - innebörd och implikationer för ekonomiska utvärderingar och beslutsfattande i hälso- och sjukvården. CMT Rapport 2018:3: CMT – Centrum för utvärdering av medicinsk teknologi, Linköpings universitet; 2018. [accessed May 8 2023]. Available from: https://www.diva-portal.org/smash/get/diva2:1267099/FULLTEXT01.pdf.
Persson U, Olofsson S. Ett QALY är värt mer än två miljoner kronor. 115:E96F. Läkartidningen. 2018.
Olofsson S, Persson U, Hultkrantz L, Gerdtham UG. Betalningsviljan för att minska risken för icke-dödliga och dödliga skador i samband med vägtrafikolyckor – en studie med kedje-ansats. IHE Rapport 2016:7. Lund: Institutet för Hälso- och Sjukvårdsekonomi (IHE); 2016. [accessed May 8 2023]. Available from: Betalningsviljan för att minska risken för icke-dödliga och dödliga skador i samband med vägtrafikolyckor – en studie med kedje-ansats - IHE.
Sieverskog J. Opportunity cost in healthcare priority setting: Linköpings universitet, Institutionen för hälsa, medicin och vård, Avdelningen för samhälle och hälsa. Linköpings universitet, Medicinska fakulteten; 2022. [accessed May 16 2023]. Available from: https://www.diva-portal.org/smash/record.jsf?pid=diva2%3A1643930&dswid=48.
Svensson M, Nilsson FO, Arnberg K. Reimbursement Decisions for Pharmaceuticals in Sweden: The Impact of Disease Severity and Cost Effectiveness. Pharmacoeconomics. 2015;33(11):1229-36. Available from: https://doi.org/10.1007/s40273-015-0307-6.
Socialstyrelsen. Nationella riktlinjer. Metodbeskrivning. Stockholm: Socialstyrelsen; 2021. [accessed Sep 19 2023]. Available from: https://www.socialstyrelsen.se/globalassets/sharepoint-dokument/dokument-webb/nationella-riktlinjer/nationella-riktlinjer-metodbeskrivning.pdf.
Brunetti M. Chapter 10: Grading economic evidence. In: Shemilt I, Mugford M, Vale L, Marsh K, Donaldson C, editors. Evidence-Based Decisions and Economics: Health Care, Social Welfare, Education and Criminal Justice (2 ed) Wiley-Blackwell; 2010.
Evers S, Goossens M, de Vet H, van Tulder M, Ament A. Criteria list for assessment of methodological quality of economic evaluations: Consensus on Health Economic Criteria. Int J Technol Assess Health Care. 2005;21(2):240-5.
Philips Z, Ginnelly L, Sculpher M, Claxton K, Golder S, Riemsma R, et al. Review of guidelines for good practice in decision-analytic modelling in health technology assessment. Health Technol Assess. 2004;8(36):iii-iv, ix-xi, 1-158. Available from: https://doi.org/10.3310/hta8360.
Drummond M, Barbieri M, Cook J, Glick HA, Lis J, Malik F, et al. Transferability of economic evaluations across jurisdictions: ISPOR Good Research Practices Task Force report. Value Health. 2009;12(4):409-18. Available from: https://doi.org/10.1111/j.1524-4733.2008.00489.x.
Mulligan JA, Fox-Rushby J. Transferring cost-effectiveness data across space and time. In: Fox-Rushby J, Cairns J, editors. Economic Evaluation: McGraw-Hill Companies, Incorporated; 2005.