Een positief studieresultaat ...zijn we dan klaar?

19/09/2016

PERSPECTIEF Een 5% significantieniveau is meer dan alleen een positieve uitkomst. Uiteenlopende aspecten moeten worden overwogen om resultaten van een klinische trial als positief te kunnen kwalificeren.

The primary outcome is positive – is that good enough?
Literatuur - Pocock SJ et al., NEJM 2016

Pocock SJ and Stone GW
N Engl J Med. 2016 Sep 8;375(10):971-9

Om een klinische studie als succesvol te kunnen kwalificeren, wordt de aandacht meestal gevestigd op of de voorafgespecificeerde mate van succes van een primair eindpunt behaald is, namelijk, of een P-waarde lager dan 0.05 is behaald. Een valide conclusie vergt echter bestudering van het totaal aan bewijs, inclusief secundaire eindpunten en veiligheidsissues, maar ook van de studieopzet.
Dit review belicht belangrijke overwegingen die aan de orde zijn wanneer de uitkomsten van een studie worden beoordeeld en toont studiehiaten aan in met name CV klinische trials.

De waarde van de P-waarde

Het bereiken van statistische significantie is niet voldoende. Een P-waarde van 0.05 betekent een 5% risico op een foutpositief resultaat.

In tegenstelling tot de PARADIGM-HF studie met een overweldigende P-waarde voor het behandelverschil onder de 0.00001, liet de SAINT I studie een P-waarde voor het primaire eindpunt ‘invaliditeit binnen 90 dagen’ zien, wanneer acute ischemische beroerte patiënten werden behandeld met NXY-059 of placebo. Hoewel deze P-waarde onder de 0.05 is, hetgeen effectiviteit van NXY-059 suggereert, concludeerde een tweede, grotere studie (SAINT II) dat er geen significant effect is (P=0.33). Dit leidde tot de tegenovergestelde conclusie dat NXY-059 ineffectief was voor de behandeling van acute ischemische stroke.

Grootte van het behandeleffect

Een behandelverschil moet klinisch betekenisvol zijn. Daarom moet het behandeleffect worden bepaald op relatieve schaal (relatief risico/hazard ratio) en absolute schaal (event rate en number needed to treat). Bovendien vertelt het 95% betrouwbaarheidsinterval iets over het niveau van onzekerheid, dus dit moet zeker worden overwogen.

In de IMPROVE-IT studie, was het 7-jaars verschil in primary events tussen ezetimibe-behandelde en placebo-behandelde patiënten slechts 2%: 32.7 vs. 34.7% met een 95%CI: van 0 tot 4%. Hoewel de bevindingen van deze studie als ‘positief’ werden beschreven, kan men zich afvragen of het voordeel van ezetimibe groot genoeg is in het licht van de kosten en mogelijke complicaties.

Surrogaatmarkers als primair eindpunt

Voor sommige ziekten wordt een surrogaat primaire uitkomstmaat geaccepteerd. Deze markers correleren maar het niet noodzakelijkerwijs een gegarandeerde relatie met het eindpunt. Daarom worden vragen gesteld over de waarde van deze markers.

In de ACCORD studie resulteerde intensieve behandeling in lagere hbA1c ten opzichte van standaardtherapie, maar de frequentie van CV events was niet significant lager en de sterfte was zelfs hoger.
In de LIDO studie resulteerde levosimendan in grotere hemodynamische verbetering dan dobutamine, maar het primaire voordeel kon niet worden bevestigd in de opvolgende, grotere SURVIVE studie. Hoewel LIDO in veel landen leidde tot goedkeuring van levosimendan, keurde de FDA het niet goed na publicatie van de SURVIVE resultaten.

Samengestelde primaire eindpunten

Wanneer samengestelde eindpunten worden gebruikt, is het belangrijk om de drijvende krachten kritisch te evalueren.

In de RITA-3 studie kon een groot deel van de daling van het samengestelde eindpunt worden toegeschreven aan refractaire angina, hoewel er geen bewijs was voor een verschil in de frequentie van de twee andere eindpunten die in het samengestelde eindpunt waren opgenomen (sterfte en myocardinfarct (MI) op korte termijn). Desondanks werd de studie in een nieuwskop beschreven als “RITA-3: Eerste bewijs dat interventie levens redt”. Gelukkig bevestigden de resultaten van latere follow-up studies deze uitspraak.
De EXPEDITION studie liet ook een zeer positief resultaat zien, waarin cariporide met placebo werd vergeleken, en waarin een P-waarde van 0.0002 voor het samengestelde eindpunt werd gevonden (sterfte of MI). Dit resultaat werd inderdaad met name gedreven door MI (P=0.000005) en niet door sterfte, wat zelfs hoger (P=0.02), evenals de frequentie van cerebrovasculaire events (P<0.001).

De impact van secundaire eindpuntresultaten

De primaire uitkomstresultaten worden versterkt als de voorafgespecificeerde secundaire uitkomsten ook voordeel laten zien. Als aan de andere kant deze uitkomsten geen voordeel vertonen, moeten worden getwijfeld aan de waarde van de resultaten.

In de SAINT I studie was geen bewijs voor twee belangrijke uitkomsten. Deze afwezigheid creëerde verdachtmaking ten aanzien van het ‘positieve’ primaire eindpunt. Inderdaad werd een negatief resultaat gevonden voor het primaire eindpunt in de opvolgende SAINT II studie.
Daarentegen bleek het samengestelde eindpunt op de grens van significant in de EMPA-REG OUTCOME studie, maar de secundaire eindpunten waren robuust en significant. Het effect van empagliflozine kreeg daarom meer credits dankzij de secundaire eindpunten.

Subgroepen

Een consistent relatief behandeleffect kan worden gezien in alle patiënttypen, maar bepaalde hoog-risicogroepen kunnen een hoger absoluut voordeel hebben of sommige patiënten lijken geen baat te hebben bij nieuwe behandeling. Voorzichtigheid is geboden, aangezien onechte bevindingen kunnen opduiken als veel subgroepen worden geanalyseerd.

In de PLATO studie was het overall risico op CV sterfte, MI, of beroerte 16% lager met ticagrelor dan met clopidogrel (P<0.001). Subgroepanalyses legden echter bloot dat patiënten die een hoge onderhoudsdosering aspirine kregen 45% hoger risico hadden met ticagrelor dan met clopidogrel, terwijl ticagrelor met een lager risico op CV sterfte, MI of stroke was geassocieerd in patiënten die een lage onderhoudsdosis kregen. Aangezien deze observatie voortkwam uit diverse exploratieve subgroepanalyses en een duidelijke biologische plausibiliteit ontbeert, wordt de validiteit van deze observatie nog bediscussieerd. Desondanks bracht de FDA een waarschuwing uit over aspirinedosering in deze setting.

Grootte van de studie

Kleine studies missen power, waardoor positieve behandeleffecten gevoelig zijn voor overdrijving en foutpositieve resultaten kunnen ontstaan.

De N-acetylcysteïne versus placebo studie concludeerde dat “N-acetylcysteïne is een effectieve manier om nierschade te voorkomen”. Dit statement is echter te sterk: 1 op de 41 patiënten die N-acetylcysteïne kregen hadden een primair event, terwijl 9 van de 42 placebopatiënten een dergelijk event doormaakte. Het was gepaster geweest om te zeggen dat N-acetylcysteïne ‘mogelijk effectief is’. Inderdaad concludeerde een meta-analyse van 10 gerandomiseerde studies (1916 patiënten) dat het bewijs te zwak en heterogeen was.
In de PRAMI studie was de 65% daling van het risico te mooi om waar te zijn. Deze bevinding was gebaseerd op relatief weinig primaire events (21 vs. 53). Twee volgende studies van vergelijkbare grootte lieten gemengde resultaten zien. Daarom is meer bewijs nodig om klinisch management aan te passen.

Effect van voortijdig gestopte studies

Een voortijdig gestopte studie kan effectiviteit van de behandeling overdrijven. Als een trial voortduurt, varieert het geschatte behandeleffect willekeurig in relatie tot het echte effect. Als de interimschatting gebaseerd is op een willekeurig hoge indicatie van effectiviteit, is het waarschijnlijker dat het een statistische stop-grens overschrijdt. Voortijdig stoppen breekt ook het bewijs af voor belangrijke secundaire (en veiligheids) uitkomsten.

De FAME-2 studie stopte vroeg omdat de hazardratio voor het primaire eindpunt ten faveure van PCI (vs medische behandeling alleen) 0.39 (95% CI 0.26-0.57, P<0.001) was. Dit voordeel werd gedreven door minder urgente revascularisaties; een ‘zacht’ eindpunt in een ongeblindeerde studie. De frequentie van sterfte of MI was, hoewel lager dan met PCI, niet sluitend. Completeren van de studieduur zou in meer events hebben geresulteerd, hetgeen de waarde van deze studie zeker zou hebben vergroot.
De SPRINT studie was voortijdig gestopt na een mediane tijd van 3.26 jaar in plaats van 5. De hazard ratio voor het primaire eindpunt was 0.75 (95% CI, 0.64-0.89, P<0.001). Er verstreken maar 4 weken tussen het toppen van de studie en publicatie. Daardoor zijn de kwaliteit en volledigheid van welke interim database onvermijdelijk imperfect; er zullen events zijn die nog verzekerd of bevestigd moeten worden. Bovendien kost het netjes sluiten van een studie na vroeg staken een aantal maanden en dit is nodig om robuuste interpretatie van al het bewijs te bereiken. Het moment waarop de studie wordt gestopt, is waarschijnlijk het moment waarop een overdreven schatting van de effectiviteit wordt gezien.

Veiligheid vs. positieve effectiviteit

Een gebalanceerd overzicht van zowel effectiviteit als veiligheid moet worden gegeven; absolute voordelen en risico’s moeten worden gepresenteerd in termen van verschillen in percentages en de NNT voor voordeel vs. de number needed to harm kunnen een idee geven van netto klinisch voordeel.

Het voordeel in de DAPT studie, waarin toevoeging (18 maanden) van duale antiplaatjestherapie vs. aspirine werd getest na een drug-eluting stent, ging gepaard met hogere frequentie van ernstige bloedingen. Sterfte door alle oorzaken was 0.5% hoger, hetgeen werd toegeschreven aan een grotere niet-CV sterfte.
In de SPRINT studie, was de frequentie van het samengestelde CV eindpunt 1.6% lager en het sterftecijfer was 1.2% lager met intensieve bloeddrukverlaging ten opzichte van standaard bloeddrukverlaging. Hypotensie, syncope en acute nierschade waren echter toegenomen met respectievelijk 1.4, 1.1 en 1.8%, in geval van intensieve bloeddrukbeheersing.

Studiedesign

Vertekening door de opzet en uitvoeren van de studie moet worden uitgesloten voordat een echt voordeel kan worden erkend.

SYMPPLICITY HTN-2 was niet geblindeerd, wat ernstige issues introduceerde. De studie toonde effectiviteit aan, maar de volgende SYMPLICITY HTN-3 sham-controlled studie weersprak deze bevinding weer.
In de ATLAS ACS 2-TIMI 51 studie, stopten 27.6% voortijdig met de behandeling en data over vitale status ontbrak in 7.2% van de patiënten. Deze problemen leken groter in deze studie dan in andere studies van vergelijkbare grootte.

Beperkingen van toepasbaarheid

De patiëntpopulatie die geëvalueerd wordt in een studie speelt een rol in de impact van het resultaat op managementveranderingen en in verschillende landen.

De SPRINT studie excludeerde patiënten jonger dan 50 jaar en diegenen met diabetes of een beroerte in de voorgeschiedenis. Daarom zijn de studieresultaten maar van toepassing op ongeveer 20% van alle patiënten met hypertensie die in de klinische praktijk worden gezien. Bovendien werd in de ACCORD studie geen effect van intensieve bloeddrukbehandeling gezien op CV events in patiënten met type 2 diabetes, ten opzichte van standaardbehandeling.
De single-center TAPAS studie met 1071 patiënten liet een aanzienlijk verlaagde sterfte na 1 jaar na PCI en trombusaspiratie zien, ten opzichte van conventionele PCI. Deze uitkomst was niet realistisch gezien het matige voordeel in reperfusiesucces (primaire uitkomst).
Desalniettemin leidde de studie tot jarenlange brede adoptie van trombusaspiratie. Later hebben twee multicentre studies met meer dan 17000 patiënten overtuigend laten zien dat routinematige trombusaspiratie geen voordeel biedt ten aanzien van CV events en sterfte.
Tegen de tijd dat de langetermijnbevindingen voor het primaire eindpunt van een studie beschikbaar komen, is de relevantie van vooruitgang in de zorg mogelijk verminderd voor de hedendaagse praktijk. In de SYNTAX en FREEDOM studies werden patiënten ingedeeld bij PCI met eerste-generatie drug-eluting stents of bij CABG. Deze hedendaagse drug-eluting stents weerspiegelen echter een aanzienlijke verbetering ten opzichte van eerste-generatie devices: een feit dat de toepasbaarheid van deze bevindingen in de huidige praktijk.

Vind dit artikel online op NEJM