Einführung
Die Atopische Dermatitis (AD) ist eine komplexe Erkrankung, die auf einer genetischen Veranlagung basiert und mit einer gestörten Hautbarrierefunktion sowie einer immunologischen Dysregulation einhergeht. Umweltfaktoren wie Allergene, Hautmikrobiota und diverse Stressoren können Krankheitsschübe auslösen oder verstärken. Die AD zeigt eine erhebliche Heterogenität, sowohl im klinischen Erscheinungsbild als auch in ihrer Ausprägung. Bei Kindern äußert sich die Erkrankung häufig durch andere Symptome als bei Erwachsenen. Auch der Schweregrad variiert stark, von milden Verläufen bis hin zu schwereren Formen. Patienten mit mittelschwerer oder schwerer AD benötigen oft eine systemische Therapie mit modernen Biologika. Im Rahmen der gestörten Immunantwort spielen TH2-Zellen eine zentrale Rolle. Diese produzieren unter anderem die Interleukine-4 (IL-4) und IL-13, wobei IL-13 als Haupttreiber der AD-spezifischen Entzündungsreaktion gilt. Es ist in der Haut stärker überexprimiert als IL-4. IL-13 beeinflusst verschiedene Aspekte der Erkrankung: Es trägt zur gestörten Hautbarriere bei und fördert durch die Hemmung antimikrobieller Peptide Hautinfektionen (allen voran mit Staphylococcus aureus). Darüber hinaus verstärkt IL-13 die Hautentzündung und leistet durch direkte Wirkung auf sensorische Neurone dem quälenden Juckreiz Vorschub. Bei langjähriger AD tritt häufig eine Hautverdickung auf, die ebenfalls durch IL-13 gefördert wird, da es Fibroblasten und die Kollagensynthese anregt. Aufgrund seiner zentralen Rolle in der Pathogenese der AD wurden spezifische Biologikatherapien entwickelt, die IL-13 gezielt blockieren. Diese neuen Biologika stellen einen bedeutenden Fortschritt in der AD-Therapie dar. Tralokinumab ist ein spezifischer IL-13-Inhibitor, der die Bindung von IL-13 an seine Rezeptoren verhindert und so die IL-13-vermittelte Entzündung gezielt und effektiv unterbindet, während das IL-4-Signal erhalten bleibt. Im Gegensatz dazu blockiert beispielsweise Dupilumab sowohl IL-4 als auch IL-13, indem es an die IL-4-Rezeptor-α-Subunit bindet und so das Signaling beider Zytokine hemmt. Eine weitere Therapieoption ist Lebrikizumab, das ebenfalls IL-13 gezielt blockiert, jedoch durch Hemmung der Bildung des IL-13-Rezeptor-α-1-/IL-4-Rezeptor-α-Komplexes. Letztlich bleibt hierbei das IL-4-Signaling ebenfalls erhalten, während das IL-13-Signaling unterbunden wird. Die Vielzahl verfügbarer Biologika wirft unweigerlich die Frage nach ihrer relativen Wirksamkeit auf.
Fallstricke beim Vergleich von Biologikatherapien
Die Frage nach der Vergleichbarkeit dermatologischer Studien ist von großer praktischer Bedeutung. Sie ist aber in Abwesenheit direkt vergleichender Studien (Head-to-Head-Studien) nicht einfach zu beantworten. Verschiedene Faktoren beeinflussen die Ergebnisse klinischer Studien, darunter die Ein- und Ausschlusskriterien, die Dauer von Auswaschphasen für topische und systemische Vormedikationen sowie die Baseline-Charakteristika der Patienten (wie Alters- und Geschlechtsverteilung etc.). Auch eine ausgewogene Repräsentation von Menschen unterschiedlicher ethnischer Herkunft spielt eine zunehmend wichtige Rolle, was früher oft vernachlässigt wurde. Ein weiterer entscheidender Faktor sind die objektiven und subjektiven Schweregrade der Erkrankung. Dabei zeigt sich, dass sich der durchschnittliche Baseline-„Eczema Area and Severity Index”-(EASI-)Score in den Studienpopulationen, ein wichtiges Maß für den Schweregrad der AD, im Verlauf der Jahre wesentlich verändert hat. Während frühere Studien in den Jahren 2013 und 2014 noch regelhaft Patienten mit EASI-Scores >30 einschlossen, sind in neueren Studien zunehmend Patienten mit geringerer Krankheitsausprägung vertreten. Dieser Wandel beeinflusst die Interpretation und Vergleichbarkeit der Ergebnisse maßgeblich. Bei der Studienplanung ist es entscheidend, den Ausgangspunkt und das damit verbundene erreichbare Verbesserungspotenzial zu berücksichtigen, um den erwarteten Effekt realistisch einschätzen zu können. Zudem beeinflussen Begleittherapien wie topische Behandlungen, allen voran topische Kortikosteroide (englisch „topical corticosteroids”, TCS), die Studienergebnisse erheblich. In verschiedenen Phase-III-Studien, die zur Zulassung der Biologika Dupilumab, Tralokinumab und Lebrikizumab führten, wurden sowohl Monotherapien als auch Kombinationstherapien mit TCS eingesetzt. Hinzu kommt, dass die Länge der Wash-out-Phasen zwischen den Studien uneinheitlich war. Es ist wichtig, zwischen diesen Studiendesigns klar zu unterscheiden. Eine weitere kritische Variable, die die Studienergebnisse maßgeblich beeinflusst, ist die Wahl des statistischen Ansatzes.
Wozu überhaupt Statistik?
Um den Einfluss des statistischen Ansatzes auf die Interpretation von Studienergebnissen zu verstehen, müssen wir uns zunächst nochmals grundsätzlich die Frage stellen: Wozu wenden wir in der klinischen Forschung Statistik an? Statistik dient primär dazu, komplexe Daten verständlich zu machen und fundierte Schlussfolgerungen zu ziehen. Durch statistische Methoden werden Daten erst in eine interpretierbare Form gebracht. So werden Vergleiche zwischen verschiedenen Medikamenten oder Dosisregimen überhaupt erst möglich. Hierbei wird das Ziel verfolgt, den Behandlungseffekt zu extrahieren und die zufällige Streuung zu minimieren. Eine ausreichende Stichprobengröße ist hierfür entscheidend. Statistische Expertise ist für das Design, für die Durchführung, Analyse und Berichterstattung einer Studie unerlässlich. Dies wird auch in den Guidelines des „Committee for Medicinal Products for Human Use” (CHMP) betont, die die konsequente Einbeziehung biometrischer Expertise vor, während und nach der Durchführung von klinischen Studien fordern. Strategische Planung ist in der klinischen Entwicklung entscheidend, da eine gelungene Planung die Fehlerquote verringert und eine effizientere Nutzung von Ressourcen ermöglicht. Ein durchdachtes statistisches Design ist für den gesamten pharmazeutischen Entwicklungsprozess unerlässlich.
Kritischer Vergleich klinischer Studien
Im Folgenden wird anhand von zwei zentralen Beispielen erläutert, welche Aspekte bei der kritischen Bewertung klinischer Studien zu Biologikatherapien bei der AD besonders beachtet werden müssen. Die ECZema TRAlokinumab Trial-(ECZTRA-)1- und ECZTRA-2-Studien untersuchten die Wirksamkeit von Tralokinumab bei der AD in Monotherapie. Beide Studien liefen parallel, mit ähnlichem Design, aber in unterschiedlichen Regionen der Welt. Sie umfassten eine Screeningphase und eine Wash-out-Periode für AD-Medikamente, darunter eine zweiwöchige Wash-out-Phase für TCS. Die Patienten wurden anschließend für die erste Studienphase im Verhältnis 3 : 1 randomisiert, um entweder Tralokinumab oder ein Placebo zu erhalten. Die Tralokinumab-Gruppe bekam zu Beginn eine Loading-Dosis von 600 mg und dann alle zwei Wochen 300 mg verabreicht, während die Placebogruppe in entsprechenden Intervallen Placeboinjektionen erhielt. Der primäre Endpunkt war das Erreichen eines „Investigator Global Assessment”-(IGA-)Scores von 0 oder 1 sowie ein EASI-75 (mindestens 75%ige Verbesserung im „Eczema Area and Severity Index”) nach 16 Wochen. Nach dieser initialen Behandlung wurden die Patienten erneut in einem Verhältnis von 2 : 2 : 1 randomisiert. Durch diese zweite Randomisierung wird das Studiendesign recht komplex. Es resultierten vier verschiedene Patientensubgruppen: Einige erhielten weiterhin Tralokinumab, andere wechselten auf ein anderes Dosierungsschema, wiederum andere erhielten von hier an ein Placebo. Die Auswertung eines solchen Studiendesigns erfordert einen komplexeren statistischen Ansatz. Um aussagekräftige Vergleiche zwischen den Gruppen zu ermöglichen, sind zudem recht hohe Patientenzahlen notwendig. Bei der Beurteilung von Studien ist entscheidend, welche Patientengruppen untersucht werden – ob eher schwer oder leichter Betroffene eingeschlossen sind. Für valide indirekte Vergleiche ist zudem sicherzustellen, dass die Studienpopulationen weitgehend übereinstimmen und keine relevanten Unterschiede bestehen, da nur so belastbare Ergebnisse möglich sind. Die Baseline-Charakteristika zeigen, dass viele Patienten in den ECZTRA-1- und ECZTRA-2-Studien schwer betroffen waren, mit einem durchschnittlichen EASI-Score von über 32 und etwa 50 % als schwer gemäß IGA eingestuft. Zudem waren die Patienten subjektiv stark in ihrer Lebensqualität eingeschränkt, mit einem „Dermatology Life Quality Index” (DLQI) von 16 bis 17. Hinsichtlich der EASI-75-Response in Woche 16 zeigte sich ein signifikant besseres Ansprechen auf Tralokinumab im Vergleich zu Placebo, mit einer EASI-75-Ansprechrate von 25 % in der ECZTRA-1- und 33,2 % in der ECZTRA-2-Studie. In den ADvocate-1- und ADvocate-2-Studien, die Lebrikizumab untersuchten, wurde ein ähnliches Design verwendet. Hier wurden allerdings auch Patienten ab zwölf Jahren eingeschlossen, im Gegensatz zu den ECZTRA-Studien, in denen nur Erwachsene ab 18 Jahren teilnahmen. Die Patienten erhielten zwei Loading-Dosen von jeweils 250 mg Lebrikizumab zu Beginn und wechselten dann auf eine regelmäßige Dosis alle zwei Wochen. In Woche 16 wurden Patienten, die ein Therapieansprechen erreichten, erneut randomisiert (2 : 2 : 1), um entweder mit der bisherigen Dosis fortzufahren (zweiwöchig), um auf ein verlängertes Dosisintervall zu wechseln (vierwöchig) oder aber um fortan Placebo zu erhalten. Non-Responder konnten frei zwischen einem Wechsel in einen Escape-Arm nach einer Wash-out-Periode oder einem Studienabbruch wählen. In beiden Studienprojekten, der Tralokinumab- und der Lebrikizumab-Studie, erfolgte die zweite Randomisierung nur für die Responder auf die jeweilige Therapie. Es ist keineswegs garantiert, dass ein individueller Patient auf beide Biologika anspricht. Vielmehr ist wahrscheinlich, dass ein Teil der Patienten lediglich ein Ansprechen auf Tralokinumab, nicht aber auf Lebrikizumab, oder umgekehrt, aufweist. Daraus folgt, dass alle Ergebnisse ab der zweiten Randomisierung nicht mehr direkt zwischen den ECZTRA- und ADvocate-Studien vergleichbar sind. Bei näherer Betrachtung der Baseline-Charakteristika beider Studienprojekte fällt zudem auf, dass die Studien zu Lebrikizumab tendenziell weniger schwer betroffene Patienten einschlossen. Dies steht auch im Einklang mit dem beobachteten Trend, dass neuere Studien tendenziell weniger schwer betroffene Patienten einschließen, da die ADvocate-Studien später durchgeführt wurden. Während der mittlere EASI zu Beginn in den Interventionsgruppen in den ECZTRA-1- und ECZTRA-2-Studien bei 32,2 und 32,1 lag und der Anteil der Patienten mit einem IGA-Score von 4 (schwere Erkrankung) 50,6 % und 48,2 % entsprach, betrug der mittlere Baseline-EASI in den ADvocate-1- und ADvocate-2-Studien in den Verum-Armen 28,8 % und 29,7 %, bei einem Anteil an schwer betroffenen Patienten (IGA 4) von 39,9 % und 37,7 %. Die Ergebnisse der ADvocate-Studien zeigten, dass Patienten unter Lebrikizumab signifikant bessere EASI-75-Ansprechraten erreichten als unter Placebo, wobei in der 16. Woche 51 bis 59 % der Patienten unter Lebrikizumab ansprachen. Für die klinische Anwendung sind insbesondere die Langzeitergebnisse bis Woche 52 von Bedeutung. Hierbei muss man beachten, dass TCS in den ECZTRA- Studien in der Erhaltungsphase nicht zulässig waren. Hingegen kamen in den ADvocate-Studien intermittierend TCS in der Erhaltungsphase als Rescue-Therapie zum Einsatz. Die EASI-75-Ansprechrate lag in den ECZTRA-Studien bei den Patienten, die nach Therapieansprechen in Woche 16 mit zweiwöchigen Dosisintervallen fortfuhren, nach 52 Wochen bei 60 % und 56 %. Interessanterweise zeigten sich bei Patienten, die nach 16 Wochen auf ein Placebo randomisiert wurden, nach 52 Wochen weiterhin eine EASI-75-Ansprechrate von 33 % bzw. 21 %. Dies unterstreicht die nachhaltige Wirksamkeit von Tralokinumab. In den ADvocate-Studien wurden in den Wochen 16 bis 52 unter Lebrikizumab EASI-75-Ansprechraten von jeweils >75 % beobachtet. Hierbei erhielt jedoch ein Teil der Patienten intermittierend TCS, ohne dadurch als Non-Responder gewertet zu werden. Es ist wichtig zu beachten, dass die Ergebnisse nur für die Responder gelten, also für diejenigen Patienten, die nach 16 Wochen auf die Therapie angesprochen haben. Zudem ist es wichtig zu hinterfragen, wie viele der ursprünglich randomisierten Patienten beim Berichten der Langzeitergebnisse noch in der Studie vertreten sind, da länger dauernde klinische Studien oft hohe Drop-out-Raten aufweisen. In den ADvocate-Studien waren die Subgruppen nach erneuter Randomisierung in Woche 16 relativ klein. Von den anfänglich etwa 500 Patienten waren zu diesem Zeitpunkt nur noch ca. 150 übrig. Zusammenfassend lässt sich also festhalten, dass es im Design der Phase-III-Studien zu Tralokinumab und Lebrikizumab einige wichtige Unterschiede gibt:
- In den ADvocate-Studien waren die Patienten zu Studienbeginn im Schnitt weniger stark von der Erkrankung betroffen.
- Zudem wurden hier auch jugendliche Patienten (ca. 12 %) eingeschlossen.
- Die Probanden in den Lebrikizumab-Studien erhielten anfangs eine zweimalige Loading-Dosis, während das Loading in den Tralokinumab-Studien nur einmalig erfolgte.
- Auch hinsichtlich der Auswaschphase für die Vormedikation unterschieden sich die Studien: Während diese für die Lebrikizumab-Studien nur eine Woche betrug, dauerte die Auswaschphase in den ECZTRA-Studien zwei Wochen, was die Wahrscheinlichkeit für einen Einfluss der Vormedikation auf das Studienergebnis weiter reduziert.
- Ein kritischer Unterschied ist zudem, dass in den ADvocate-Studien die intermittierende Anwendung von TCS bei Patienten, die kein EASI-50-Ansprechen erreichten, zulässig war, während dies in den ECZTRA-Studien nicht vorgesehen war.
Neben diesen wichtigen Unterschieden im klinischen Design gab es jedoch auch einen bedeutenden Unterschied im statistischen Ansatz:
- In den Lebrikizumab-Studien wurde die Non-Responder-Imputation (NRI) nur bei systemischer Rescue-Therapie und bei Therapieabbruch aufgrund von Wirksamkeitsverlust angewandt.
- In den ECZTRA-Studien hingegen wurde die NRI sehr streng eingesetzt und kam bereits für Patienten zum Einsatz, die in der initialen Studienphase ausschieden (dies galt u. a. für Patienten, die TCS benötigten).
- Somit ist davon auszugehen, dass die Bewertung des Therapieansprechens in den ECZTRA-Studien konservativer ausfiel als in den ADvocate-Studien.
Um die Bedeutung der NRI und ihrer unterschiedlichen Handhabung besser zu verstehen, soll im folgenden Abschnitt näher auf Imputationsmethoden in der klinischen Forschung eingegangen werden.
Was sind Imputationsmethoden?
Bei der Imputation geht es um den Umgang mit fehlenden Werten, was in klinischen Studien ein häufiges Problem darstellt. Mit zunehmender Studiendauer steigt typischerweise die Anzahl fehlender Werte, was die Aussagekraft der Ergebnisse empfindlich reduzieren kann. Um Verzerrungen zu vermeiden, ist eine durchdachte Strategie für den Umgang mit fehlenden Werten unerlässlich. Kritisch ist, ob man die fehlenden Daten imputiert (ersetzt) oder nur die sogenannten „Completer” berücksichtigt, also die Patienten, die bis Studienende dabei geblieben sind. Die ausschließliche Berücksichtigung von „Completern” mag zwar die einfachste Methode sein und auf den ersten Blick plausibel erscheinen, birgt jedoch erhebliche Risiken für Verzerrungen. Dies liegt unter anderem daran, dass einerseits statistische Power verloren geht und andererseits fehlende Werte oft nicht zufällig auftreten. Häufig betreffen sie besonders vulnerable Patienten oder solche mit ungünstigem Therapieverlauf. Der Ausschluss dieser Patienten kann zu einer Fehlinterpretation der Studienergebnisse führen. Ein fairerer und ausgewogenerer Ansatz kann darin bestehen, fehlende Werte mithilfe etablierter mathematischer Verfahren zu vervollständigen – ein Prozess, der als Imputation bezeichnet wird. Hierfür steht heute eine Vielzahl von Methoden zur Verfügung. Die Wahl der Imputationsmethode – ob man etwa die letzte Beobachtung übernimmt oder eine Extrapolation im statistischen Modell vornimmt – kann einen erheblichen Einfluss auf die Ergebnisse haben. Daher ist es wichtig, bereits im Vorfeld zu klären, wie mit fehlenden Werten verfahren werden soll. Die Non-Responder-Imputation (NRI) ist eine gängige Methode, bei der sämtliche Drop-outs als Non-Responder gewertet werden. Ein zentraler Aspekt bei fehlenden Werten ist die Unterscheidung, ob diese zufällig oder in Abhängigkeit von einer relevanten Variable auftreten. In solchen Fällen gelten die fehlenden Werte als informativ. Dies kann die NRI problematisch machen, insbesondere, wenn Drop-outs vermehrt durch andere Gründe als durch mangelnde Wirksamkeit verursacht werden, z. B. „lost to follow-up” oder durch Nebenwirkungen. Ein ebenfalls häufig verwendetes Verfahren ist „Last Observation Carried Forward” (LOCF), bei dem der letzte erhobene Wert für alle nachfolgenden fehlenden Daten übernommen wird. Dieses Vorgehen birgt jedoch das Risiko von Verzerrungen, insbesondere bei Erkrankungen oder Therapien mit einer zeitlich dynamischen Entwicklung. Die „multiple Imputation” ist eine häufig bevorzugte Methode, bei der fehlende Werte nicht durch feste Werte ersetzt, sondern basierend auf Wahrscheinlichkeiten simuliert werden, die auf Basis von Patienten der gleichen Behandlungsgruppe mit vollständigen Daten abgeleitet sind. Für jeden fehlenden Wert werden mehrere plausible Werte generiert, um die Unsicherheit der Schätzung zu berücksichtigen. Diese Methode ermöglicht eine realistischere Einschätzung des Behandlungseffektes und wird daher oft in klinischen Studien eingesetzt. Eine gültige Anwendung setzt voraus, dass die fehlenden Daten entweder zufällig verteilt sind oder in beiden Vergleichsgruppen in ähnlichem Umfang auftreten.
Methoden für den indirekten Vergleich klinischer Studien
Bei der Bewertung klinischer Studien müssen zahlreiche Unterschiede berücksichtigt werden – doch wie kann ein sinnvoller Vergleich erfolgen, wenn keine direkten Head-to-Head-Studien vorliegen? Werden Studienmedikamente für dieselbe Erkrankung, etwa die AD, in separaten Studien untersucht, ohne dass ein direkter Vergleich vorliegt, muss eine indirekte Evidenz herangezogen werden. Eine Möglichkeit ist der indirekte Vergleich („indirect treatment comparison”, ITC) über einen gemeinsamen Brückenkomparator (X), der in beiden Studien verwendet wurde (z. B. Placebo). Wenn eine Studie A mit X und eine andere Studie B mit X verglichen werden, kann daraus eine indirekte Bewertung von A gegenüber B erfolgen. Eine weiterentwickelte Methode hierfür ist die Netzwerkmetaanalyse, die mehrere Behandlungen in einem Netzwerk miteinander vergleicht, einschließlich indirekter Vergleiche über gemeinsame Komparatoren. Diese Methode ermöglicht es, die sicherere oder effektivere Therapie zu identifizieren. Für einen validen Einsatz ist jedoch entscheidend, dass die Heterogenität zwischen den Studien gering bleibt. Diese wird hauptsächlich anhand von Faktoren wie Studiendesign und Patientencharakteristika beurteilt. Ein weiteres wichtiges Verfahren ist der adjustierte indirekte Vergleich nach Bucher und Kollegen („Bucher-Methode”), bei dem indirekte Vergleiche durch die Berechnung von Effektschätzern für A gegen X und B gegen X erfolgen. Der indirekte Vergleich von A gegen B ist jedoch ebenfalls nur dann valide, wenn die Studiendesigns ausreichend kompatibel sind. Die Limitation des Bucher-Ansatzes liegt darin, dass im Nachhinein keine Anpassung an Unterschieden in den Baseline-Charakteristika der Studien vorgenommen werden kann. Um dieses Problem zu umgehen, kann ein Verfahren namens „matching-adjusted indirect comparison” (MAIC) verwendet werden. Bei einer MAIC handelt es sich um eine statistische Methode, die in der vergleichenden Effektivitätsforschung, insbesondere in der Bewertung von Gesundheitstechnologien und klinischen Studien, zum Einsatz kommt. Ziel der MAIC ist es, Unterschiede in den Baseline-Charakteristika der Studienpopulationen anzugleichen. Die MAIC passt die individuellen Patientendaten (IPD) einer Studie an die aggregierten Ausgangsmerkmale einer anderen Studie an. Dies wird durch Gewichtung der IPD erreicht, sodass die angepasste Population der Vergleichsstudie entspricht. Diese Maßnahme kann das Risiko für Verzerrungen erheblich reduzieren. Vor Anwendung der MAIC ist eine ausführliche Literaturrecherche notwendig, um geeignete Studien und relevante Variablen zu identifizieren. Die Studien sollten dennoch hinreichend ähnliche Merkmale aufweisen, einschließlich des Studiendesigns, der Studienpopulation, der Endpunktdefinitionen und der Beobachtungsdauer. Ebenso müssen eventuelle Begleittherapien und die Kontrollintervention berücksichtigt werden. Zudem müssen Daten für alle relevanten Endpunktdimensionen wie Mortalität, Morbidität, Lebensqualität und Sicherheit vorliegen. Der MAIC-Prozess umfasst mehrere Schritte: Zunächst werden relevante Studien ausgewählt, bei denen für mindestens eine Behandlung individuelle Patientendaten vorliegen. Danach werden die Ausgangsmerkmale der Studie mit IPD an die aggregierten Merkmale der Vergleichsstudie angepasst. Anschließend werden Gewichte auf die Patientendaten angewendet, um eine synthetische Population zu erstellen, die der Vergleichsstudie entspricht. Schließlich werden die Behandlungsergebnisse mit den angepassten Daten statistisch verglichen. Eine Limitation der MAIC besteht darin, dass unbekannte oder unberücksichtigte Confounder die Ergebnisse verzerren können. Daher ist die sorgfältige Literaturrecherche vorab so wichtig. Eine weitere bedeutsame Methode für den indirekten Vergleich von Studieninterventionen ist das „Propensity Score Matching”. Hierbei werden individuelle Patientendaten beider Studiengruppen genutzt, um die Populationen anzugleichen. Der Vorteil dieser Methode ist, dass durch die Verwendung individueller Daten ein präziseres Matching ermöglicht wird. Wie bei der MAIC müssen auch hier Confounder hinreichend bekannt und so vollständig wie möglich berücksichtigt werden. Eine wesentliche Einschränkung in der Praxis besteht darin, dass vollständige individuelle Patientendaten aus allen relevanten Studien häufig nicht verfügbar sind. Die Netzwerkmetaanalyse basiert in der Regel auf aggregierten Ergebnissen aus klinischen Studien und erlaubt über den paarweisen Studienvergleich hinaus die Einbeziehung sämtlicher verfügbarer Evidenz. Netzwerkmetaanalysen machen Effektschätzungen für alle paarweisen Vergleiche innerhalb eines Netzwerkes möglich, hierbei werden sowohl direkte als auch indirekte Evidenz integriert. Die resultierenden Wahrscheinlichkeiten ermöglichen es, eine Rangfolge der Medikamente hinsichtlich ihrer Wirksamkeit aufzustellen. Netzwerkmetaanalysen können allerdings nur begrenzt für Confounder adjustieren. Daher ist die Präzision der Ergebnisse stark von der Homogenität der Studiendesigns und Studienpopulationen abhängig. Heterogenität schränkt die Aussagekraft erheblich ein. Es ist zu beachten, dass indirekte Vergleichsmethoden im Allgemeinen eine geringere Beweiskraft als direkte Vergleiche aufweisen. Die Ergebnisse sind daher stets mit Vorsicht zu deuten. Ergebnisse indirekter Vergleiche werden wesentlich von der Wahl der Brückenkomparatoren beeinflusst. Bei mehreren verfügbaren Optionen (z. B. Placebo oder ältere Standardtherapie) besteht die Gefahr, dass Ergebnisse durch die Untersucher gezielt beeinflusst werden. Eine transparente und gut begründete Auswahl der Brückenkomparatoren ist daher essenziell. Fehlende Kenntnis der zugrunde liegenden Originalstudien macht die Beurteilung ebenfalls sehr schwierig. Für eine vollständige Bewertung ist es wichtig, mit der Literatur vertraut zu sein. Die Literaturrecherche muss systematisch anhand vorab festgelegter Einschlusskriterien erfolgen, um eine selektive Studienauswahl und damit Verzerrungen zu vermeiden.
Exemplarische indirekte Vergleichsstudien zur AD
Eine Netzwerkmetaanalyse zur AD untersuchte mithilfe des Endpunktes EASI-75 verschiedene Therapieansätze, darunter Biologika und Januskinase-(JAK-)Inhibitoren wie Upadacitinib. Dabei zeigte sich, dass Biologika tendenziell mehr Zeit benötigten, um die angestrebten Ansprechraten zu erreichen. Nach 32 Wochen waren die Ergebnisse jedoch über die Therapien hinweg vergleichbar, mit Ansprechraten von >70 %. Eine systematische Übersichtsarbeit, die eine MAIC einsetzte, verglich die Wirksamkeit von Tralokinumab und Lebrikizumab nach 52 Wochen. Hierbei wurden Patienten, die nach initialem Ansprechen in Woche 16 weiterbehandelt wurden, unter Berücksichtigung ihrer Baseline-Charakteristika eingeschlossen. Der Vergleich zeigte keine statistisch signifikanten Unterschiede zwischen den beiden Biologikatherapien, es bestand allenfalls eine Tendenz zugunsten von Tralokinumab. Diese Untersuchungen zeigen, wie wichtig die Wahl geeigneter Zeiträume und Endpunkte für indirekte Vergleiche ist, da beispielsweise frühe Zeitpunkte die Wirksamkeit von Biologikatherapien bei der AD nicht adäquat widerspiegeln. Beim indirekten Vergleich muss die durch diese Methoden eingeführte Unsicherheit berücksichtigt werden, was sich in breiten Konfidenzintervallen niederschlägt. Breite Konfidenzintervalle erfordern größere Effekte, um statistische Signifikanz zu erreichen. Da die Originalstudien bereits abgeschlossen sind, lässt sich der Stichprobenumfang nicht mehr anpassen, weshalb der gewünschte Vergleich nur mit den vorhandenen Daten durchgeführt werden kann. Ein Head-to-Head-Vergleich wäre wünschenswert, ist aber aufgrund praktischer und ethischer Limitationen schwer umsetzbar. Die Anwendung eines MAIC-Ansatzes kann dennoch aufschlussreich sein. So zeigt sich, dass die isolierte Betrachtung publizierter Ansprechraten aus einzelnen Originalstudien ohne kontextuelle Einordnung und Adjustierung zu Fehlschlüssen führen kann. Zunächst scheint Lebrikizumab anhand der absoluten Zahlen gegenüber Tralokinumab leicht überlegen zu sein, doch ein qualifizierter indirekter Vergleich widerlegt diesen Eindruck. Die rasante Entwicklung moderner Biologikatherapien in der Dermatologie stellt einen bedeutenden Fortschritt dar, wirft jedoch zwangsläufig die Frage nach ihrer relativen Wirksamkeit auf. Angesichts der Vielzahl neuer Therapeutika und des weiterhin hohen Aufwandes klinischer Studien sind aussagekräftige direkte Head-to-Head-Vergleiche nach wie vor nur begrenzt verfügbar. Daher bleibt der Einsatz indirekter Vergleichsmethoden unumgänglich, was deren korrekte Durchführung umso wichtiger macht. Zukünftig wäre es wünschenswert, Studien noch stärker nach einheitlichen Standards zu gestalten, um verlässlichere und besser vergleichbare indirekte Analysen zu ermöglichen.
Fazit
- Klinische Studienergebnisse werden von zahlreichen Faktoren beeinflusst, die bei der Interpretation berücksichtigt werden müssen.
- Ein solides Verständnis der statistischen Methoden ist essenziell für die vergleichende Bewertung klinischer Studien.
- Indirekte Vergleiche wie „matching-adjusted indirect comparison” (MAIC) und Netzwerkmetaanalysen bieten wertvolle Einsichten, erfordern jedoch methodische Sorgfalt.
- Netzwerkmetaanalysen ermöglichen die Integration aller verfügbaren Evidenz und die Erstellung von Rangfolgen, sind jedoch anfällig für Verzerrungen.
- Bei der Interpretation indirekter Analysen ist Vorsicht geboten, da methodische Limitationen und unberücksichtigte Confounder die Aussagekraft reduzieren können.
- MAIC und Netzwerkmetaanalysen zeigen eine vergleichbar gute Wirksamkeit von Tralokinumab und Lebrikizumab im indirekten Vergleich.
Bildnachweis
Rani Mm – stock.adobe.com