Eine Veröffentlichung von Falldaten würde eine diverse Forschungsarbeiten mit unterschiedlichen statistischen Verfahren ermöglichen. Ich selbst forschte und lehrte an der Universität auch im Bereich kausaler Inferenzstatistik. Ich bin überzeugt, dass diese und ähnliche Methoden in der heutigen Situation helfen können, entscheidende, aber noch immer offene Fragen für die Allgemeinheit, Politiker und Wissenschaftler zu klären. Im folgenden versuche ich, aus der theoretischen Perspektive (Mayer u. a., 2014) vereinfachte Möglichkeiten zur Analyse und den Bedarf an Daten allgemeinverständlich darzustellen. Ich teile hier frei meine eigenen Überlegungen zum Verstehen und Mitdenken und als Vorschlag für eine Analysestrategie. Ich bitte interessierte Wissenschaftler um kritischen Review.

Schätzung der Übersterblichkeit aus beobachteten Erkrankungsdaten

Die Beschreibung der Datenerhebung als Zufallsexperiment ohne Berücksichtigung der Zeitpunkte oder des Krankheitsverlaufs:

  • Eine Person aus der Population gibt Daten ein (nicht repräsentativ, nicht randomisiert).
  • Das Testergebnis der Person wird erhoben, .
  • Kovariaten werden erhoben (Alter, Geschlecht und Vorerkrankungen etc..)
  • Ist die Person verstorben () oder ist sie genesen ()?

Diese Zufallsvariablen des Zufallsexperiments

ermöglichen wahrscheinlichkeitstheoretische Überlegungen.

Teststichprobe und Population

Die Stichprobe ermöglicht keine Schätzung, wieviele Personen in der Bevölkerung wirklich infiziert sind. Dazu müssten im obigen Zufallsexperiment die Verteilung der Probanden durch eine randomisierte/repräsentative Auswahl ersetzt werden (also zufällig = randomisiert; annäherungsweise wird in der Praxis zuweilen aus test-ökonomischen Gründen eine geschichtete Zufallsstichprobe (Wikipedia) erhoben).

Infektion und Test

Die Infektion mit SARS-Cov2 ist eine nicht direkt beobachtbare Zufallsvariable, , und kann nur indirekt durch Tests erhoben werden. Tests sind niemals absolut zuverlässig sondern durch Sensititivtät und Spezifizität (Wikipedia) gekennzeichnet, in bedingten Wahrscheinlichkeiten ausgedrückt:

  • Sensitivität bezeichnet die Wahrscheinlichkeit, dass eine infizierte Person auch positiv getestet wird,
  • Spezifizität bezeichnet die Wahrscheinlichkeit, dass eine nicht infizierte Person auch negativ getestet wird, Eine Liste mit diesen Kennwerten für Sars-Cov2 Tests finden Sie auf Serology-based tests for COVID-19.

Was ist die Übersterblichkeit durch Corona?

Die Anteile (Wahrscheinlichkeiten) der versterbenden Personen in der erhobenen Stichprobe sind

  • wenn test-negativ: ,
  • wenn test-positiv: .

Die durch Covid-19 bedingte Übersterblichkeit innerhalb der Stichprobe entspricht der Differenz dieser Wahrscheinlichkeiten , also dem Mehr-Anteil der versterbenden Personen, die Covid-19-positiv getestet wurden, über die zu erwartende Sterblichkeitsrate von Covid-19-negativ getesteten Personen hinaus. Diese theoretische Definition der Übersterblichkeit entspricht dem durchschnittlichen kausalen Effekt einer Covid-19-Erkrankung auf die Sterblichkeit (Mayer u. a., 2014).

Hier stellen sich grundsätzliche Probleme:

  • Die Stichprobe ist nicht repräsentativ für die Gesamtbevölkerung.
  • Es ist anhand der erfassten Testdaten nicht mögich, die Wahrscheinlichkeit zu schätzen, dass eine Person mit negativem Test verstirbt. Diese Wahrscheinlichkeit könnte jedoch auf Basis veröffentlichter Sterberaten der Vorjahre abgeschätzt werden.

Für Personen, die durch Geschlecht, Alter und Vorerkrankungen charakterisiert sind, und

  • positiv auf Covid19 getestet wurden, ist das bedingte Sterberisiko ,
  • negativ auf Covid19 getestet wurden, ist das bedingte Sterberisiko ,

Entsprechend kann die Frage nach der bedingten Übersterblichkeit gestellt werden, spezifisch für Personen, die durch Kovariaten (Alter, Vorerkrankungen, etc.) charakterisiert sind. Dies entspricht dem -bedingten kausalen Effekt von Covid19 auf die Sterberate:

Verallgemeinerung auf die Bevölkerung

Durchschnittliche kausale Effekte

Es ist möglich, die durchschnittliche Übersterblichkeit (den durchschnittlichen kausalen Effekte) in der Gesamtbevölkerung zu berechnen, wenn die -bedingte kausale Regression kausal erwartungstreu und die Verteilung der Kovariaten in der Gesamtbevölkerung, , bekannt ist ( kann von der Verteilung in der getesteten Stichprobe abweichen! Dies ist insbesondere der Fall, wenn nur symptomatische Patienten getestet werden. Beispielsweise ist war das Durchschnittsalter getesteter Personen in Deutschland am 30. April 2020 ca 50 Jahre, in der Gesamtbevölkerung ca 45 Jahre.).

Die zu erwartende durchschnittliche Mortalitätsrate von Covid-19 in der Gesamtbevölkerung entspricht dann dem durchschnittlichen kausalen Effekt .

Es ist mathematisch beweisbar, dass Marginalisierung über eine erwartungstreue Schätzung des durchschnittlichen kausalen Effekts ergibt, wenn die Bedingung erfüllt ist, dass kausal erwartungstreu ist für alle .

Statistische Modellierung

Kausale Inferenzstatistik selbst ist kein statistisches Modell. Vielmehr formuliert kausale Inferenzstatistik die abstrakte wahrscheinlichkeitstheoretische Frage, wie kausale Effekte allgemein definiert sind, auch für nicht-randomisierte kontrollierte Studien. Statistische Modelle werden in einem zweiten Schritt verwendet, um die Wahrscheinlichkeiten an Covid-19 zu versterben, bedingt auf Kovariaten und Teststatus in Regressionen zu schätzen. In diesem zweiten Schritt haben Forscher statistische Modelle zu testen und kritisch auszuwählen, um zu erwartungstreuen Vorhersagen und Abschätzungen ihrer Zuverlässigkeit zu gelangen.

Logistische Regressionen

  1. Modelle logit für alle Kovariaten .

    Diese einfachen Modelle erlauben die Übersterblichkeiten spezifisch für einzelne Kovariaten zu bestimmen. kann mit publizierter Mortalitäten der Kovariate (Vorerkrankungen oder Alters) in der Population pro Jahr, abgeschätzt werden, logit .

  2. Haupteffekte und Interaktionseffekte mit :

    logit .

  3. Komplexere Modelle zur Abschätzung sind denkbar und wünschenswert. Wenn Erkrankungsdaten anonymisiert öffentlich gemacht werden, ermöglicht dies einen freien Wettbewerb für die Vorhersage der Mortalität aus den Kovariaten.
  4. Bei den voraussichtlich großen Fallzahlen ist ggf. eine nonparametrische und modellfreie Vorhersage möglich.

Fehlende Daten

Voraussichtlich sind einige Daten die zu einer Schätzung nötig sind, nicht verfügbar. In diesem Fall kann mit geeigneten Verteilungsannahmen die Datenlücke ausgeglichen werden:

  • es scheint eine eine akzeptable Annahme, dass die Vorerkrankungen der negativ getesteten ebenso verteilt sind wie in der Gesamtpopulation, bedingt auf das Alter.
  • Die Sterberate Test-negativer Personen, , könnte anhand publizierter Mortalitäten der Vorerkrankungen und des Alters pro Jahr abgeschätzt werden, .

    Da publizierte Sterberaten vorliegen für einzelne Vorerkrankungen, aber nicht alle möglichen Kombinationen der Kovariaten, könnte die Verteilung angenähert werden durch die Annahme, dass Personen stochastisch unabhängig an irgendeiner ihrer Vorerkrankungen versterben, . (Das müsste noch korrigiert werden, da hier ohne Vorerkrankung zu sterben sooft als Möglichkeit berücksichtigt wird, wie es Vorerkrankungen gibt. Ideen?)

    Anmerkungen zur Erweiterung des Zufallsexperiments:

  • : Berücksichtigung verschiedener Tests
  • Berücksichtigungen der Zeitpunkte von Testungen, ggf. des Krankheitsverlaufs.
  • : Vielleicht mit Zeitintervall der Genesung 2 Wochen, vielleicht mehrwertig: genesen, hospitalisiert, verstorben.

Wann hilft und wann schadet Intubation als medizinische Maßnahme?

Diese Frage beginnt erneut mit der formalen Begriffsklärung durch das Zufallsexperiment.

  • Zur Testung wird eine SARS-CoV2 positive Person in Intensivpflege ausgewählt
  • Die Sauerstoffsättigung im Blut wird erhoben, .
  • Kovariaten werden erhoben (Alter, Geschlecht und Vorerkrankungen etc..).
  • Wird die Person intubiert () oder wird sie nicht intubiert ()
  • Ist die Person verstorben () oder ist sie genesen ()?

Der bedingte kausale Effekt der Intubation auf die Genesungswahrscheinlichkeit für Patienten mit ist .

Kausale Erwartungstreue

Definitionen

  1. Der () -bedingte kausal erwartungstreue Erwartungswert von gegeben ist definiert als

    .

  2. Die -bedingte kausale Regression ist kausal erwartungstreu, wenn für alle

    .

Es ist beweisbar, dass kausal erwartungstreu ist, wenn mindestens eine der folgenden Bedingungen erfüllt ist:

  1. Die Überlebenswahrscheinlichkeit , bedingt auf Person mit Testung und Kovariaten , ist fast sicher (d.h. für alle Kovariaten mit ) gleich der Überlebenswahrscheinlichkeit , bedingt auf Testung und Kovariaten .

    Dies ist erfüllt, wenn all jene Kovariaten umfasst, welche Genesungs-/Sterbewahrscheinlichkeit einer Person beeinflussen.

    Daher ist eine umfangreiche Erfassung und Veröffentlichung aller Risiko- und Protektivfaktoren der Erkrankten notwendig.

  2. Positive Testung und Auswahlwahrscheinlichkeit sind stochastisch unabhängig gegeben .

    Das Ziel der selektiven Testung durch Kontaktnachverfolgung ist, die Infizierten mit größerer wahrscheinlicher zu testen als die wahrscheinlich nicht Infizierten. Wenn dieses Ziel erreicht wird, ist diese Bedingung nicht erfüllt.

  3. Personen-Infektions-Homogenität = E(Y \vert X) ist gegeben.

    Dies ist nicht erfüllt, da offenbar nicht alle test-positiven Personen die gleichen Wahrscheinlichkeiten zu genesen und zu versterben haben.

Auf Basis einer repräsentativen Erhebung von Antikörpern scheint Bedingung 2. erfüllt, und eine Einschränkung der Personendaten auf bestimmte Fragestellungen wie Alter, Geschlecht, bestimmte Vorerkrankungen ist hinreichend. Jedoch selbst in diesem Fall ist es vorteilhaft, möglichst umfangreiche Patientendaten zu veröffentlichen, um Kovariaten zu identifizieren, die einen Einfluss auf den Verlauf der Erkrankung haben, obwohl dies a-priori nicht vorhergesehen wurde. Nur die erste dieser Bedingungen ist erfüllbar, wenn aufgrund der Testkapazitäten nicht randomisiert getestet wird (2.). Daher ist es nötig, umfangreiche Patientendaten zur Verfügung zu stellen.