Tödlichkeitsanalyse 2016

Im Verlauf des Jahres 2016 wurde die Jahreszahl 2016 an sich zu einem Meme. Dieses Meme beschreibt den Umstand, dass subjektiv empfunden in diesem Jahr besoders viele berühmte Menschen verstorben sind. Meine Antwort auf dieses Meme war bisher, dass uns das nur so vorkommt: Meine internetaffine Generation hat ein Alter erreicht, in dem unsere Jugendhelden in einem hohen Alter sind und wir mehr der verstorbenen Berühmheiten überhaupt kennen. Davon ausgehend ist meine These: Das Gefühl, dass zunehmend mehr Prominente sterben, wird in den nächsten Jahren nicht abnehmen. Vor ein paar Tagen wurde ich auf den Blogeintrag von Jason Crease aufmerksam gemacht. In diesem Blogeintrag wurde nachgerechnet, ob 2016 wirklich besonders viele Berühmtheiten verstorben sind. Dazu wurde zunächst definiert, wer als berühmt zählt. Von dieser Definition ausgehend wurde betrachtet, ob tatsächlich besonders viele bekannte Leute gestorben sind. Im Artikel wurde zunächst auf eine Metrik von der BBC verwiesen. Nach dieser Metrik wurden Personen dann als berühmt eingestuft, wenn für sie bereits vorgefertigte Nachrufe in der Schublade lagen. Darauf wurde betrachtet, wie oft Leute mit diesen vorab gefertigten Nachrufen in den einzelnen Jahren gestorben sind. Zum Einen kann ich diese Daten nicht nachträglich gewinnen, da ich selbst kein großes Nachrichtenportal bin. Zum Anderen kann diese Information verzerrt sein, falls zu einem bestimmten Zeitpunkt besonders viele solcher Nachrufe entstanden sind. Daher sind die Ergebnisse dieses Analyseverfahren nicht schlüssig. Aus diesem Grund hat Jason Crease versucht, seine Definition mithilfe von Daten aus der Wikipedia zu erarbeiten. Seine Messwerte waren dafür sowohl die Länge eines Wikipediaartikels, als auch die Anzahl seiner Änderungen.

Aufgrund dieser Herangehensweise kam mir die Idee zu meinem Blogeintrag. Crease weist selbst explizit darauf hin, dass er die englische Wikipedia verwendet hat. Mein erster Gedanke war darauf, dass man dieses Aanlyseverfahren auch auf die deutsche Wikipedia anwenden könnte. Immerhin sind 2016 auch für die deutsche Popkultur bedeutende Personen wie Bud Spencer und Roger Cicero gestorben, die in der Analyse von Crease nicht berücksichtigt sind. Dazu zunächst eine Kritik an der verwendeten Metrik: Die Länge des Artikels und Anzahl an Änderungen in der Wikipedia wurden zur Auswertung verwendet. Diese Messdaten werden durch mehrere Faktoren verzerrt: Man kann erwarten, dass Berühmtheiten, die bereits bekannt waren als die Wikipedia entstand, automatisch früher einen Wikipediaeintrag hatten. Diese Artikel hatten demzufolge mehr Zeit, um Änderungsprozesse zu durchlaufen. Zusätzlich wird es bei einer Person, die noch aktiv und öffentlich präsent ist, zu mehr Änderungen und längeren Artikeln kommen, als bei inaktiven Prominenten. Somit muss es eine Verzerrung zu den Menschen hin geben, die später verstorben sind. Um diese Verzerrungen auszugleichen, muss gezeigt werden, dass der deutliche Anstieg 2016 nicht nur daher kommt, dass es in diesem Jahr mehr Änderungen der Wikipediaartikel bei frisch Verstorbenen gab. Dafür müssten die Daten von 2015 als Vergleich herangezogen werden. Es existiert eine Schnittstelle der Wikipedia, um an diese Daten zu kommen. Sie bietet allerdings keine Option, um direkt die Anzahl der Änderungen abzurufen. Stattdessen muss man alle Änderungen abrufen und diese dann selbst zählen.

Für meine Auswertung habe ich eine andere Kenngröße gewählt, um zu definieren, wer als Berühmtheit zählt: Wie häufig wurde der entsprechende Wikipediaartikel aufgerufen? Auch diese Angabe ist natürlich verzerrt. Jemand, der frisch verstorben ist, wird an den ersten Tagen der öffentlichen Trauer besonders häufig in der Wikipedia nachgeschlagen. Zum Beispiel wurde David Bowie am Tag nach seinem Tod 942892 mal aufgerufen, im Jahresdurchschnitt aber nur 6000 mal. Leider gibt es solche Zugriffszahlen erst seit Juli 2015. Diese Menge reicht aber um 2015 und 2016 miteinander zu vergleichen. Da die Zugriffszahlen durch solche Peaks der überdurchschnittlichen Aufmerksamkeit verzerrt sind, verwende ich statt des Mittelwertes den Median. Der Median ist weniger anfällig gegen zeitweise Ausreißer nach oben. Dann nehme ich von allen Personen, die zwischen 2005 und 2016 verstorben sind, die Top 100 - die Menschen mit den höchsten Zugriffszahlen. Für diese bestimme ich dann ebenfalls den Median und kann mir anschauen, wie sich dieser über die Jahre entwickelt. Wie oben bereits erwähnt erwarte ich, dass sich die Aufmerksamkeit aus der heutigen Perspektive mehr auf die vor kurzer Zeit gestorbenen richtet. Ein Anstieg über die letzten Jahre ist also zu erwarten.

Die Daten aus dem Jahr 2016 vermitteln den Eindruck, als gäbe es tatsächlich einen Anstieg für 2016. Da ich den Median der Zugriffszahlen betrachte, messe ich Aufmerksamkeit im Jahr 2016. Diese ist erwartungsgemäß am größten für die im Jahr 2016 verstorbenen Personen. Zum Vergleich lassen sich die Daten der zweiten Hälfte von 2015 betrachten:

Hier ist deutlich zu sehen, dass die 2016 gestorbenen Personen im Jahr 2015 nicht deutlich mehr Aufmerksamkeit bekamen, als jene, die schon länger tot waren. Da Lebende durch neue Werke/Veröffentlichung mehr Aufmerksamkeit generieren als Tote, ist anzunehmen, dass ihr Wert für 2016 höher ist, als der jener Personen, die schon vor 2015 gestorben sind. Der Abstand zur Regressionskurve ist größer als für die meisten Werte. Folglich starben im Jahr 2016 überdurchschnittlich viele berühmte Menschen, so wie nach der Kurve 2012 besonders wenige starben. So groß wie Jason Crease den Effekt angibt, ist er allerdings nicht. Ich hatte bereits erwähnt, dass im Jahr 2016 der Wert für 2016 besonders groß ist, weil den Toten hier besonders viel Aufmerksamkeit zuteil wurde. 2015 hingegen ist der Wert für 2015 nicht annähernd so deutlich über dem Wert der anderen Jahre. Zum Einen liegt das daran, dass für 2015 nur die Werte der zweiten Jahreshälfte vorliegen. Somit gehen alle, die in der ersten Jahreshälfte ums Leben kamen, nicht mit der vollen Aufmerksamkeit ein, die ihnen zuteil wurde. Zum Anderen zeigen diese Werte, dass den gestorbenen 2016 deutlich mehr Aufmerksamkeit zuteil wurde, als 2015.

Nachdem sich im Jahr 2016 das Meme 2016 herausgebildet hatte, verschob sich die Aufmerksamkeit deutlich zu den Verstorbenen hin. Diese erhöhte Aufmerksamkeit führt wahrscheinlich auch zu mehr Änderungen an den Wikipediaartikeln, diese wiederum zu längeren Artikeln und das wiederum zu einer Verzerrung der Berühmtheitsmetrik von Jason Crease. Die These, dass seine Metrik verzerrt ist, ließe sich anhand der Daten für Ende 2015 testen. Diesen Test führe ich nicht an dieser Stelle durch. Eine Vorhersage ist ehrlicher, wenn man das Ergebnis nicht vorher schon kennt.

Man könnte jetzt einwenden, dass “Berühmtheit” natürlich nach oben hin verzerrt ist und der Median zuviele von den sehr berühmten herausfiltert. Daher nochmal der Vergleich: Der Durchschnitt der Top 100 pro Jahr, statt des Medians:


Dabei ist zu erkennen, dass auch in den Daten von 2015 die Toten aus dem Jahr 2016 beim Mittelwert nicht besonders hoch liegen. Wenn 2016 auch überdurchschnittlich viele berühmte Menschen starben, so ist es doch in erster Linie eine Frage der Aufmerksamkeit. Und die war 2016 in der Tat bedeutend höher.

Anhang:

R Code um die Zugriffe einer Seite in der Wikipedia abzurufen:

fromJSON(URLencode(paste("https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/de.wikipedia/all-access/all-agents/","David Bowie","/daily/20150101/20151231",sep="")))