Datenjournalismus mit R: Data is a Schleifer #3
Von Matthias Leitner
Modul drei des Coding-Bootcamps der Katholischen Journalistenschule ifp ist vorbei. Die Teilnehmerinnen und Teilnehmer sind dabei, sich zu erholen und zu üben. In der Zwischenzeit hat MedienNetzwerk-Stipendiat Matthias Leitner mit dem SZ-Datenjournalisten Benedict Witzenberger gesprochen, der das Bootcamp konzipiert hat.
Benedict, was war dein erstes datenjournalistisches Projekt und welchen Fehler, den du damals gemacht hast, wirst du nie mehr wiederholen?
Benedict Witzenberger: Eines meiner ersten Daten-Projekte befasste sich mit der Belegung der Münchner Bibliotheken. Die LMU hatte damals Daten darüber zugänglich gemacht, wie voll die einzelnen Bibliotheken zum jeweiligen Zeitpunkt waren. Die Datengrundlage war nicht wirklich seriös – die Bibliotheksmitarbeiter mussten die Werte über ein Onlineformular melden. Haben sie es nicht gemacht, standen die Daten falsch im Internet. Ich habe die Werte über längere Zeit automatisiert abgerufen und daraus Grafiken gebaut. Ziemlich hässliche, würde ich heute sagen. Und auf solch unsichere Datenquellen würde ich mich jetzt auch nicht mehr verlassen. Immerhin ein Pluspunkt: Das Projekt ist noch online und funktioniert. Das ist nicht selbstverständlich, so schnell wie sich Webtechnologien heute verändern.
Damals habe ich auch die Studentenwohnheime auf einer Karte visualisiert. Einfach so die Daten draufgeworfen, ohne viel zu zeigen. Heute finde ich, dass Karten und Grafiken eine starke These oder zumindest klare Aussagen haben sollten.
Welches Buch sollte jeder angehende Datenjournalist gelesen haben?
Witzenberger: Für den Einstieg bietet sich das Data Journalism Handbook an – das hier sogar kostenlos im Internet steht. Gerade ist die zweite Version im Entstehen. Es geht dabei vor allem um Rechercheansätze und ethische Gedanken zum Datenjournalismus. Je nachdem, welche Tools oder Programmiersprachen man nutzt, gibt es immer wieder eigene Fachliteratur. Ich nutze die Programmiersprache R – dafür gibt es unglaublich viele Tutorials und Bücher.
Welches Projekt sollte jeder einmal bis in die Tiefen seines Codes studiert haben?
Witzenberger: Viele Datenteams stellen ihre Projekte mit dem Code auf Github – aber leider nicht alle. Sehr vorbildlich sind da die Kolleginnen und Kollegen aus der Schweiz: SRF und NZZ. Ein sehr spannendes Projekt – mit Code auf Github – fand ich die Berechnungen vom Spiegel zum Zusammenhang zwischen Unfällen und Tempolimit auf Autobahnen.
Ohne diese Tools wäre dein DDJ (Data Driven Journalism)-Alltag undenkbar?
Witzenberger: Die Programmiersprachen R und Python sind die Basis für fast meine gesamte Arbeit. Damit kann ich Daten einlesen, automatisiert aus Webseiten laden, Analysen schreiben, Auswertungen für Kolleginnen und Kollegen und am Ende Grafiken oder Karten ausgeben. Viel mehr brauche ich nicht. Für interaktive Grafiken nutzen unsere Entwickler noch Javascript. Für Grafiken auf unserer Webseite nutzen wir Datawrapper.
Welcher Datenschatz muss dringend noch gehoben werden?
Witzenberger: Es gibt so viele Bereiche, in denen Daten vorliegen, die aber nicht zugänglich sind. Schade finde ich das vor allem bei öffentlichen Behörden und staatlichen Unternehmen. Die sperren sich manchmal sehr gegen die Veröffentlichung von Daten. Vielleicht oft aus der Angst heraus, wir würden daraus falsche Schlüsse ziehen. Manche Behörden sind aber auch sehr aufgeschlossen, zum Beispiel das statistische Bundesamt. Mehr Offenheit wünsche ich mir zum Beispiel von Verkehrsunternehmen wie der Bahn oder den Verkehrsanbietern in München. Dort liegen so viele Livedaten vor. Teilweise werden sie mit Google geteilt, aber für die Öffentlichkeit sind sie nicht zugänglich.
Benedict Witzenberger ist Datenjournalist bei der „Süddeutschen Zeitung”, Absolvent der katholischen Journalistenschule (Studienbegleitende Journalistenausbildung 2013 bis 2015) mit Stationen beim Münchner Merkur und BR Puls. Ist Journalist und kann trotzdem Programmieren. Die Ausbildung im Schreiben, Sprechen, Filmen kam vom ifp, die Kenntnisse in den Programmiersprachen R, Python und Javascript aus dem Internet (und ein bisschen aus dem Politikwissenschaftsstudium).