Big Data-Experte ortet enormes Potenzial in der Auswertung der Panama Papers.
Foto: um
Christian Nietner, Data Scientist bei *um: „Die Vorgehensweise mit herkömmlichen Datentools ist nicht schnell und letztlich nicht wirksam genug“
Die „Panama Papers“ sind das größte Datenleak der Mediengeschichte. Ihre Veröffentlichung bringt eine unglaubliche Zahl von Korruptions-, Steuer- und anderen Delikten bis zum Bruch von UN-Sanktionen zutage. Die Arbeit des Recherchenetzwerks wird deshalb zu Recht als Glanzleistung des Enthüllungsjournalismus gefeiert. Doch wurden möglicherweise noch nicht alle Möglichkeiten genutzt, um in kurzer Zeit noch mehr verborgene Zusammenhänge zu finden. „Die Sternstunde von Datenjournalismus und Data Science steht noch aus“, meint Christian Nietner vom Big-Data-Spezialisten
The unbelievable Machine Company (*um). Er erläutert, wie effektiver recherchiert und analysiert werden könnte, um neue Erkenntnisse aus den Daten zu gewinnen.
Optimierungspotential.
Bei den Panama Papers hat die Süddeutsche Zeitung gemeinsam mit einem Netzwerk von 400 Journalisten aus über 100 Medienorganisationen und 80 verschiedenen Nationen mehr als ein Jahr recherchiert sowie die Daten analysiert und ausgewertet – teils mit technischer Unterstützung, aber auch manuell. Aus Data-Science-Sicht besteht hier ein hohes Optimierungspotenzial bei der Automatisierung und Qualität der Auswertung. „Die Vorgehensweise mit herkömmlichen Datentools ist nicht schnell und letztlich nicht wirksam genug. Sie verschenkt viele Möglichkeiten“, so Nietner. „Die Aufdeckung der Panama Papers ist beispiellos und könnte ein exzellentes Beispiel für wirksam angewandte Data Science sein, die auch die Zusammenführung und Verarbeitung unstrukturierter Daten, wie Emails, PDFs und Grafiken ermöglicht und damit zu wesentlich besseren Endergebnisse führen könnte“.
Beschleunigte Recherche.
Der Big-Data-Spezialist hat die Berichterstattung zu den Panama Papers aus Data-Science-Perspektive betrachtet und sich selbst die Frage gestellt, was mithilfe der aktuell verfügbaren Datentechnologien bei der Analyse und Auswertung dieser riesigen Datenmenge schneller und effektiver gemacht werden könnte. Anstatt jeden Ordner einzeln zu durchsuchen, empfiehlt sich beispielsweise der Einsatz einer hochgradig skalierbaren und konfigurierbaren Volltextsuchmaschine, die sowohl strukturierte als auch unstrukturierte Textdaten in einem gemeinsamen Datenpool konsolidieren kann. „Die automatisierte Auswertung von Bilddaten kann mittels tiefer neuronaler Netze erfolgen, wahlweise in Kombination mit Machine-Learning-Algorithmen für die Verarbeitung natürlicher Sprache. Die so gewonnenen Daten können anschließend dem Datenpool hinzugefügt werden. Statt vieler einzelner Dokumente, die über hunderte Ordner verteilt sind, erhält man auf diese Weise einen einzigen, effizient durchsuchbaren Datenpool aller Dokumente“, erklärt Nietner.
Zusammenhänge und Muster erkennen.
Ein wesentlicher Teil der Auswertung besteht nicht alleine in der Konsolidierung der Daten, sondern im Aufdecken und Validieren von unbekannten und nicht offensichtlichen Mustern und Zusammenhängen in den Informationen. Gerade hier leistet die Data Science einen enormen Mehrwert. „Ganz konkret könnten etwa Algorithmen zur Named Entity Recognition (NER) verwendet werden, die drauf trainiert sind, einen Fließtext automatisiert auf Eigennamen von Personen, Orten, Organisationen oder auch Zeitangaben zu durchsuchen“, so Nietner.