Das Aufkommen sogenannter Big-Data-Explorationswerkzeuge gibt Grund zur Beunruhigung. Dabei geht es weniger um die zugrundeliegende Technologie an sich, an der mit ihren eleganten Visualisierungen, starker Leistung und der Möglichkeit Data Science zu betreiben, nichts auszusetzen ist. Vielmehr geht es darum, dass der Ansatz oftmals leider falsch ist. Eine Betrachtung von Wael Elrifai (Pentaho) auf IT-Finanzmagazin.de.

Die Herausforderung von visuellen Daten-Explorationswerkzeugen ist folgende: Menschen sind großartig, wenn es um die Fähigkeit geht, Muster zu erkennen. Wir erkennen Freunde an ihren Hinterköpfen, aber eben genauso sehen wir schwebende Löffel auf dem Mars oder verwandeln Kleiderhaken in berauschte, angriffslustige Kraken. Anders ausgedrückt, wir Menschen sehen manchmal Dinge, die nicht wirklich existieren.

 

Unsere wundersame Fähigkeit, Muster zu erkennen

Hinzu kommt, dass komplexe und multi-dimensionale numerische Muster hinter unserer visuellen Auffassungsgabe zurückbleiben. Es ist schwer, mehr als vier Dimensionen oder Variablen visuell in einem Datenmodell (X, Y, Z Koordinaten + Farbabstufung) abzubilden. Menschen sind auch eingeschränkt in ihrer Fähigkeit, viele Datenpunkte gleichzeitig akkurat zu verarbeiten – man denke nur an die Kontroversen um Abseitsentscheidungen im Fußball

Um diese Einschränkungen zu überwinden, hat die Menschheit robuste mathematische Werkzeuge entwickelt, die ihnen mit deterministischen und probabilistischen Methoden helfen sollen, Muster korrekt zu erkennen. Allerdings sind diese nicht perfekt.

 

Deterministische und probabilistische Werkzeuge

Deterministische Werkzeuge, die voraussetzen, dass alle Informationen bekannt sind, versagen oft bei komplexen Phänomenen. Probabilistische Werkzeuge setzen zwar unbekannte Größen voraus und besetzen sie mit Wahrscheinlichkeiten, dennoch ist die Nutzung solcher Modelle und die richtige Interpretation der Ergebnisse schwierig.

Die Programmierer und Wirtschaftsanalytiker, die sich aufmachen, die Data Science-Welt zu erobern, sollten aufpassen – sie haben genug Kompetenz, um gefährlich zu werden. Ein Datenintegrationsspezialist ist kein Data Scientist und viele der selbsternannten Data Scientisten sind oftmals keine qualifizierten Statistiker.

 

Vorsicht vor Big-Data-Fallstricken!

Viele gängige Datenexplorationswerkzeuge übernehmen diese Hauptarbeit, ohne dass der Anwender weiß, was er da eigentlich gerade macht und sich vermutlich schneller als ihm lieb ist in den Data-Science-Fallstricken verfängt.

Um dies zu umgehen, sollten Datenintegrationsexperten, Statistiker, Branchenkenner und Mitarbeiter des Finanzdienstleisters früh ins Big-Data-Projekt mit eingebunden werden. Statistik-Weiterbildungskurse sind sicherlich eine gute Investition, die sich in der Zukunft durch den Erfolg von Big-Data-Projekten auszahlen.