Blogeinträge
share

Aus wenig mach viel: Die Bedeutung von Small Data

Liebe Besucher des ProgBlogs,

jeder macht was mit “Big Data”. Irgendwie kommen Sie gar nicht mehr drum herum, sich auch auf die Fahne zu schreiben, dass Sie etwas mit Big Data machen. Andererseits geht Ihnen das Gerede um Big Data allmählich auf die Nerven. Haben all die Unternehmen, die behaupten, Big Data zu können, wirklich Big Data? Sie haben jetzt nämlich ein Weilchen in Ihren Datenbanken gesucht und einige gut strukturierte Daten gefunden, die für Sie auf den ersten Blick aus gutem Grund da sind wo sie sind. Aber als “Big” würden Sie diese nicht unbedingt bezeichnen. Kann man mit Ihren Daten denn trotzdem was anfangen? Haben Sie vielleicht nur nicht lange genug nach “echtem Big Data” gesucht?

Um es kurz zu halten: Unsere Erfahrung ist, wirklich “Big Data” machen nur wenige. Der Begriff umfasst die immer schneller wachsenden strukturierten und unstrukturierten Datenmassen im Unternehmensumfeld und Internet sowie deren Verarbeitung mithilfe moderner IT-Lösungen. Damit beschäftigen sich Google oder Amazon beispielsweise. Aber der Rest…?

Sagen wir, Sie, mittelständisches Unternehmen mit Tradition, haben seit Mitte der 90er ein ERP-System, welches Sie sorgfältig in Einkauf, Produktion, Vertrieb und Controlling einsetzen. Hier spielt die Analyse der Daten und die Planung eine wichtige Rolle. Sie brauchen sich nichts vorzumachen. Nicht immer wird alles richtig eingegeben. Fehler sind menschlich. Doch im Großen und Ganzen haben Sie im Laufe der Zeit doch einige brauchbare Daten gesammelt. Sie produzieren und verkaufen an die 2.000 Produkte, teils alte Kassenschlager, teils Neueinführungen. Für diese Produkte haben Sie an die 25 Jahre historische Daten zur Verfügung. Wenn man daraus Zeitreihen auf Monatsbasis kreiert, kommt man auf etwa 600.000 Datenpunkte - nicht mehr als 300 pro Zeitreihe. Big Data? Definitionssache. Letztendlich analysiert man doch meist auf der Ebene einer einzelnen Zeitreihe. In Ihrem ERP-System sind viele Daten, aber im Grunde genommen wird das Problem leicht auf eine deutlich kleinere Anzahl heruntergebrochen. Der korrekte Begriff für das, was Sie machen, wäre dann wahrscheinlich besser als “Smart Data” bezeichnet, oder eben einfach als “Advanced Analytics”. Und wenn Sie speziell Prognosen machen möchten, dann sagen Sie vielleicht “Predictive Analytics”.

Eine gewisse Anzahl an Datenpunkten zu haben, ist natürlich notwendig. Aus nichts kann ein Algorithmus nicht viel machen. Und wenn Sie Monatsprognosen machen möchten, dann wären einige Monate Datenhistorie schon gut. Besser wären sogar einige Jahre, sagen wir vier oder fünf, um eine in vielen Anwendungen häufig vorhandene Jahressaisonalität abbilden und nutzen zu können. Also 12 (für 12 Monate pro Jahr) mal 4 Jahre gleich 48 Datenpunkte. Big Data? Wohl kaum. Prognosen, die Trend und Saison berücksichtigen können? Absolut.

Natürlich wird die Auswahl an Prognosemethoden mit wenigen Daten dünner. Vermutlich müssen viele Machine-Learning-Verfahren aufgrund zu weniger Trainingsdaten dran glauben. Einige wenige bleiben, wie zum Beispiel Classification and Regression Trees, die gemeinhin zu den Machine-Learning-Verfahren gezählt werden. Immer noch zur Verfügung stehen viele statistische Prognoseverfahren. Diese haben den großen Vorteil, dass sie eine vorhandene Datenhistorie häufig deutlich effizienter nutzen können als Neuronale Netze und Co. und demnach oft mit weniger Daten auskommen, ohne viel an Prognosequalität einzubüßen. Noch dazu liefern sie in der Regel modellbasierte Informationen mit, die höchst sinnvoll eingesetzt werden können. Hierzu gehören die modellbasierte Varianz, aus der man Prognoseintervalle bauen kann, oder Informationskriterien, die zur Quantifizierung der Prognosegüte herangezogen werden können.

Eine gewisse Struktur wird sicher hier und dort vorausgesetzt. Dass die Zeitreihe aus einer Kombination von Trend, Niveau, eventuell Saison und einem zufälligen Fehler besteht, ist, etwa wie im Falle der exponentiellen Glättung, gegeben. Aber oftmals sind diese Voraussetzungen dem Anwendungsfall entsprechend. Und wenn wir ehrlich sind: Sie wissen ja in etwa, was Sie mit den Daten machen möchten - so gut kennen Sie diese dann doch.

Also denken Sie in Zukunft daran, wenn mal wieder von den großen Daten die Rede ist: Big Data ist oft Small Data auf den zweiten Blick und die richtige Herangehensweise weit wichtiger als der Umfang an Daten.

Haben Sie Fragen oder Anregungen zum heutigen Blogbeitrag? Dann hinterlassen Sie uns einfach einen Kommentar auf Twitter, LinkedIn oder Xing oder schreiben Sie uns eine E-Mail an business.development@prognostica.de.

Infobox:

Classification and Regression Trees (CART): Vom amerikanischen Statistiker Leo Breiman geprägter Begriff für Entscheidungsbaum-Algorithmen, bei welchen über Binärbäume die Klasse, zu der Daten gehören, oder ein Wert bestimmt werden. Im Fall der Zeitreihenvorhersagen folgt aus dieser Klasse oder dem Wert die Prognose. Diese Verfahren werden auch häufig im Machine-Learning-Bereich eingesetzt und dienen als Grundlage für Random Forests.


Vorheriger Eintrag: Prognosehorizont, Granularität & Co.: Fachausdrücke einfach erklärt
Nächster Eintrag: Daten unter Strom

Um über weitere Beiträge, bevorstehende Events und neue Produkte der prognostica informiert zu bleiben, melden Sie sich für unseren Newsletter an:

Jetzt für den Newsletter anmelden

Kontakt

prognostica GmbH
Berliner Platz 6
D-97080 Würzburg
P: +49 931 497 386 0

Ihr Partner für Predictive Analytics und Data Science.

Weitere Angaben, u. a. zum Datenschutz, finden Sie in unserem Impressum und unserer Datenschutzerklärung.

Folgen Sie uns!

© 2019 prognostica GmbH