Ist es im morgendlichen oder im abendlichen Berufsverkehr lauter in der Stadt? Wann ist die Temperatur am höchsten? Individuelle Antworten nach dem Bauchgefühl hat vermutlich jeder auf diese Fragen. Das Projekt Smart Citizen bietet mehr als Intuition: wir haben in dessen Rahmen Sensordaten für Würzburg ausgewertet.
Liebe Besucher des prognostiCASTs,
Smart Citizen: ein Kickstarter-Projekt aus Barcelona möchte es ermöglichen, für verschiedene Städte auf der ganzen Welt Umgebungsdaten zugänglich zu machen. Das Gemeinschaftsprojekt aus Wissenschaft, Forschung und Politik widmet sich Umweltproblemen in Städten, dazu gehören beispielsweise die Luft- und Lichtverschmutzung. Dabei muss einerseits an dem interessierenden Standort ein sogenannter Smart Citizen Kit aufgebaut sein, und andererseits eine Verbindung zur Smart-Citizen-Plattform gewährleistet sein. Und dann kann es mit der Analyse auch schon losgehen.
Für die Würzburger Sanderau zeigen die Daten aus der Mitte des letzten Jahres, dass es insbesondere an Vormittagen lauter zu sein scheint als an Nachmittagen. Hier muss die Umgebung mit beachtet werden: In der Nähe des Sensorstandorts liegt eine Schule, sodass der höhere Geräuschpegel nicht nur auf Hauptverkehrszeiten, sondern auch darauf zurückgeführt werden kann. Nach den Sommerferien scheint es zudem lauter zu sein als vor den Sommerferien, was an einer potenziellen “Corona-Stille” liegen könnte (siehe Abbildung 1).
Abbildung 1: Geräuschpegel in Abhängigkeit der Zeit
Neben dem Lärm lässt sich auch die Temperatur mit dem Smart Citizen Kit beobachten. Bei der Analyse der Daten sind Punkte, die aus dem Rahmen fallen, am spannendsten. So können wir über die Temperatursensoren zum Beispiel nach ungewöhnlich heißen oder kalten Tagen im Würzburger Stadtteil Sanderau Ausschau halten. Im einfachsten Fall legen wir dazu sinnvolle fixe Grenzen fest und suchen nach Messwerten, die diese Schranken unter- bzw. überschreiten. Eine solche Grenze lässt sich mittels Expertenwissen definieren. Laut Statista liegt die höchste gemessene Temperatur in Deutschland bei etwa 42 Grad. Eine sinnvolle Grenze kann aber auch statistisch aus den Daten abgeleitet werden. Mit einer Wertverteilungsanalyse auf einer historischen Referenzperiode können wir den Temperaturbereich bestimmen, in dem sich die Messungen in 99% der Fälle bewegt haben.
Abbildung 2 zeigt tatsächlich einige Tage, an denen dieser Extremwert von 42 Grad überschritten wurde. Um zu entscheiden, ob es sich dabei um Wetteranomalien handelt, müssen wir bei einer Analyse der Messdaten stets mitbedenken, ob der Sensor richtig kalibriert, an einem günstigen Ort (Sonneneinstrahlung) angebracht oder womöglich sogar defekt ist. Auch bei der Datenübermittlung können Fehler passieren.
Eine Höchsttemperatur von 42 Grad Celsius kann im Sommer als Extremwert gelten, im Winter allerdings würde man es bereits bei 20 Grad Celsius als deutlich zu warm für die Jahreszeit empfinden. Das führt uns direkt zu der Frage, ob global definierte Temperaturgrenzen nicht zu grob sind: Lassen sich hier nicht Grenzen definieren, die von dem Zeitpunkt oder der Jahreszeit abhängig sind?
Abbildung 2: Extremwerte überschreiten definierte Maximal- und Minimalwerte
Dazu trainieren wir ein SVM-Modell, dass uns zu jedem Zeitpunkt einen den zu erwartenden Temperaturwert ausgibt. Als Prädiktoren für die Temperatur ziehen wir die Luftfeuchtigkeit und den Luftdruck mit ein, da ein Blick auf die Daten des Kits einen Zusammenhang zwischen diesen Größen vermuten lässt. Es zeigt sich, dass das Modell die tatsächlichen Temperaturen recht passend vorherzusagen scheint, was Abbildung 3 visualisiert. Betrachten wir nun die Abweichungen von erwartetem zu tatsächlich gemessenem Temperaturwert, so können wir nun sehr viel gezielter außergewöhnliche Werte identifizieren. Mit zusätzlichen Daten des Deutschen Wetterdienst lässt sich das Modell weiter anreichern, wodurch die Ergebnisse noch genauer werden.
Abbildung 3: Überprüfung des Machine-Learning-Modells
Falls Sie selbst einen Blick in die Daten werfen wollen, schauen Sie sich bei GitHub unter @discovertomorrow um. Viel Spaß!
Ein Interview mit unseren Smart-Citizen-Experten bei prognostica hören Sie in unserem Podcast:
Dass korrekte Wochenvorhersagen von Daten gar nicht so einfach sind, lesen Sie in unserem Blogbeitrag
Ihr Partner für Predictive Analytics und Data Science.
Weitere Angaben, u. a. zum Datenschutz, finden Sie in unserem Impressum und unserer Datenschutzerklärung.
© 2024 prognostica GmbH