Den ganzen März hindurch durchkämmten die Teilnehmenden der „Bremen Big Data Challenge 2023“ (BBDC) einen riesigen Datensatz des Alfred-Wegener-Instituts, um präzise Vorhersagen über den Zustand des Meeres treffen zu können. Erstmals waren neben den Studierenden auch die wissenschaftlichen Mitarbeitenden in einem eigenen Track am Start. Für die Zukunft plant das Organisationsteam des Cognitive Systems Labs noch weitere spannende Neuerungen.
Die Verfügbarkeit von Daten und insbesondere Big Data war noch nie so groß und weitreichend wie heute. „Big Data“ bezeichnet Datensätze, die aufgrund ihrer Struktur, Größe oder Komplexität mit herkömmlichen Methoden der Datenverarbeitung nur schwer zu analysieren sind.
Ziel ist es in jeder BBDC, eine solche knifflige Aufgabe aus dem Bereich der Big Data zu lösen. Dazu wird ein Datensatz zur Verfügung gestellt, der in der Vergangenheit gesammelte Informationen enthält. Die Herausforderung besteht darin, die Primärdaten aus der Realwelt zu analysieren und mit dem Wissen aus der Vergangenheit zukünftige Informationen möglichst präzise vorherzusagen. Das Ergebnis mit der exaktesten Vorhersage gewinnt.
Bei der Datenanalyse im Rahmen des Wettbewerbs setzen die BBDC-Teilnehmenden neben inferenzstatistischen Verfahren vor allem auf Methoden des maschinellen Lernens. Die Kombination beider Verfahren erlaubt es, verborgenes Wissen in den Daten aufzudecken und die zunächst unstrukturierte Fülle an Informationen zu nutzen, um Fragen zu beantworten und Vorhersagen zu treffen.
Aufgabe: Temperatur und Salzgehalt des Meeres vorhersagen
Während in den ersten Jahren der BBDC noch Datensätze aus der Industrie analysiert wurden, stammten die Daten in den letzten Jahren direkt aus der Universität Bremen, z.B. aus Projekten des Wissenschaftsschwerpunktes Minds, Media and Machines oder aus dem Sonderforschungsbereich EASE. Mit dem Alfred-Wegener-Institut, Helmholtz-Zentrum für Polar- und Meeresforschung, rückte die BBDC in diesem Jahr erstmals die Daten einer außeruniversitären Non-Profit-Organisation in den Fokus des Wettbewerbs.
Das Alfred-Wegener-Institut hatte einen Datensatz zur Verfügung gestellt, der Meeresproben aus der Nähe von Helgoland über einen Zeitraum von 54 Jahren umfasste. Dieser Datensatz enthielt Daten von Meeresproben aus den Jahren 1962 bis 2009, mit Ausnahme des Jahres 2004, und umfasste neun Variablen, darunter z.B. die Temperatur und den Salzgehalt des Meeres. Die Aufgabe der BBDC-Teilnehmenden bestand darin, die fehlenden Werte für das Jahr 2004 sowie für die Jahre 2011-12 (im Student Track) respektive 2011-2015 (im Professional Track) vorherzusagen.
Wie auch in vorherigen Jahren entwickelten die Teilnehmenden kreative Lösungen für Probleme, die sich aus den gegebenen Daten ergaben. So bezog das Gewinnerteam Daten des Deutschen Wetterdienstes in ihre Analysen mit ein, was eine entscheidende Rolle im Sieg des Teams in gleich beiden Kategorien – Student und Professional Track – spielte.
Der Professional Track wurde in diesem Jahr neu eingeführt, um auch wissenschaftlichen Mitarbeitenden der Universität und Mitarbeitenden der sponsernden Institutionen die Möglichkeit zu geben, an der BBDC teilzunehmen. Neben den langjährigen Sponsorpartnern Neuland – Büro für Informatik und der Sparkasse Bremen war in diesem Jahr zum zweiten Mal Just Add AI (JAAI) unter den Sponsoren. Nicht selten finden die Gewinnerinnen und Gewinner im Anschluss an die BBDC eine Anstellung bei den Sponsoren oder der Uni Bremen.
Auch in anderer Hinsicht zieht die BBDC immer weitere Kreise: Unter den 160 Anmeldungen war in diesem Jahr mit einem Team der Hochschule Darmstadt erstmals auch Süddeutschland vertreten. Und auch die Universität Paderborn, die in der Forschung eng mit der Universität Bremen verzahnt ist, war in diesem Jahr zum ersten Mal an der BBDC beteiligt – sowohl durch Studierende auf Teilnehmenden-Seite als auch durch Prof. Dr. Axel Ngonga, Leiter der Arbeitsgruppe Data Science (Dice) an der Universität Paderborn, der im Anschluss an die Preisverleihung eine spannende Keynote zum Thema „Learning with multiple representations“ hielt.
Trend zu Nachhaltigkeit und „Explainable AI“
Bei der Auswahl des im Rahmen der BBDC zu analysierenden Datensatzes achtet die Arbeitsgruppe darauf, dass noch keine Modelle zur Lösung der zentralen Fragestellung verfügbar sind. Gleichzeitig muss die Aufgabe aber im gegebenen Zeitrahmen lösbar sein. Die Organisatoren der BBDC, Marvin Borsdorf und Yale Hartmann, achten bei der Auswahl der Datensätze darauf, reale, möglichst greifbare Daten zu verwenden. Auf diese Weise können die Teilnehmenden ein Gefühl für die Unsicherheiten, Komplikationen und notwendigen Abwägungen entwickeln, die der Umgang mit Daten in der realen Welt mit sich bringt.
Darüber hinaus soll zukünftig ein Nachhaltigkeitskriterium in die Bewertung der Lösungen einfließen, das energieeffizienten Code belohnt, da durch geschickte Datenmodellierung viel Energie eingespart werden kann. Perspektivisch wäre im Sinne der Ziele des „Explainable AI“-Ansatzes auch die Einführung eines Interpretierbarkeitskriteriums wünschenswert, dessen Operationalisierung derzeit allerdings noch schwierig ist.
Einführung an Schulen geplant
Ein konkretes Ziel für das kommende Jahr ist die Einführung der BBDC an Bremer Schulen. Mit seinem Schwerpunkt auf kreativem und aktivem Lernen durch Aufgaben und Teamarbeit eignet sich das Format hervorragend für Schülerinnen und Schüler der Oberstufe und bietet ihnen viele Möglichkeiten, etwas über Big Data und Maschinelles Lernen zu lernen, und nur bei Interesse und Bedarf in die Tiefe einzusteigen.
Die BBDC wächst also in vielerlei Hinsicht mit den Entwicklungen und Anforderungen von Big Data. Wir freuen uns, unsere Faszination für Daten und deren Analyse im Rahmen der BBDC mit einem immer größer werdenden Publikum teilen zu können und sind gespannt auf die Herausforderungen der Zukunft.
————————————————————————————————————————————–
Wir danken dem Alfred-Wegener-Institut für die Bereitstellung seiner Forschungsdaten für die diesjährige BBDC. Unser herzlicher Dank gilt auch den BBDC-Sponsoren: Just Add AI, Neuland – Büro für Informatik und der Sparkasse Bremen.