Das Management des Data Science Produktes – ein Interview mit Anna Hannemann, PhD

Warum hast du dich für ein Informatikstudium entschieden?

Ich war schon immer an MINT interessiert. Mein Traum war es, Pharmakologie zu studieren. Allerdings konnte ich mir eher vorstellen, was ich nach meinem Informatikstudium machen würde, auch wenn das, was ich mir als Studentin vorgestellt habe, nicht das ist, was ich heute mache.

Mein jüngeres Ich stellte mir ein Hacker-Mädchen vor, aber ich habe in den letzten 8 Jahren keinen Code mehr entwickelt. Mein Schwerpunkt war das Produktmanagement, das aus Backlog-Maniküre, Organisationsplanung und neuerdings auch aus Personal- und Strategiemanagement besteht.

Mein Erfolg wäre jedoch ohne das Wissen über die zugrunde liegenden Softwareentwicklungs- und Data-Science-Konzepte nicht möglich gewesen.

Wie kam es dann zu deiner Entscheidung, Produktmanager bei Zalando zu werden und ins Produktmanagement im Bereich Data Science zu wechseln?

Während meiner Promotion habe ich festgestellt, dass ich neben meinen technischen Fähigkeiten auch gut darin bin, eine größere Vision zu haben und Teams, Arbeitsabläufe usw. zu organisieren. Nach Abschluss meiner Promotion schien mir das Produktmanagement das Richtige für mich zu sein.

Und ich hatte Recht.

Was hat dich für das Produktmanagement in der Datenwissenschaft begeistert?

Produktmanagement wird traditionell mit Softwareentwicklung in Verbindung gebracht, während Datenwissenschaft meist in F&E-ähnlichen Projekten stattfindet.

Welche Aspekte der Softwareentwicklung sollte Data Science übernehmen?

Die Datenwissenschaft sollte die Praktiken der agilen Entwicklung übernehmen, d. h. schnelle Freigabe, iterative Verbesserung der Genauigkeit und Übernahme des gesamten Prozesses von Anfang bis zum Ende.

Von Anfang bis zum Ende bedeutet, dass das Data-Science-Produktteam für die Infrastruktur verantwortlich ist: Pipelines für maschinelles Lernen, Quality Gates, Monitoring, A/B-Tests und Dashboards.

In welchen Punkten unterscheidet sich das Produktmanagement für Data Science von dem für Software?

Die Notwendigkeit der Exploration

Zuallererst müssen wir etwas Raum für die Exploration lassen. In der Welt der KI passiert so viel, dass wir Datenwissenschaftlern die Zeit zum Experimentieren geben müssen.

Für Data Science Produkte wird funktionsübergreifendes Fachwissen benötigt

In der Datenwissenschaft werden Menschen mit unterschiedlichen Hintergründen benötigt. Bei der Softwareentwicklung sind hauptsächlich Softwareingenieure beteiligt. In der Datenwissenschaft gibt es Datenwissenschaftler, Ingenieure für maschinelles Lernen, Operatoren für maschinelles Lernen und Dateningenieure. Alle diese Personen haben einen unterschiedlichen Hintergrund und sind in unterschiedlichem Maße von bestimmten Themen begeistert. Während Data Scientists wahrscheinlich Mathematik und Statistik studiert haben, haben Data Engineers vielleicht Softwareentwicklung oder Data Engineering studiert. Die Datenwissenschaftler neigen dazu, sich eingehend mit dem Modell zu befassen, während die Dateningenieure dazu neigen, sich eingehend mit der Infrastruktur zu befassen.

Ein guter Produktmanager muss Fachleute mit unterschiedlichem Hintergrund in einem Team zusammenbringen. Das ist eine große Herausforderung.

Zusammenarbeit mit anderen Produktteams

Da Data-Science-Produkte in der Regel nicht als eigenständige Produkte angeboten werden, sondern als Ergänzung zu einem anderen Produkt, ist die Zusammenarbeit mit anderen Produktteams entscheidend. Man kann einen großartigen Cross-Sell-Empfehlungsalgorithmus erstellen, der am Ende schlecht in die Online-Shops integriert wird. Beispielsweise werden nicht die richtigen Bilder verwendet oder die Produkte werden weiter unten auf der Website angezeigt, als es optimal wäre, so dass man viel nach unten scrollen muss.

Selbst wenn die Qualität des Algorithmus und die KPIs gut sind, kann die schlechte Benutzererfahrung all Ihre Data-Science-Bemühungen zunichte machen, wenn das Modell nicht gut in das Endprodukt integriert ist.

Entscheidung, wann die Qualität des Modells für die Freigabe ausreichend ist

Der zweite Unterschied besteht darin, dass man entscheiden muss, wann die Qualität des Modells für die Freigabe ausreicht. In der klassischen Softwareentwicklung gibt es ein klares Kriterium, wann die Software zur Freigabe bereit ist – wenn die Funktion fertig ist. In der Datenwissenschaft reicht es nicht aus, ein Modell zu haben. Man muss wissen, wann das Modell gut genug für den jeweiligen Anwendungsfall ist. Der Produktmanager oder -eigentümer wählt die richtige Qualitätsmetrik und den Schwellenwert, ab dem die Qualität für die Freigabe des Modells ausreicht.

Wie definiert man Qualität in der Datenwissenschaft?

Zu den verschiedenen Aspekten der Qualität in der Datenwissenschaft gehören die Trainingszeit, die Vorhersagegenauigkeit und die Populationsabdeckung:

Die Trainingszeit gibt an, wie viel Zeit man für das Training des Modells benötigt.

Die Abdeckung der Grundgesamtheit bedeutet den Anteil der Grundgesamtheit (Kunden, Produkte usw.), für den das Modell tatsächlich Vorhersagen treffen kann.

Vorhersagegenauigkeit: Die nach verschiedenen Aspekten gemessene Vorhersagegenauigkeit gibt an, wie genau das Modell unbekannte Werte vorhersagt. Wie man die Qualität misst, hängt sehr stark vom Anwendungsfall ab.

Wie messen Sie den Erfolg eines Data-Science-Produkts?

Die Messung sollte geschäftsorientiert sein.

KPIs sollten zeigen, dass wir Auswirkungen auf das Geschäft haben, z. B. Umsatzsteigerung, Schadenverhütung usw. Es ist falsch, sich nur auf die Qualität des Modells zu konzentrieren.

Wir können ein großartiges Empfehlungssystem haben, aber wenn die Leute nicht daran interessiert sind, weitere Produkte zu erkunden und zu kaufen, dann hat das Empfehlungssystem nicht die gewünschte Wirkung.

Was sind einige der wichtigsten Erfolgsfaktoren, die beim Aufbau einer Data-Science-Produktmanagement-Organisation beachtet werden sollten?

Das richtige Verhältnis zwischen Ingenieuren und Datenwissenschaftlern

Viele Unternehmen stellen Datenwissenschaftler ein und vergessen dabei, dass sie auch jemanden brauchen, der das System betreibt.

Ich empfehle, genauso viele Ingenieure für maschinelles Lernen wie Datenwissenschaftler einzustellen. Für ausgereifte Projekte werden sogar mehr Ingenieure für maschinelles Lernen als Datenwissenschaftler benötigt.

Daten sind die Grundlage

Normalerweise sind die Daten unvollständig oder gar nicht vorhanden. Selbst wenn wir großartige Ideen und eine Reihe von Datenwissenschaftlern haben, werden sie ohne Daten nicht arbeiten können.

Die richtige Entscheidung zwischen zentral und dezentral treffen

Eine schwierige Entscheidung, vor der Unternehmen stehen, ist die Frage, ob sie Data-Science-Produkte zentralisieren oder dezentrale Teams bilden sollen. Zu Beginn kann es besser sein, sich für zentralisierte Data-Science-Organisationen zu entscheiden und die Erstellung und Produktion von Anwendungsfällen zu zentralisieren. Sobald ein gewisser Reifegrad erreicht ist, können spezialisierte Data Scientists in dedizierten Produktteams vorteilhafter sein.

Wie werden die künftigen Rollen von Datenwissenschaftlern in Data-Science-Produktteams aussehen?

Die Rollen werden immer technischer werden. In Zukunft wird es nicht mehr ausreichen, ein hervorragender Datenwissenschaftler zu sein. Man muss auch Data Engineering und Pipelining für maschinelles Lernen verstehen.

Verändern neue Technologien wie No Code, Low Code und Serverless die technischen Anforderungen?

Wir verwenden Vertex AI. Man muss das maschinelle Lernen verstehen, um es zu nutzen, und man muss immer noch die Infrastruktur dafür aufbauen. Auch bei Low und No Code muss man den Anwendungsfall und die damit verbundenen technischen Anforderungen verstehen.

Was waren einige deiner Erfolgsgeheimnisse?

Eine Kombination aus einem guten technischen Hintergrund und Soft Skills, wie zum Beispiel Einfühlungsvermögen für Menschen. Diese Kombination gibt mir die Möglichkeit, technische Themen an Nicht-Techniker zu vermitteln und Geschäftsanforderungen in technische Sprache zu übersetzen.

Wer ist Anna Hannemann, PhD?

Als Domain-Owner für Data Science bei Metro Digital, leitet Anna strategische Ausrichtung im Bereich maschinellen Lernens und Data Sciences vom Metro-Business. In ihren bisherigen Positionen als Product-Owner war Anna für Recommender-Systems und Robotics/Smart-Logistik-Produkte zuständig. Zusätzlich hat Anna sowohl mehrere Jahre in Softwareentwicklung als auch eine Doktorarbeit im Data Science vorzuweisen. Neben ihrer hauptberuflichen Beschäftigung engagiert sich Anna bei mehreren Initiativen, die sich auf Unterstützung der Frauen in Tech fokussieren.

Verwandter Inhalt

Wie managt man ein Data Science Produkt, Teil 2: Das Lebenszyklusmanagement im Zeitalter der intelligenten Geräte – ein Interview mit Eric JoAchim Liese

The prevelance of AI and the importance of engaging in dialogue

Beyond AI, the realities of operationalizing AI – A podcast interview with Elizabeth Press

Why the public needs to know more about AI – An interview with Varsh Anilkumar

What is the future of AI adoption?