Aufbau des ersten Data Teams in ihrem Unternehmen

Von Elizabeth Press und Irina Brudaru

Das Bild ist von Irina Brudaru

Dieser Blog kombiniert die Erfahrungen anderer mit unseren eigenen, um Geschäftsführern, Gründern und Managern, die ein Data Team in ihrem Unternehmen aufbauen wollen, als Leitfaden zu dienen.  Wir haben Erfahrungen und Ratschläge von Greenfield-Veteranen mit unterschiedlichem Hintergrund aus einer Vielzahl von Unternehmen zusammengetragen, die von Startups bis hin zu mittelständischen Industrieunternehmen reichen. Der gemeinsame Faktor war, dass jeder dieser Personen eine neue Datenfunktion in einem bestimmten Unternehmen aufgebaut hat.

Der Datenbereich ist ein Wirrwarr aus sich überschneidenden, trendigen und verwirrenden Begriffen. In diesem Artikel steht „Daten“ für das breite Spektrum an Werkzeugen, professionellen Rollen und Prozessen, die mit der Verwaltung und Analyse von Daten verbunden sind. „Business Intelligence“ (BI) ist ein Spektrum von funktionsübergreifenden Disziplinen, die mit der Verwaltung von Daten von der Erstellung bis zur Geschäftsentscheidung und deren Auswirkungen verbunden sind. Technische Schuld ist eine Schuld in Form von Aufwand und Geld, die Sie für Ihre zukünftigen Geschäftsabläufe als Ergebnis suboptimaler technischer Entscheidungen auf kurze Sicht schaffen.

In welcher Phase und in welchem Alter war das Unternehmen, als es ein Datenteam gründete?

Die Antworten reichten von kurz vor Tag 1 bis nach 100 Jahren. Im Allgemeinen gab es immer irgendwo im Unternehmen Daten, sei es nur bei den Gründern oder bei einem Mitarbeiter, der ad hoc zum Datenanalysten wurde. Ein zentrales Team mit Fachleuten entstand oft erst nach einer größeren Investitionsrunde. 

Wer wird als erstes eingestellt?

Data Engineer war die häufigste Antwort. Alle ersten Mitarbeiter hatten einen technischen Hintergrund, eine formale Ausbildung in den Bereichen Ingenieurwesen, Mathematik oder Informatik und praktische Erfahrung in einem technischen Bereich. Der Vorbehalt gegenüber dem einzigen Dateningenieur besteht darin, dass er in der Lage sein muss, sich selbst zu verwalten und die ersten Analysen zu erstellen, was nicht immer der Fall ist. 

Eine Falle, in die der erste eingestellte Ingenieur je nach Unterstützung durch das höhere Management tappen kann, ist die mangelnde Konzentration auf das Änderungsmanagement.

Wann und mit wem erweitern Sie das Team?

Das Team wuchs in der Regel innerhalb der ersten zwei Monate. Bei denjenigen, die länger als sechs Monate warteten, handelte es sich in der Regel um Daten Ingenieure, die extrem viele Überstunden machten.

Wir haben zwei haupt Taktiken bei der zweiten Einstellung festgestellt:

Dateningenieur: Der Vorteil dieses Weges bestand darin, dass die Infrastruktur schnell aufgebaut wurde und frühere technische Schulden oft in unterschiedlichem Ausmaß bewältigt werden konnten, je nach Seniorität der eingestellten Mitarbeiter und Personalbestand. Der Nachteil war, dass der Schwerpunkt des Teams auf der Technologie der Pipeline lag, was zu diesem Zeitpunkt gut erschien, aber zu einem technokratischen Schwerpunkt führte. Wie wir später noch erörtern werden, können sich allzu technokratische Teams eher auf technologische Experimente als auf den Geschäftswert konzentrieren, was zu einer Verschwendung von Ressourcen führt und technische Schulden entstehen lässt. Ein weiterer Nachteil kann die mangelnde Konzentration auf politische Untertöne, Änderungsmanagement und der Aufbau von Beziehungen zu den Funktionsleitern sein. 

Datenanalytiker: Der Vorteil dieses Weges sind die komplementären Fähigkeiten und die schnellere Wertschöpfung durch schnellere analytische Ergebnisse. Der Wert für das Unternehmen wird durch die Fähigkeit, gute Anwendungsfälle und KPIs zu erstellen, in Verbindung mit der Nutzung der Analyseergebnisse durch die Interessengruppen bei der Entscheidungsfindung realisiert.  Die Nachteile sind eine größere Belastung für einen einzelnen Dateningenieur und ein langsamerer Ausbau der Infrastruktur, es sei denn, es werden einfachere Tools (mit oder ohne Code) verwendet. Selbst wenn einfachere Tools verwendet werden, werden schnell Fragen an die dünne Infrastruktur gestellt, was zu unordentlichen Ad-hoc-Infrastrukturlösungen führen kann. Das Unternehmen erzielt schnellere analytische Ergebnisse auf Kosten der infrastrukturellen Architektur.  

Jede weitere Rolle, die entweder von einem Analysten oder einem Data Engineer oder irgendwo dazwischen, z. B. einem Analytics Engineer, ausgefüllt wird, bringt die oben genannten Nachteile mit sich. Im Allgemeinen wurde gesagt, dass man sich im ersten Jahr von Data Science fernhalten sollte, vor allem weil sowohl die Infrastruktur als auch die Entwicklung von Anwendungsfällen und die Datenreife von Unternehmen in der Anfangsphase eines Greenfield-Projekts noch nicht ausgereift sind.

Wie sah das Team am Ende des ersten Jahres aus?

Die durchschnittliche Mitarbeiterzahl betrug 6 Personen, obwohl die Antworten von 2 bis 10 reichten. 

Wie lange hat es gedauert, bis Ergebnisse erzielt wurden?

Erste KPIs: 3 Monate, wobei die Zeitspanne je nach Teamgröße, vorhandener Infrastruktur und Beziehungen zu den Beteiligten von einigen Wochen bis hin zu nie variierte. 

Konzeptualisierung der infrastrukturellen Architektur: 3 Monate, wobei die Antworten je nach Größe des Teams, Daten und Komplexität des Geschäftsmodells variieren.

Implementierung der Infrastruktur-Architektur: 3-6 Monate bis 1 Jahr, abhängig vom Umfang der Architektur, der Teamgröße und den vorhandenen Ressourcen sowie den übernommenen technischen Schulden. 

Horizontal arbeiten und iterieren

Horizontales Arbeiten führt schneller zu ersten Ergebnissen: Horizontal bedeutet, dass Daten Pipelines und Analysen für ein bestimmtes Problem/einen bestimmten Bereich mit großen Auswirkungen auf das Geschäft erstellt werden, anstatt sie auf das gesamte Unternehmen auf einmal auszuweiten.

Modularität: Entwerfen Sie Pipeline-Einheiten, die zu einem späteren Zeitpunkt verfeinert werden können, um die Lieferung der ersten Meilensteine zu beschleunigen. Je nach Komplexität der Daten und des Geschäftsmodells wird der Transformation Teil der ELT auf einen späteren Zeitpunkt verschoben. Außerdem sollte die Übernahme von Trend-Tools zugunsten von Open Source in Frage gestellt werden, oder die Entscheidung sollte zu einem späteren Zeitpunkt getroffen werden. Zu viele neue Tools können am Anfang zu viel sein. Beginnen Sie schlank. 

Verschiebung der Datenlogik zu DBT: Das Tool ist flexibel und SQL-basiert, so dass es für Analysten einfacher zu bedienen ist. Dies verbessert die Leistung von Abfragen und Dashboards. DBT ermöglicht auch die Visualisierung der Daten-Abfolge, was sehr wichtig ist und eine Lücke in vielen BI-Stacks darstellt.

Low  Code / No Code: Der Schwerpunkt sollte auf den Analysen liegen. Teams verbringen oft zu viel Zeit mit Code und technischen Problemen mit der Pipeline, während der geschäftliche Wert in den Analysen liegt. Low-Code- und No-Code-Tools ermöglichen praktikable Pipelines, minimieren die Komplexität und ermöglichen die Konzentration auf Analysen. Außerdem können Sie ein breites Spektrum an Mitarbeitern einstellen, wenn Code-Kenntnisse kein Einstellungshindernis mehr darstellen. Diese Entscheidung ermöglicht eine schnellere Bereitstellung von Ergebnissen/KPIs.

Was waren die ersten Erfolge?

Die Stakeholder zu überzeugen: Stakeholder zu überzeugen und ihre Zustimmung zu Datenprojekten zu erhalten, ist ein wichtiger erster Erfolg, da Datenprojekte oft als „nice to have“ im Hintergrund angesehen werden. Leistungsstarke und aussagekräftige Dashboards wurden ebenfalls als erste Erfolge genannt, ebenso wie die Möglichkeit, wichtige Metriken für bestimmte Interessengruppen darzustellen.  

Auditierung der Daten: Beim Aufbau des Daten Stapels kann man gleichzeitig auch ein Datenqualitätsaudit durchführen. Sind alle Werte eines bestimmten Variablen Typs dokumentiert? Existieren sie überhaupt? Dies ist auch bei der Definition der KPI-Abdeckung der Daten hilfreich und kann zur Entdeckung von Fehlern, zur Qualitätssicherung, zur Erstellung eines Datenwörterbuchs und zu Funktionsanforderungen führen, falls die gewünschten KPIs auf nicht verfolgten Daten basieren.

Die wichtigsten Lehren

Stakeholder! Die Rentabilität der Investition hängt davon ab!: Die Zustimmung der Stakeholder ist wichtig für die Akzeptanz, den anhaltenden Erfolg und die Investitionen.  Eine Anweisung von oben nach unten, datenorientierter zu werden, reicht nicht aus. Die Abteilungsleiter und das mittlere Management müssen das Datenteam unterstützen.  Die verantwortliche Person und die Teammitglieder müssen Fortschritte, Ergebnisse und positive Auswirkungen auf das Unternehmen vermitteln. Außerdem müssen sie die Entscheidungsfindung der Kultur verstehen und die Stakeholder so weit einbinden, dass sie deren Begeisterung und Feedback einfangen können. Der Aufbau eines Daten Teams ist ein funktionsübergreifendes Projekt, das von einem Veränderungsmanagement abhängt, das von der Unternehmensführung von oben nach unten gestaltet wird. Ein erfolgreiches Datenteam arbeitet nicht in Silos, sondern isoliert.

Fokus auf Benutzerfreundlichkeit statt auf technisches Interesse: Manager von Greenfield-Teams sollten sich nicht davor scheuen, bei Technologieentscheidungen direktiv vorzugehen. Oft versuchen Manager, die technische Neugier der Teammitglieder zu befriedigen, um Talente zu binden. Die Anpassung an die technische Neugier kann zu übermäßig komplexen Daten Pipelines, mangelnder Skalierbarkeit und technischen Schulden führen.  

Erstellen ein MVP und iterieren: Ingenieure verwenden gerne komplexe Tools, um zu lernen, und das macht die Skalierung, Einstellen usw. in der Zukunft schwierig. Plug-and-Play-Tools sind wichtig, um schnell voranzukommen und in der dynamischen Welt der Daten wettbewerbsfähig zu bleiben. 

Manchmal erhält man aufgrund externer Faktoren nicht die Tools, die Sie gerne hätten. 

Mehr Zeit für Dokumentation, Governance und Datenqualität aufwenden: Es ist besser, Custom Code zu vermeiden. Custom Code wird an Stellen wie Dashboards versteckt und ist oft nicht dokumentiert. Es gibt Tools, die nützlich sind, um die Geschäftslogik zu entschlüsseln und zu verstehen. 

Garbage in bedeutet Garbage out: Alles, was ein Datenteam tut, basiert auf dem Vertrauen in Daten. Es gibt einen Punkt, an dem die Daten von so schlechter Qualität sind, dass das Bauchgefühl tatsächlich besser ist als das Vertrauen in die Daten. Traurig, aber wahr.

Haben unsere Veteranen technische Schulden gemacht?

Ja, das haben sie….

Spark: Einige der Befragten sagten, dass die Ingenieure Spark attraktiv fanden, aber Spark-Fähigkeiten sind rar, was die Einstellung und Weiterqualifizierung erschwert. Sie bedauerten, dass sie mit Spark begonnen hatten, anstatt eine einfachere Alternative zu wählen.

Geiz: Die Budgets waren knapp, sodass die Wahl einiger Tools suboptimal war. Ein Befragter entschied sich beispielsweise aufgrund von Budgetbeschränkungen und der Fähigkeit, Stakeholder zu überzeugen, für Redshift.

Andere Befragte entschieden sich für Postgres und BigQuery und verzichteten auf eine Steuerung.

Fehlende Governance, übermäßiger Fokus auf Geschwindigkeit statt auf Qualität : Custom Code, Bugs, Hacks, Inkonsistenz. Alle diese Probleme wurden mehrfach genannt und mussten später teuer bereinigt werden, oft von anderen Daten Verantwortlichen. Es ist wichtig, sich um Metadaten, Datenqualität, Governance und Dokumentation zu kümmern. 

Wie viel wird das erste Jahr kosten?

Der Durchschnitt lag bei 800.000 Euro. 700.000 für Personalkosten, 100.000 für Werkzeuge. Die niedrigsten Kosten beliefen sich auf 300.000 Euro mit einer großen Anzahl von Überstunden. Die höchsten Kosten betrugen 1,1 Millionen Euro für ein Unternehmen, das sein Team nach einer großen Investition aufgestockt hatte. 

Data Teams sind ein Artefakt ihrer Organisation, daher gibt es kein Kochbuch für die erfolgreiche Durchführung eines Greenfield-Projekts. Mit einem begrenzten Budget und mittelmäßigem politischem Einfluss werden sich Entscheidungen eher auf Kompromisse konzentrieren als auf den Aufbau einer erstklassigen Organisation. Der Aufbau einer Datenfunktion, die strategisch wichtig ist und einen Wettbewerbsvorteil darstellt, ist eine langfristige Investition, deren Rendite im ersten Jahr trotz anfänglicher Erfolge wahrscheinlich noch negativ sein wird. Wie lange es dauert, bis die Rentabilität ausgeglichen ist oder sogar ein positiver ROI erzielt wird, hängt von der Fähigkeit des Teams ab, aussagekräftige Anwendungsfälle und KPIs zu erstellen und gleichzeitig die Qualität der Daten aufrechtzuerhalten und die Interessengruppen einzubinden. 

Artikel:

https://www.bcg.com/publications/2019/dividends-digital-marketing-maturity

https://inthecloud.withgoogle.com/startup/dl-cd.html

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert