Data Science in der Praxis: Häufige Fehler und Vorgehen

28.8.2019 | 11 Minuten Lesezeit

In diesem Artikel gehen wir auf die Besonderheiten von Data Science in der Praxis ein. Wir konzentrieren uns auf die technischen Unterschiede, häufige Fehler und Herausforderungen. Dabei lassen wird die sozialen und kommunikativen Aspekte außen vor. Weiterhin zeigen wir auf, mit welchem Leitfaden wir im Data & AI Team der codecentric Data-Science-Projekte erfolgreich umsetzen.

Data Science ist in der deutschen Firmenlandschaft angekommen. Mehr und mehr Unternehmen sehen bei der Flut an Informationen im digitalen Zeitalter die Notwendigkeit von datengetriebenen Entscheidungen. Weiterhin kursieren im Jahr 2019 auf LinkedIn bis zu 56% mehr Stellenanzeigen für Data Scientists als im Jahr 2018 .

Die Projekte in diesem Umfeld reichen von reinen Datenexplorationen bis hin zu der festen Integration von Machine Learning in die Unternehmensprozesse und datengetriebenen Produkte. Blicken wird in den Kundenservice können wir mithilfe von einer explorativen Datenanalyse Erkenntnisse über die Anzahl an Tickets und deren Themen erhalten. Für die Integration von Machine Learning in den Kundenservice-Prozess können wir ein System entwickeln, das die Tickets automatisiert anhand des Textes klassifiziert und anschließend der zugehörigen Fachabteilung zuordnet.

Die große Frage hierbei ist, mit welchen Methoden Data-Science-Projekte erfolgreich durchgeführt werden. Grundsätzlich sind Data-Science-Projekte stark volatil und benötigen ein exploratives Vorgehen. Weiterhin werden die Erkenntnisse über die Daten sukzessive gewonnen, wodurch die Planung eines Projekt deutlich erschwert wird. Diese Eigenschaften zeigen, dass ein Wasserfallmodell spezifisches Vorgehen nicht für Data-Science-Projekte funktionieren kann. Ein agiler Rahmen ist zwangsweise notwendig um Data-Science-Projekte erfolgreich umzusetzen.

Data Science: Projekt-Dimensionen

Dimensionen von Data Science Projekte: Data, Model und Code

Grundsätzlich gibt es die drei Dimensionen Data, Model und Code, die bei der Entwicklung von Data-Science-Projekten aufeinander treffen

Data: Daten werden von diversen produktiven Systemen erzeugt und müssen abgespeichert werden, um sie anschließend weiterzuverarbeiten. Weiterhin spielen Faktoren wie die Menge, die Größe und die Geschwindigkeit der produzierten Daten eine wichtige Rolle für die Technologieauswahl.
Model: Das Modell wird anhand der Daten trainiert. Hierbei wird ausgehend von der Problemstellung die Methodik bzw. der Algorithmus gewählt.
Code: Software muss hier sowohl für die Modellentwicklung als auch für das Modelldeployment geschrieben werden.

Das bedeutet, dass Veränderungen einer Dimension zu Wechselwirkungen auf einer anderen Dimensionen führen können. Beispielsweise führt die Modifikation der Datenerzeugung an einem produktiven System dazu, dass die sich Verteilung der Daten ändern kann. Implizit wirkt sich das auf die Vorhersagekraft des Modells aus. Eine Möglichkeit dieses Problem zu beheben ist das erneute Trainieren des Modells mit den neuen Daten.

Ein konkretes Beispiel, das wir schon erlebt haben, und ebenfalls die Wechselwirkung zwischen den Dimensionen verdeutlicht, liegt an der Untersagung des Gesetzgebers bei der Verwendung spezifischer Kundendaten. In dem Projekt hat dies dazu geführt, dass wir spezifische Felder nicht mehr für die Vorhersage nutzen könnten. Dieses Phänomen haben wir in der Bankenbranche erlebt. Zusammengefasst haben sich die gesetzlichen Richtlinien auf Datenvorbereitung, Modelltraining und Anpassung der produktiven Umgebung ausgewirkt.

Neben den drei Dimensionen Data, Model und Code bildet die Infrastruktur eine weitere Achse. Es müssen unterschiedliche Infrastrukturen für Datenspeicherung, Datenverarbeitung, Modelltraining, Modelldeployment und Modellmonitoring betrachtet werden. Je nach der Betriebsstrategie eines Unternehmens, ob On-Premise, Cloud oder Multi-Cloud, sehen die Anforderungen an die Infrastruktur der jeweiligen Komponenten sehr unterschiedlich aus.

Häufige Fehler bei Data-Science-Projekten

Nachdem wir uns die Dimensionen der Projekte etwas näher angeschaut haben, widmen wir uns den häufigen Fehlern, die in der Praxis durchlebt werden.

Zu konkrete Planung

Gerade zu Beginn eines Projekts werden diversen Aufgaben bzw. Tasks gesammelt und geplant. Unserer Erfahrung nach kann sich die Definition und die Zeitschätzung der Tasks als sehr schwierig und zeitaufwändig gestalten. Daten kennenzulernen benötigt Zeit. Mit der Definition von spezifischen Tasks wird mehr Zeit in Anspruch genommen als nötig. Besser wäre hier, einfache Wochenziele festzulegen und anhand dieser Erkenntnisse die nächsten Schritte zu planen. Wenn sich beispielsweise das Projekt im Status der Datenqualitätsuntersuchung befindet, kann sich das Team eine Woche Zeit nehmen, um hier Erkenntnisse zu sammeln. Am Ende der Woche werden die Erkenntnisse zusammengefasst und anschließend gemeinsam über die nächsten Schritte entschieden.

Fehlendes Domänenwissen

Mit der Statistik können die Korrelationen berechnet werden. Eine klassische Fehlerquelle ist, dass die Kausalität mit den Korrelationen innerhalb der Daten erklärt werden kann. Die Korrelation beschreibt den Zusammenhang zwischen zwei Variablen. Die Kausalität beschreibt die Ursache und Wirkung. Eine Kausalität nicht immer unbedingt mit der Korrelation erklärt werden. Wie absurd Korrelationen sein können, zeigt der Blog Spurious Correlations von Tyler Vigen .

Beispiel für Korrelation != Kausalität (Quelle: https://tylervigen.com/spurious-correlations)

Das Diagramm vergleicht die Auftritte von Nicolas Cage in diversen Filmen mit der Anzahl von Personen, die beim Sturz in ein Schwimmbecken ertrunken sind. Ohne die genaue Bedeutung der Merkmale würden wir diese Korrelation als sinnvoll betrachten und eine Wechselwirkung für möglich halten. Gerade an dieser Stelle ist es wichtig, die Korrelationen mit spezifischen Domänenwissen zu prüfen und zu untersuchen, um daraus den realen Wert zu bestimmen.

Oftmals können die Daten nicht ohne spezifische Domänenwissen erklärt werden. Für Data Scientists braucht es oftmals sehr viel Zeit, die Daten ordnungsgemäß zu interpretieren, während der Fachmann oft die Zusammenhänge kennt. Aus diesem Grund sehen wir es als essentiell an, dass ein Fachmann Bestandteil des Projektteams ist, um das Expertenwissen zugänglicher für den Data Scientist zu haben.

Zu wenig Aufmerksamkeit für Datenschutz

Bei jedem Projekt gilt es, die Sensibilität der Daten und den damit verbundenen Datenschutz (https://dsgvo-gesetz.de/ ) zu berücksichtigen. In der Vergangenheit musste ein Projekt angehalten werde, weil nicht klar, ob die Verarbeitung der kundenspezifischen und personenbezogenen Daten noch erlaubt war. Meistens sind in den Projektteams wenig bis überhaupt keine Datenschutzexperten vorhanden. Dennoch finden sich diese Experten im Unternehmenskontext. Für das Projektteam und den Projekterfolg ist der schnelle Kontakt zu den entsprechenden Personen sehr wichtig, um bei Problemen und Rückfragen einen Projektstopp zu verhindern. Weiterhin kann es anhand unserer Projekterfahrung sehr sinnvoll sein, dass in den ersten Wochen des Projekts ein Datenschutzbeauftragter als festes Bestandteil in das Team mit aufgenommen wird und somit nicht nur als ein externer Ansprechpartner fungiert.

Kein sichtbarer Return on Investment für Stakeholder

Ein klassisches Problem in Unternehmen, die das erste Mal mit Data Science experimentieren ist, dass für die Stakeholder kein direkt sichtbarer Return on Investment entsteht. Dies passiert meist, wenn sich das Projektteam mit der Modellentwicklung zu intensiv beschäftigt und die Inbetriebnahme des Modells nicht im Unternehmenskontext berücksichtigt wird. Um das zu vermeiden, versuchen wir gemeinsam mit dem Kunden im ersten Schritt ein sehr simples Baseline-Modell zu trainieren. Die Performance dieses Modells gilt es in den kommenden Wochen innerhalb des Projekts zu schlagen und zu verbessern. Der Vorteil ist, dass wir nach diesem Schritt das Modell an Entwickler-Team übergeben können, das sich mit der Integration und dem Deployment auseinandersetzt. Dadurch kann an der Modellentwicklung und dem Modelldeployment gleichzeitig gearbeitet werden, wodurch das Projekt schneller in das produktive Umfeld gelangt und dadurch effizienter im Unternehmenskontext integriert werden kann.

Aus eigener Erfahrung lohnt es sich, im Vorfeld die Fakten und Aspekte aufzuzählen und zu sammeln, die mit der Verbesserung einer Vorhersage beeinflusst werden. Gemeinsam mit den Entscheidungsträger kann auf dieser Grundlage der Return On Investment (ROI) sowie der Pain on Invest besser eingeschätzt werden. Beispielsweise ist es sehr ungewiss, ob die Zeitersparnis eines Tages pro Monat für den Aufwand eines Vier-Personenjahre-Projekts gerechtfertigt und der Return on Investment hoch genug ist, um diese Risiko einzugehen.

Manuelle Versionierung von Daten und Modellen

Manuelle Änderungen an Daten gefährden die Reproduzierbarkeit der Experimente, die von den Data Scientists ausgeführt werden. Das hat den Nachteil, dass man nicht unbedingt nachvollziehen kann, warum ein Modell besser funktioniert als ein anderes, trotz des gleichen Algorithmus. Während das Versionieren von Code mit bspw. git bereits zum Entwickleralltag gehört, entstehen aktuell neue Tools wie DVC um Daten zu versionieren. Wenn sich das Projektteam vergrößert, ermöglicht Datenversionierung, dass sich neue Teammitglieder direkt ohne größeren Aufwand Zugang zu den Daten verschaffen können. Projekte ohne Datenversionierung neigen oft dazu, technische Schulden zu entwickeln, da die Daten an unterschiedlichen Orten abgelegt werden und komplexe Strukturen entwickeln. Gerade durch automatisierte Versionierung werden die technische Schulden im Kontext auf das Datenmanagement reduziert und das Projektumfeld effizienter gestaltet.

Wie setze ich Data-Science-Projekte erfolgreich um?

Die aufgezeigten Fehler haben wir in unserer langjährigen Erfahrung bei der Umsetzung von Data-Science-Projekten innerhalb der codecentric gesammelt. Durch den Erfahrungsaustausch zentrieren wir unser Wissen und vermitteln unseren Kunden in Trainings und Workshops unsere Learnings zur Umsetzung von Data-Science-Projekten.

Datenprojekte sind je nach Unternehmensorganisation, -struktur und Anwendungsfall sehr unterschiedlich. Im Data & AI Team haben wir aus unserer Projekterfahrung ein vierstufiges Phasenmodell abgeleitet, das auch den Wissenstands eines Unternehmens bei der Umsetzung von Data-Science-Projekten berücksichtigt:

Die Phasen: Enablement, Proof of Concept, Minimum Viable Product und Professionalisation im Verhältnis zum ROI und Zeit

Enablement-Phase: Beim Enablement geht es darum, Mitarbeiter für Data-Science-Projekte auszubilden. Hierzu gehört die Vermittlung von Data Science, Machine Learning und Deep Learning. Als codecentric haben wir ein Artificial Intelligence Bootcamp entwickelt, das mit Hilfe einer eigenen Lern-Plattform praktisches Wissen zu Machine Learning und Deep Learning kostenfrei vermittelt. Weiterhin bieten wir mit dem Format Brown Paper Bag Lunch kostenfreie Vor-Ort-Vorträge für Firmen im Bereich Data Science & Data Engineering an. Über Trainings und Workshop vermitteln wir technische Deep Dives zu bestimmten AI Themen an, wie beispielsweise End-2-End vom Keras TensorFlow-Modell zur Produktion oder Deep Learning mit Keras und TensorFlow . Weiterhin entwickeln wir aktuell ein kompaktes Training um Agile Coaches und Projektmanager für Data Science Projekte vorzubereiten.
Proof-of-Concept-Phase: In der PoC-Phase bestimmen wir die Machbarkeit und Realisierung eines Business Case anhand der im Unternehmen vorhandenen Daten. Dazu führen wir explorative Datenanalyse durch, lernen die Daten kennen und erfassen, ob eine bestimmte Fragestellung durch die Daten beantwortet werden kann. Am Ende der PoC-Phasen stellen wir dem Entscheidungsträger die gewonnenen Informationen vor und zeigen, welche Schritte notwendig sind, um ein mögliches Produkt zu entwickeln.
Minimum-Viable-Product-Phase: Gestaltet sich die PoC-Phase erfolgreich, kann mit der eigentlichen Produktentwicklung innerhalb der MVP-Phase begonnen werden. Hierbei steht sowohl die Modellentwicklung als auch die Inbetriebnahme des Modells im Vordergrund. Die MVP-Phase betrachten wir als abgeschlossen, wenn ein Modell mit entsprechender Softwarequalität in den Unternehmenskontext integriert wird.
Professionalisierung: Nachdem der MVP abgeschlossen ist und die ersten Modelle im Unternehmenskontext angekommen sind, geht es um die Professionalisierung der System. Wir bezeichnen dies als Machine Learning in Production. Der Fokus in dieser Phase liegt auf der Entwicklung eines robusten Systems, das die Modellentwicklung und die Modell-Inbetriebnahme semi-automatisiert. Für die Modellentwicklung bedeutet dies, dass Modelle mit neuen Datenbeständen automatisiert trainiert werden können. Weiterhin werden Metriken gesammelt und zentral zur Verfügung gestellt. Innerhalb der Inbetriebnahme des Modells werden CI/CD-Konzepte implementiert, welche die produktive Umgebung sowie die Predictions überwachen und kontrollieren. Ein weiterer Teil dieser Phase ist die Konzeptionierung einer Data Feedback Loop. Die Data Feedback Loop hat den Zweck, anhand von bestimmten Qualitätskriterien die Produktionsdaten in neue Trainings- und Test-Datenbeständen aufzuteilen.

Die Phasen bilden den Lifecycle von Data-Science-Projekten ab und werden sequentiell durchlaufen. Die Abbildung (oben) stellt die Phasen ins Verhältnis zu der Zeit und dem Return On Investment (ROI). Die Enablement- und POC-Phasen sind als reines Investment für die Entscheidungsträger zu betrachten. Nach Abschluss der MVP-Phase kann das entwickelte System bereits in den Unternehmenskontext und in die Prozesse integriert werden. Der höchste ROI wird in der Professionalisierung erzielt, da die entwickelten Modelle in einer robusten produktiven Anwendung zum Einsatz kommen und automatisiert datengetriebene Entscheidungen in den Anwendungen durchführen.

Weiterhin müssen der Softwarequalität- und der Automatisierungsgrad mit dem Eintreten der Professionalisierungs-Phase verbessert werden. Während in der PoC- und MVP-Phase Daten/Modelle teilweise noch manuell verarbeitet und trainiert werden, wird in der Professionalisierung-Phase stark auf Automatismus gedrängt. Modelle sollen automatisiert mit neuen Datenbeständen trainiert werden und verbesserte Modellversionen schneller im produktiven Umfeld ankommen. Weiterhin ist es zu erwarten, dass Softwarequalität und -testing erst ab der Professionalisierung-Phase von Bedeutung sind.

Für Unternehmen, die am Anfang der Implementierung von Data Science in der Organisation stehen, vermitteln wir durch die Enablement-Phase die Best Practices aus der Industrie und schaffen einen Überblick für die Mitarbeiter in der Data-Science-Projektwelt.

Für Unternehmen, die sich bereits mit Data Science stärker beschäftigen, empfehlen wir die Phasen ab der PoC-Phase sequentiell zu durchlaufen. In der Vergangenheit hatten wir auch schon Projekte, bei denen wir in der PoC-Phase festgestellt haben, dass die Daten nicht zur Realisierung des Business Case passen. In einem solchen Fall schauen wir uns die Datensituation genauer mit dem Kunden an und zeigen ihm auf, welche weiteren Schritte notwendig sind bzw. wären, um mit einem Datenprojekt anzufangen.

Ab der MVP-Phase sehen wir Tooling für die automatisierte Daten- und Modellverwaltung als notwendig an, um die Geschwindigkeit des Projekts aufrechtzuhalten und mehr Struktur innerhalb der Projekte zu ermöglichen. Weiterhin werden technische Schulden reduziert und der Experimentierfähigkeit keine Grenzen gesetzt.

Fazit

Data-Science-Projekte haben ihre speziellen Eigenschaften, die neue Herausforderungen in dem Vorgehen und zwischen IT, Engineering und Fachbereichen offenbaren. Die drei Dimensionen Data, Model und Code führen dazu, dass die Projekte komplex werden. Ein durchdachtes Staffing im Projekt, die Nähe zu Fachbereichen und Datenschutzbeauftragten sowie das geeignete Tooling für die automatisierte Daten- und Modellverwaltung führen dazu, die Risiken zu minimieren und heben die Geschwindigkeit des Projekts an. Weiterhin haben wir durch die strukturierte Herangehensweise mithilfe der Phasen die beste Erfahrung bei der Umsetzung der individuellen Data-Science-Projekte gemacht.

War dieser Beitrag hilfreich?

Beitrag teilen

Gefällt mir

Blog-Autor*in

Nico Axtmann

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Nico Axtmann

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

Noch vor kurzer Zeit mussten für den Einsatz von künstlicher Intelligenz (KI) unter großem Aufwand eigene KI-Modelle erstellt werden. Heute ist für viele Anwendungsfälle die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Machine Learning
Python

29.7.2020 | 11 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und Konstruktion eigener neuronaler Netze möglich. Heute ist die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken. So kann man ...

Cloud
Computer Vision
Data
Python
Machine Learning
Google Cloud
Künstliche Intelligenz

8.7.2020 | 11 Minuten Lesezeit

Nico Axtmann

Marcel Mikl

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und ausreichend Spezialwissen möglich. Hauptsächlich große Internet-Konzerne wie Google, Apple und Facebook hatten das Geld, die Daten und die Expertise, um ...

Data
Machine Learning
Künstliche Intelligenz

6.7.2020 | 7 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

Deployment von Machine-Learning-Modellen mit Seldon Core

In diesem Artikel sehen wir uns an, wie wir Machine-Learning- und Deep-Learning-Modelle mit Seldon Core deployen können. Seldon Core ist eine Open-Source-Plattform, um Modelle auf einem Kubernetes-Cluster in Betrieb zu nehmen. Bevor wir uns Seldon Core...

Softwarearchitektur
Data
Künstliche Intelligenz
Machine Learning

9.9.2019 | 7 Minuten Lesezeit

Nico Axtmann

Portability between deep learning frameworks – with ONNX

In recent years, the number of frameworks for deep learning has exploded. Companies such as Google, Facebook and Amazon have made their deep learning frameworks TensorFlow , PyTorch and MXNet available open-source or are actively involved in developing...

Data
Machine Learning
AI
Python

27.8.2019 | 6 Minuten Lesezeit

Nico Axtmann

Core ML – inference on iOS

In machine learning, we are training a model for a particular task, e.g. distinguishing dogs and cats in pictures. Inference refers to the application of the model. Most of the inference applications are addressed via a client-server API or used in batch...

AI
Data
iOS
Machine Learning
Mobile

19.8.2019 | 7 Minuten Lesezeit

Nico Axtmann

Inbetriebnahme eines scikit-learn-Modells mit ONNX und FastAPI

Dieser Artikel befasst sich mit dem Deployment eines Machine-Learning-Modells, das den Wert eines Hauses in Boston anhand gewisser Merkmale wie der Kriminalitätsrate des Bezirks und der Anzahl der Räume in einer Wohnung bestimmen kann. Im ersten Schritt...

Data
Python
Künstliche Intelligenz
Machine Learning

6.8.2019 | 3 Minuten Lesezeit

Nico Axtmann

Core ML – Inferenz unter IOS

Beim maschinellen Lernen wird ein Modell für eine gewisse Aufgabe wie bspw. das Unterscheiden von Hunden und Katzen auf Bildern trainiert. Die Inferenz bezeichnet die Anwendung des Modells. Ein Großteil der Inferenz-Anwendungen wird über eine Client-...

14.5.2019 | 8 Minuten Lesezeit

Nico Axtmann

Skalierbare Bildklassifizierung mit ONNX und AWS Lambda

In meinem Blogartikel ONNX – Portabilität von Deep-Learning-Modellen haben wir bereits ONNX kennengelernt und was es damit auf sich hat. Zur Erinnerung: ONNX ist ein Open Source geführter Standard, mit dem Modelle zwischen verschiedenen Deep-Learning...

13.5.2019 | 7 Minuten Lesezeit

Nico Axtmann

ONNX – Portabilität von Deep-Learning-Modellen

In den vergangenen Jahren ist die Anzahl an Frameworks für Deep Learning explodiert. Unternehmen wie Google, Facebook und Amazon haben ihre Deep Learning Frameworks TensorFlow , PyTorch und MXNet quelloffen zur Verfügung gestellt oder entwickeln aktiv...

Künstliche Intelligenz
Python

10.4.2019 | 6 Minuten Lesezeit

Nico Axtmann

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Green Cloud: Daten und Emissionen sparen

Das Internet produziert jährlich 900 Millionen Tonnen CO₂ – das ist deutlich mehr als Deutschland insgesamt emittiert. Hauptverantwortlich ist der immer weiter steigende Stromverbrauch beim Transport und der Speicherung von Daten. Wenn ihr kurz darüber...

Cloud
Green IT
Softwarearchitektur
Data

11.3.2024 | 5 Minuten Lesezeit

Dennis

Charge your APIs Volume 23: REST vs. gRPC

APIs dienen als Verbindungsstück zwischen Daten und Verarbeitung und erlauben uns damit, Daten im richtigen Kontext als Informationen zu interpretieren. Passende fachliche Themen sind dabei präsenter denn je und erreichen bald auch den Endverbraucher...

Java
Softwareentwicklung
Spring
Softwarearchitektur
API
Data

11.2.2024 | 7 Minuten Lesezeit

Sebastian Tiemann

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Die Bingo Bongo-Methode: ein spielerischer Software-Testing-Ansatz

Software-Testing kann zur Herausforderung werden. Aber was wäre, wenn es weniger wie Arbeit und mehr wie ein Spiel wäre? Etwas, das das ganze Team einbezieht und sogar Spaß macht? In diesem Beitrag stellen wir Bingo Bongo vor, einen spielerischen Ansatz...

Testing
Agile Methoden
Agilität

31.7.2023 | 4 Minuten Lesezeit

Benjamin Knauer

Große Sprachmodelle: Was ist ein LLM?

Große Sprachmodelle (Large Language Models oder LLM) haben in den letzten Jahren enorme Fortschritte gemacht und spielen eine entscheidende Rolle in verschiedenen Anwendungen. Aber was ist ein LLM? Es ist sinnvoll zu erklären, was ein „einfaches“ Sprachmodell...

Machine Learning

20.6.2023 | 4 Minuten Lesezeit

Elvira Siegel

Threat Modeling 101 – Wie fange ich eigentlich an?

In einem früheren Blogpost haben wir bereits erklärt, wie wichtig Awareness im Bereich IT-Security im agilen Projekt ist. Ein Kernthema war das Threat Modeling. Doch wie genau funktioniert das? Wie bewerte ich, welche Bereiche meiner Applikation unter...

Agilität
IT-Security
Softwareentwicklung

27.2.2023 | 14 Minuten Lesezeit

Kevin Peters

Bessere SQL-Datenpipelines mit dbt

SQL ist weiterhin aus der Datenanalyse nicht wegzudenken – es ist vergleichsweise einfach zu lernen und Anwender können es ohne zusätzliche Werkzeuge auf einer Datenbank ausführen. Entsprechend ist es bei vielen Datenanalysten und Engineers beliebt. ...

Data

22.2.2023 | 2 Minuten Lesezeit

Matthias Niehoff

Agile Basics: Kanban Boards richtig nutzen

Ein bekanntes Tool von Kanban ist das sog. Kanban Board. Es hat mehrere Spalten, die den Weg eines Items vom Start bis zur Fertigstellung markieren. In der einfachsten Form findet man beispielsweise die Spalten To Do, In Progress und Done. Leider hört...

Agile
Agilität
Agile Methoden

31.1.2023 | 3 Minuten Lesezeit

René Bohrenfeldt

Beyond the backlog: Scrum managen – Längerfristige Planung mit Jira Roadmaps

Viele aus der agilen Community zucken bei diesem Titel wahrscheinlich bereits zusammen. „Scrum managen“ – bitte was? Denn Scrum-Teams werden nicht gemanagt. Scrum als agiles Framework rückt das Team in den Mittelpunkt sämtlicher Produkt- und Projektaktivit...

Agile Methoden
Agilität
Agile

5.1.2023 | 4 Minuten Lesezeit

Lisa Hofmann

Höhere Business Agility durch den aktiven Umgang mit Push- und Pull-Systemen...

Im Rahmen agiler Transformationen entstehen häufig starke Reibungsflächen in der Ablauforganisation. Ein verbreitetes Beispiel ist das Aufeinandertreffen klassischer Projekt- bzw. Budgetplanungen auf der einen und einer agilen Arbeitsweise in den operativen...

Agilität
Agile
Agile Transformation
Change Management
Process Management

9.12.2022 | 10 Minuten Lesezeit

Timo Böhm

Gehirngerechte Trainings mit den 4Cs

Kürzlich habe ich ein Training zum Thema Agilität für die ReDI School in Berlin gegeben. An zwei Tagen habe ich den Studenten die Grundlagen der Agilität näher gebracht. Dabei habe ich mein Training mithilfe der 4Cs aus dem Buch "Training from the Back...

Agilität
Agile
Weiterbildung

9.11.2022 | 9 Minuten Lesezeit

René Bohrenfeldt

God save the team!?

Vom Mythos der langlaufenden und stabilen Teams: Ein Appell für dynamische Teams in agilen Organisationen Agilität ist ein Buzzword der aktuellen Zeit. Viele Unternehmen und Organisationen möchten agil sein, agil arbeiten oder agile Teams aufsetzen. ...

Agilität
Agile Transformation
Framework
Agile
Collaboration

2.11.2022 | 6 Minuten Lesezeit

Lisa Hofmann

Streaming Wikipedia mit Apache Kafka

Apache Kafka ist in aller Munde und entwickelt sich im Kontext von verteilten Systemen zum De-facto-Standard als Plattform für Event Streaming. Im Rahmen unserer OffProject Time (Weiterbildungszeit) haben wir uns die Plattform auch näher angeschaut und...

Kotlin
Data
Java
Messaging
Spring

15.8.2022 | 10 Minuten Lesezeit

Christoph Metzger

Felix Rieß

Mentale Gesundheit – Chancen und No-Nos als Facilitator

Spätestens seit re:Work wissen wir: Psychologische Sicherheit ist ein Schlüsselfaktor für erfolgreiche Teams. Wir bei der codecentric AG glauben darüber hinaus nicht erst seit Corona, dass mentale Gesundheit ein wichtiger Grundpfeiler dessen ist. Leider...

Agilität
Kultur

21.7.2022 | 5 Minuten Lesezeit

Sascha Masanneck

Myriam

Shift left security – Sicherheit ist Daily-Business

IT-Security ist ein Thema, das nicht ausschließlich InfoSec-Expertinnen angeht. Auch als Entwicklerin muss man diese Thematik auf dem Schirm haben. Security gehört zum grundlegenden Prozess der Softwareentwicklung und von Beginn an zum Daily-Business...

Agilität
IT-Security

19.7.2022 | 15 Minuten Lesezeit

Kevin Peters

Entscheidungen leichter gemacht mit HOT-Tests – eine Meinung

Intern haben wir eine Meeting-Reihe, bei der wir uns mit agilen Themen und Methoden beschäftigen. Eines dieser Themen ist das Fällen von Entscheidungen. Dazu haben wir uns mit Annie Dukes Buch „How To Decide “ beschäftigt und einen Vortrag von Marcus...

Agilität

18.7.2022 | 5 Minuten Lesezeit

Robert Meißner

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

In diesem Artikel möchte ich euch mit einem Python Jupyter Notebook zeigen, wie ihr Anwendungsfälle der Tourenoptimierung inklusive Nebenbedingungen lösen und visualisieren könnt. Außerdem zeige ich euch, wie ihr mit OpenStreetMaps die Route zwischen...

Data

21.6.2022 | 7 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

In diesem Artikel möchte ich euch zeigen, wie ihr Probleme der Tourenoptimierung in einem Python Jupyter Notebook lösen und visualisieren könnt. Am Beispiel eines Fahrradkurierdienst zeige ich außerdem, wie das Grundproblem um gängige Nebenbedingungen...

Data

16.6.2022 | 9 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung (1/3)

In vielen Unternehmen fallen täglich verschiedene Transportprozesse an. Klassische Beispiele sind die Optimierung von Warenein- und ausgängen, die Einsatzplanung von Servicetechnikern oder die optimale Reihenfolge der Auslieferung bei Lieferdiensten....

Data

12.6.2022 | 8 Minuten Lesezeit

Lukas Heidemann

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Kontakt

Absenden

Data Science in der Praxis: Häufige Fehler und Vorgehen

Data Science: Projekt-Dimensionen

Häufige Fehler bei Data-Science-Projekten

Zu konkrete Planung

Fehlendes Domänenwissen

Zu wenig Aufmerksamkeit für Datenschutz

Kein sichtbarer Return on Investment für Stakeholder

Manuelle Versionierung von Daten und Modellen

Wie setze ich Data-Science-Projekte erfolgreich um?

Fazit

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Deployment von Machine-Learning-Modellen mit Seldon Core

Portability between deep learning frameworks – with ONNX

Core ML – inference on iOS

Inbetriebnahme eines scikit-learn-Modells mit ONNX und FastAPI

Core ML – Inferenz unter IOS

Skalierbare Bildklassifizierung mit ONNX und AWS Lambda

ONNX – Portabilität von Deep-Learning-Modellen

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Weitere Artikel in diesem Themenbereich

Green Cloud: Daten und Emissionen sparen

Charge your APIs Volume 23: REST vs. gRPC

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Die Bingo Bongo-Methode: ein spielerischer Software-Testing-Ansatz

Große Sprachmodelle: Was ist ein LLM?

Threat Modeling 101 – Wie fange ich eigentlich an?

Bessere SQL-Datenpipelines mit dbt

Agile Basics: Kanban Boards richtig nutzen

Beyond the backlog: Scrum managen – Längerfristige Planung mit Jira Roadmaps

Höhere Business Agility durch den aktiven Umgang mit Push- und Pull-Systemen...

Gehirngerechte Trainings mit den 4Cs

God save the team!?

Streaming Wikipedia mit Apache Kafka

Mentale Gesundheit – Chancen und No-Nos als Facilitator

Shift left security – Sicherheit ist Daily-Business

Entscheidungen leichter gemacht mit HOT-Tests – eine Meinung

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

Einführung in die Welt der Tourenoptimierung (1/3)

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten