KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben und umsetzen

21.6.2021 | 12 Minuten Lesezeit

Heutzutage steht fast alles, was mit den Labels „künstliche Intelligenz (KI)“ oder „Machine Learning (ML)“ versehen ist, für Fortschritt. Seltsamerweise schließt diese Assoziation jedoch häufig die Themen Daten und Dateninfrastruktur nicht ausreichend mit ein, und das, obwohl ML-Systeme typischerweise in hohem Maße von einer geeigneten Dateninfrastruktur abhängig sind. Um tatsächlich Mehrwert mit einem ML-System zu erzeugen, sind insbesondere (automatisierte) Daten-Pipelines erforderlich, die das System solide in die IT-Landschaft integrieren.

Hinweis: Dieser Artikel erschien ursprünglich im Softwerker-Magazin Vol. 16. Das gesamte Heft kann hier als PDF heruntergeladen werden .

Eine Wahrheit über Data-Science-Projekte

Betrachten wir die folgende Situation: Ein Data-Science-Projekt startet mit einem Proof of Concept (PoC) und einem versierten Projektteam, das direkt anfängt, in schnellen Iterationen Erkenntnisse zu liefern. Nach Ablauf der Timebox des PoC ist es tatsächlich gelungen, vielversprechende Ergebnisse zu erzielen. So gibt es die Gelegenheit, diese Ergebnisse vor „wichtigen Entscheidungsträger*innen“ zu präsentieren. Nachdem das Projektteam die Präsentation mit Bravour gemeistert hat, wird immer deutlicher: Die Idee ist ein Volltreffer! Alle fühlen sich großartig.

Unter der Haube wurden die vielversprechenden Data-Science-Ergebnisse jedoch auf einem lokalen Rechner mit Daten-Dumps (CSV-Dateien oder Excel-Tabellen) aus mehreren Datenquellen erzielt. Die Daten-Dumps wurden vorab von einer SQL-Expertin mit einer speziellen Abfolge magischer SQL Queries sorgfältig von Hand erzeugt. Dieses Vorgehen ist oft richtig, und es ist sehr sinnvoll, zunächst mit Daten-Dumps zu arbeiten, um schnell Erkenntnisse zu erlangen. Das beschriebene Vorgehen ist aber auch zweifellos eine Abkürzung.

Die Abkürzung wird dann zum Problem, wenn sie nicht transparent ist. Noch schlimmer, wenn sie nicht so kommuniziert ist, dass der zugrunde liegende Trade-off von „den Entscheidungsträger*innen“ verstanden wurde. Denn der Trade-off für die schnellen Einsichten und Ergebnisse während des PoC besteht in der Regel darin, weder die zugrunde liegende Dateninfrastruktur noch den Aufbau geeigneter Daten-Pipelines während des PoC anzugehen. Spätestens nachdem nun alle die erfolgreiche Präsentation gesehen haben und jetzt sofort einen Mehrwert innerhalb weniger Tage erwarten, müssen wir der Wahrheit ins Auge sehen: Wir haben eine Abkürzung genommen. Bevor wir tatsächlich Mehrwert generieren können, müssen wir noch einiges nachlegen.

Eine schwere Bürde für Data-Science-Projekte

Da es, wie in unserer fiktiven Geschichte skizziert, möglich ist, kurzfristige, aber sichtbare Erfolge zu erzielen, treibt der KI-Hype Unternehmen oft dazu, eine Reihe von Data-Science-Projekte zu starten. Jedoch wird häufig nicht zeitgleich ein Bewusstsein dafür geschaffen, welche Implikationen der (gewünschte) Produktiveinsatz eines ML-Systems für die Dateninfrastruktur hat. Klar ist: Um Ideen zu validieren, müssen die potentiell bestehenden Unzulänglichkeiten der Infrastruktur nicht alle zuerst gelöst werden. Ein Problem entsteht aber regelmäßig dann, wenn sich nicht alle Beteiligten darüber im Klaren sind, dass die Entwicklung eines Ende-zu-Ende-Prototyps oder gar eines produktionstauglichen ML-Systems – je nach vorhandener Dateninfrastruktur – ein sehr anspruchsvoller nächster Schritt nach einem PoC sein kann.

Im schlimmsten Fall führt dies zu der bizarren Situation, dass ein Data-Science-Projektteam nach dem PoC vor der Aufgabe steht, die unternehmensweiten Herausforderungen in Sachen Daten und Dateninfrastruktur ganz nebenbei mit zu lösen. Bei dem (verzweifelten) Versuch, Mehrwert zu schaffen, sieht sich das Projektteam dabei mit unlösbaren Aufgaben konfrontiert und es gibt wenig oder gar kein Verständnis für die Schwierigkeiten des Teams bei den Stakeholdern und damit häufig auch keine Unterstützung. Dies führt regelmäßig zu Frustration beim Projektteam und letztlich zum Scheitern der einst so vielversprechenden Idee, da kein Mehrwert in der erwarteten Zeit erzeugt werden konnte.

Im übertragenen Sinne versucht das Team, einen Sportwagen (das State-of-the-Art-KI-Modell) auf einem Waldweg (der Dateninfrastruktur) zu fahren und alle Außenstehenden fragen sich, warum das Team nicht einfach in voller Geschwindigkeit fährt. So entsteht häufig der Eindruck, dass es einfach nicht möglich ist, mit Data-Science-Projekten tatsächlich einen Mehrwert zu generieren.

Daten – eine Frage der Einstellung

Historisch gesehen ist der Aufbau einer neuen Dateninfrastruktur mit großen Schmerzen für Unternehmen verbunden. Dies liegt daran, dass sie typischerweise mit enormen Investitionen von Zeit und Geld (und Nerven) verbunden ist. Darüber hinaus gibt es verschiedene Architekturen, z. B. Data Lakes (siehe hier und hier ), Data Lakehouses , Data Meshes und natürlich das klassische Data Warehouse mit jeweils unterschiedlichen Vorteilen und Kompromissen, die es zu berücksichtigen gilt.

Ein kleiner Exkurs: Data Warehouse, Data Lake, Data Mesh, Data Lakehouse
Das zentrale Data Warehouse wird klassisch zur Konsolidierung großer, strukturierter Datenmengen aus verschiedenen Quellen verwendet und deckt einen Großteil der Einsatzzwecke etwa aus dem Reporting und Controlling sehr gut ab. Die typischerweise darin enthaltenen strukturierten Daten sind jedoch einerseits oft ohne nennenswerte Historie und andererseits stark aggregiert und daher regelmäßig nicht ausreichend für Data-Science-Anwendungsfälle. Das dauerhafte Speichern großer Datenmengen in einer Data-Warehouse-Lösung ist meistens sehr teuer und damit unwirtschaftlich; hier liefert ein Data Lake einen möglichen Ausweg. Die Idee ist es, die großen (unstrukturierten) Datenmengen – wie z. B. Sensordaten – für potentielle Data-Science-Anwendungsfälle der Zukunft in günstigen Speicherformaten (oft in der Cloud) vorzuhalten. In Kombination mit passenden Data-Processing-Tools kann auf diese Weise ein Self- Service geschaffen werden, der es unterschiedlichen Nutzergruppen erlaubt, eigenständig und flexibel benötigte Daten nach ihren jeweiligen Wünschen zu untersuchen und passend weiterzuverarbeiten. In der Praxis kann der Data-Lake-Ansatz jedoch zu einem „Dump and forget“ aller verfügbaren Daten in den Data Lake führen. Damit ist es für potentielle Konsumenten der Daten – welche die Daten ggf. erst mit einer Verzögerung von Monaten oder Jahren verwenden wollen – häufig schwer bis unmöglich, die Daten ohne substantielle Hilfe selbständig zu verwenden. Unter anderem an diese Herausforderung knüpft die Idee des Data Meshes an. Hier wird u. a. die Verantwortung für die Qualität und Nutzbarkeit der Daten an die Produzenten der Daten übertragen. Eine Aufgabe dabei ist es, insbesondere den Wahrheitsgehalt und die Vertrauenswürdigkeit der Daten zu garantieren. So erhalten die Daten den Stellenwert eines (internen) Produkts, das den Usern (Konsumenten) möglichst anwenderfreundlich zur Verfügung gestellt wird. Orthogonal dazu steht die Idee des Lakehouse mit dem Ziel, die Konzepte von Data Lake und Data Warehouse zu einem gemeinsamen System zu verschmelzen. Das Zielsystem soll einerseits schnelle Exploration und Validierung potentieller Data-Science-Ideen unterstützen, aber andererseits auch ETL-Strecken von den Rohdaten bis zur aggregierten und strukturierten Sicht für Data Warehouses ermöglichen. Dabei setzen alle Anwendungen auf derselben Infrastruktur und insbesondere einer gemeinsamen Datenbasis auf.

Ein kleiner Exkurs: Data Warehouse, Data Lake, Data Mesh, Data Lakehouse

Das zentrale Data Warehouse wird klassisch zur Konsolidierung großer, strukturierter Datenmengen aus verschiedenen Quellen verwendet und deckt einen Großteil der Einsatzzwecke etwa aus dem Reporting und Controlling sehr gut ab. Die typischerweise darin enthaltenen strukturierten Daten sind jedoch einerseits oft ohne nennenswerte Historie und andererseits stark aggregiert und daher regelmäßig nicht ausreichend für Data-Science-Anwendungsfälle.

Das dauerhafte Speichern großer Datenmengen in einer Data-Warehouse-Lösung ist meistens sehr teuer und damit unwirtschaftlich; hier liefert ein Data Lake einen möglichen Ausweg. Die Idee ist es, die großen (unstrukturierten) Datenmengen – wie z. B. Sensordaten – für potentielle Data-Science-Anwendungsfälle der Zukunft in günstigen Speicherformaten (oft in der Cloud) vorzuhalten. In Kombination mit passenden Data-Processing-Tools kann auf diese Weise ein Self- Service geschaffen werden, der es unterschiedlichen Nutzergruppen erlaubt, eigenständig und flexibel benötigte Daten nach ihren jeweiligen Wünschen zu untersuchen und passend weiterzuverarbeiten.

In der Praxis kann der Data-Lake-Ansatz jedoch zu einem „Dump and forget“ aller verfügbaren Daten in den Data Lake führen. Damit ist es für potentielle Konsumenten der Daten – welche die Daten ggf. erst mit einer Verzögerung von Monaten oder Jahren verwenden wollen – häufig schwer bis unmöglich, die Daten ohne substantielle Hilfe selbständig zu verwenden. Unter anderem an diese Herausforderung knüpft die Idee des Data Meshes an. Hier wird u. a. die Verantwortung für die Qualität und Nutzbarkeit der Daten an die Produzenten der Daten übertragen. Eine Aufgabe dabei ist es, insbesondere den Wahrheitsgehalt und die Vertrauenswürdigkeit der Daten zu garantieren. So erhalten die Daten den Stellenwert eines (internen) Produkts, das den Usern (Konsumenten) möglichst anwenderfreundlich zur Verfügung gestellt wird.

Orthogonal dazu steht die Idee des Lakehouse mit dem Ziel, die Konzepte von Data Lake und Data Warehouse zu einem gemeinsamen System zu verschmelzen. Das Zielsystem soll einerseits schnelle Exploration und Validierung potentieller Data-Science-Ideen unterstützen, aber andererseits auch ETL-Strecken von den Rohdaten bis zur aggregierten und strukturierten Sicht für Data Warehouses ermöglichen. Dabei setzen alle Anwendungen auf derselben Infrastruktur und insbesondere einer gemeinsamen Datenbasis auf.

Den eigentlichen Kern und damit das Fundament zur Realisierung der durch eine der Architekturen in Aussicht gestellten Verbesserung sind jedoch ausdrücklich nicht die technischen Feinheiten. Denn im Kern geht es um die Frage, welchen Stellenwert Daten im Unternehmen haben und insbesondere darum, den Umgang und die Bedeutung mit und von Daten im Unternehmen zu verändern. Dieser Wandel ist wahrscheinlich der wichtigste Schritt bei der Umsetzung der Architekturen und damit entscheidend dabei, mit Data-Science-Projekten dauerhaft Mehrwert zu generieren.
Die Erkenntnis, dass die Etablierung einer geeigneten „Data Culture“ im Unternehmen den zentralen Schritt in Richtung Mehrwert mit ML-Systemen darstellt, ist zwar nicht neu (wie man z. B. hier , hier , hier und hier sehen kann), aber nach unserer Beobachtung noch nicht ausreichend in der Breite adaptiert.
Dabei gibt es jedoch (mindestens) zwei Gründe, die für ein Umdenken beim Thema Daten sprechen.

1. Schnellere Zykluszeit für die Validierung von Ideen

Es liegt auf der Hand, dass ein PoC (wie oben beschrieben) schnell erste Erkenntnisse darüber liefert, ob eine Idee vielversprechend ist oder nicht. Ohne eine geeignete Dateninfrastruktur ist es jedoch in der Regel schwierig und kostspielig, eine Idee anschließend auch mittels eines Ende-zu-Ende-Prototyps zu validieren.

Dies führt in der Regel zu langwierigen Diskussionen darüber, ob und wann mit der Validierung welcher Idee begonnen werden soll, ohne in dieser Zeit tatsächlich wertvolle Erkenntnisse über die Ideen selbst zu gewinnen. Dabei ermöglicht es eine geeignete Dateninfrastruktur insbesondere durch schnelle Ende-zu-Ende-Validierung und Experimente, Ideen schneller zu verwerfen. So muss über diese Ideen nicht ständig neu diskutiert werden und der Fokus kann leichter auf potentiell erfolgreiche Ideen gelegt werden. Die grundsätzliche Fähigkeit, Ideen mit schnellen Ende-zu-Ende-Prototypen und Experimenten zu validieren, ist insbesondere für die Entwicklung erfolgreicher ML-Systeme wichtig, da diese typischerweise aus vielen beweglichen Teilen bestehen und sich das System häufig über mehrere Teile des Unternehmens erstreckt.

Für ein Ende-zu-Ende-System müssen (Roh-)Daten geeignet aufbereitet werden, ein passendes ML-Modell entwickelt, trainiert und deployt werden und schließlich die durch das Modell generierten Erkenntnisse genau dort in einer brauchbaren Form zur Verfügung gestellt werden, wo diese schließlich einen Mehrwert liefern können. Darüber hinaus gilt es, noch weitere Herausforderungen wie Monitoring, Versionierung und Validierung mitzudenken.

2. Der eigentliche Wert ist die Fähigkeit, ML-Algorithmen produktiv einzusetzen

Typischerweise gibt es in Unternehmen eine Fülle von Ideen, wie Data Science und Machine Learning genutzt werden könnten, um Mehrwert zu erzeugen. Meistens sind auch bekannte ML-Algorithmen vorhanden, die bereits von anderen erfolgreich verwendet werden, um die gleiche oder eine ähnliche Idee umzusetzen. Es gibt daher oft berechtigten Grund zu der Annahme, dass dieser bekannte Algorithmus mindestens gut genug für eine erste Ver- sion des gewünschten ML-Systems ist.

Tatsächlich sind viele State-of-the-Art-Algorithmen und ML-Modelle heutzutage frei verfügbar:

XGBoost, ein effizientes, flexibles und portables Gradient- Boosting-Framework, welches das Rückgrat für zahlreiche erfolgreiche ML-Systeme bildet.
ResNet, ein KI-Modell für moderne Bildklassifikation, ist in verschiedenen Open-Source-Frameworks wie Tensorflow und PyTorch implementiert und direkt einsatzbereit.
BERT, ein KI-Modell für Natural Language Processing, ebenfalls Open Source und in PyTorch and TensorFlow frei verfügbar.
Darüber hinaus stehen viele Algorithmen und Modelle auch „as a service“ bei Public-Cloud-Anbietern zur Verfügung und können dort direkt eingesetzt und oft sogar auf eigenen Daten feinjustiert werden.

Zur Umsetzung der vorhandenen Ideen fehlt daher häufig nicht das Wissen über einen geeigneten Algorithmus, sondern es fehlt die Verfügbarkeit von Daten und insbesondere die Fähigkeit, den Algorithmus schmerzlos als ML-System Ende-zu-Ende in die Unternehmensinfrastruktur zu integrieren. Diese Punkte entscheiden am Ende daher regelmäßig darüber, ob mit einer Idee ein Mehrwert erzeugt werden kann – und nicht, ob ein passender Algorithmus gefunden wurde.

Daten neu denken

Wie schon erwähnt, ist das Überdenken von Daten und Dateninfrastruktur kein (rein) technisches Problem und beginnt typischerweise mit den Fragen:

Welche Daten sind verfügbar?
Welche Qualität haben die Daten?
Wem gehören die Daten?
Wer kontrolliert den Zugriff auf die Daten?
Wer ist für die Daten und ihre Qualität verantwortlich?
Wie ist die Beziehung zwischen Datenproduzenten und Datenkonsumenten?
Wie kann diese (entscheidende) Beziehung verbessert werden?

Ein Hauptantrieb für die Beantwortung dieser Fragen besteht darin, Wege zu finden, um die gesamte End-to-End-Zykluszeit zur Entwicklung von ML-Systemen zu reduzieren – indem beispielsweise die Verfügbarkeit, die Verarbeitungsgeschwindigkeit und die Qualität der Daten sukzessive verbessert werden.

In den meisten Fällen empfehlen wir, ausdrücklich nicht zu versuchen, alle Infrastrukturprobleme im Voraus zu lösen und danach mit Data-Science-Projekten zu starten. Im Gegenteil: Viele Schwierigkeiten werden erst offenbar, sobald die ersten ML-Systeme entwickelt werden, und sind vorab unbekannt. Daher ist es ist meist unmöglich, geeignete Lösungen für diese Schwierigkeiten zu finden, ohne konkrete Anwendungen zu implementieren und dabei zu lernen.

Letztlich gilt es, das Thema Daten in großem Maßstab zu überdenken, aber von Use Case zu Use Case im Kleinen umzusetzen. Dies ermöglicht zum einen die Validierung verschiedener technischer Ansätze. Zum anderen (und das ist wahrscheinlich wichtiger) erlaubt es uns, unsere Denkweise über die Bedeutung von Daten Schritt für Schritt zu ändern. In diesem Stadium bietet die Nutzung einer Cloud-Infrastruktur eine gute Möglichkeit, schnell und ohne große Vorlaufzeit und Anfangsinvestition zu arbeiten. Der Schwerpunkt liegt hier zunächst auf der Ende-zu-Ende-Umsetzung von Use Cases und insbesondere auf der Entwicklung produktionstauglicher ML-Systeme. Sobald tatsächlich mehrere Use Cases umgesetzt sind und einen Mehrwert schaffen, kann eine Vereinheitlichung der zugrunde liegenden Dateninfrastruktur möglicherweise einen zusätzlichen Mehrwert bieten.

Data-Science-Projekte neu denken

Data-Science-Projekte werden häufig mit einem Team aus Data Scientists gestartet. Während das auf den ersten Blick sinnvoll erscheint, verbergen sich in der Praxis hinter dem Begriff Data Scientist oft die unterschiedlichsten Skill Sets. Regelmäßig führt dies dazu, dass im Projektteam die Schwerpunkte der Fähigkeiten auf der Erstellung von ML-Modellen und deren Optimierung liegen, während die Themen Softwareentwicklung, Data Engineering und Produktentwicklung nur schwach vertreten sind.

In diesem Fall ist es häufig nicht zu erwarten, dass das Projektteam die verschiedenen Trade-offs, die im PoC eingegangen wurden und insbesondere deren Implikationen auf die Weiterentwicklung der Idee – etwa in Richtung eines Ende-zu-Ende Prototyps – transparent in Richtung „der Entscheidungsträger*innen“ kommunizieren kann. Zudem stellt die eigentliche Entwicklung eines solchen Prototyps das Team in vielen Fällen vor eine schwer lösbare Aufgabe, und es ist oft schlicht nicht zu erwarten, dass so ein schlanker Prototyp entsteht, der später schmerzlos iterativ angepasst werden kann.

Fehlt ausreichend Expertise für Produktentwicklung im Team, gelingt es in vielen Fällen zudem nicht, eine belastbare Produktvision für die Data-Science-Idee zu erarbeiten. Oft führt dies dazu, dass in Präsentationen vor „den Entscheidungsträger*innen“ der Fokus auf dem ML-Modell und den generellen Modell-Metriken liegt, wohingegen die Fragen „Was muss alles passieren, dass Geld verdient werden kann?“ und „Wie genau führen die Erkenntnisse des Modells nun eigentlich zu Mehrwert?“ zu stark in den Hintergrund rücken.

Wir empfehlen daher, Data-Science-Projekte in der Regel ausdrücklich nicht mit einem PoC und der Frage „Wie gut ist es möglich, mit KI XYZ zu erreichen?“ zu starten, sondern sich von Anfang an die Frage „Was ist notwendig, um mit der Idee XYZ einen Mehrwert zu generieren?“ zu stellen. Bei der Beantwortung spielt das KI-Modell natürlich eine Rolle, ist aber dann nur ein Faktor neben allen anderen Herausforderungen, die gemeistert werden müssen, um Mehrwert zu generieren. Entscheidend ist es dabei, das Team so aufzustellen, dass alle notwendigen Fähigkeiten vorhanden sind, um die ursprüngliche Idee wirklich Ende-zu-Ende validieren zu können. Ein Modell alleine ist hierfür in vielen Fällen nicht ausreichend.

Zusammenfassung

Während alle über KI sprechen, braucht es am Ende viel mehr als Data Science und ML-Algorithmen, um produktionstaugliche ML-Systeme zu entwickeln und Mehrwert zu schaffen. Insbesondere setzt nachhaltiger Erfolg mit ML-Systemen und KI mehr voraus als clevere Algorithmen – er erfordert eine Änderung der Einstellung zum Thema Daten, Dateninfrastruktur und einen ganzheitlichen Blick auf die mögliche Wertschöpfungskette des ML-Systems. Der wahre Wert für Unternehmen im Kontext von ML-Systemen liegt am Ende meistens nicht im Algorithmus, sondern in den zugrunde liegenden Daten und der Fähigkeit, diese Algorithmen schnell in Form eines ML-Systems auf der Dateninfrastruktur umzusetzen.

Ein Big-Bang-Ansatz, um die Dateninfrastruktur zu ändern oder damit zu beginnen, alle verfügbaren Daten an einem einzigen Ort zusammenzufassen, ist oft ein unnötig schwieriges Unterfangen. Meistens ist es erfolgversprechender, das Thema Daten erst einmal zu überdenken – von Use Case zu Use Case – und unterwegs Schritt für Schritt eine geeignete Dateninfrastruktur aufzubauen und insbesondere eine neue Datenkultur zu schaffen.

War dieser Beitrag hilfreich?

Beitrag teilen

Gefällt mir

Blog-Autor*in

Marcel Mikl

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Marcel Mikl

DISH-O-TRON – Train that vision model!

With this article we continue our endeavor of building dish-o-tron – an AI system designed to prevent the sudden appearance of dirty dishes in the community kitchen sink, and hence turning the community kitchen into a place of peace and harmony. This...

AI
Computer Vision

11.10.2020 | 11 Minuten Lesezeit

Marcel Mikl

Oliver Moser

DISH-O-TRON – Gather that DATA you must!

This is the second article in our dish-o-tron series (a non-standard Deep Learning tutorial) in which we tackle one of the biggest problems in community kitchens: coming across someone else’s dirty dishes. We are facing this problem by building a state...

AI
Computer Vision
Machine Learning

24.9.2020 | 11 Minuten Lesezeit

Marcel Mikl

Oliver Moser

DISH-O-TRON – No more dirty dishes thanks to AI

Sadly, to tell you the truth, doing dishes is still a thing. However, so far most of our readers still like our non-standard Deep Learning tutorial. Typically, AI is demonstrated as solving various toy problems. AI plays chess and Go, AI plays video ...

10.9.2020 | 7 Minuten Lesezeit

Marcel Mikl

Oliver Moser

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

Noch vor kurzer Zeit mussten für den Einsatz von künstlicher Intelligenz (KI) unter großem Aufwand eigene KI-Modelle erstellt werden. Heute ist für viele Anwendungsfälle die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Machine Learning
Python

29.7.2020 | 11 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und Konstruktion eigener neuronaler Netze möglich. Heute ist die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken. So kann man ...

Cloud
Computer Vision
Data
Python
Machine Learning
Google Cloud
Künstliche Intelligenz

8.7.2020 | 11 Minuten Lesezeit

Nico Axtmann

Marcel Mikl

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und ausreichend Spezialwissen möglich. Hauptsächlich große Internet-Konzerne wie Google, Apple und Facebook hatten das Geld, die Daten und die Expertise, um ...

Data
Machine Learning
Künstliche Intelligenz

6.7.2020 | 7 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

Thinking AI means re-thinking data

While doing AI is sexy and cool, data infrastructure is typically not considered any of this. However, production-grade machine learning applications heavily rely on proper data infrastructure. Hence, in order to generate actual business value, solid...

AI
Big Data
Data
Machine Learning

27.5.2020 | 7 Minuten Lesezeit

Marcel Mikl

Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert

Warum gelingt es Data-Science-Initiativen häufig nicht, einen echten Mehrwert zu schaffen? Wir haben einige Ursachen dafür ausgemacht. In diesem Blogpost stellen wir vier typische Fallen für Data-Science-Projekte vor und geben Tipps, wie Du sie umschiffen...

Machine Learning
Data
Künstliche Intelligenz
Softwareentwicklung

27.3.2020 | 11 Minuten Lesezeit

Marcel Mikl

Great Expectations: Validating datasets in machine learning pipelines

Typically your favorite machine learning model doesn’t care whether or not your input dataset is professionally and technically correct. However, particularly for machine learning algorithms, the all-encompassing truth garbage in, garbage out holds true...

Python
Data
Machine Learning

17.2.2020 | 6 Minuten Lesezeit

Marcel Mikl

Remote training with GitLab-CI and DVC

In many Data Science projects there is a point in time where the workstation under your desk is not the ideal machine to perform the model training anymore. More potent processors and GPUs are required, e.g. a suitable server in your company’s rack or...

Git
Machine Learning
CI/CD
AI
GitLab

27.1.2020 | 15 Minuten Lesezeit

Marcel Mikl

Bert Besser

E-Mail-Klassifizierung mit SpaCy

Noch vor kurzer Zeit war E-Mail-Klassifikation mittels Deep Learning nur mit Spezialwissen und ausreichend Data Science Know-how möglich. Heute existieren sehr gute Open-Source-Bibliotheken mit fertigen Deep-Learning-Modellen, welche sehr weit optimiert...

Data
Machine Learning

28.4.2019 | 8 Minuten Lesezeit

Marcel Mikl

Kunden-E-Mails effizient verarbeiten – mit künstlicher Intelligenz

Einleitung Künstliche Intelligenz (KI) findet sich heutzutage scheinbar überall. Bereits ohne den derzeitigen Hype-Faktor um KI ist der Begriff nur schwer zu greifen. Viele Unternehmen sehen sich unter Zugzwang, KI als neue Technologie einzusetzen und...

Data
Künstliche Intelligenz

7.4.2019 | 7 Minuten Lesezeit

Marcel Mikl

Oliver Moser

Wie trainiert man eigentlich neuronale Netze?

Neuronale Netze sind für Außenstehende häufig von einer mystischen Aura umgeben. Sie werden regelmäßig in Verbindung mit menschlichen Gehirnen gebracht, und ihnen wird eine sich verselbständigende Intelligenz zugeschrieben. Das macht sie für viele mysteriös...

Künstliche Intelligenz

27.8.2018 | 8 Minuten Lesezeit

Marcel Mikl

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Green Cloud: Daten und Emissionen sparen

Das Internet produziert jährlich 900 Millionen Tonnen CO₂ – das ist deutlich mehr als Deutschland insgesamt emittiert. Hauptverantwortlich ist der immer weiter steigende Stromverbrauch beim Transport und der Speicherung von Daten. Wenn ihr kurz darüber...

Cloud
Green IT
Softwarearchitektur
Data

11.3.2024 | 5 Minuten Lesezeit

Dennis

Charge your APIs Volume 23: REST vs. gRPC

APIs dienen als Verbindungsstück zwischen Daten und Verarbeitung und erlauben uns damit, Daten im richtigen Kontext als Informationen zu interpretieren. Passende fachliche Themen sind dabei präsenter denn je und erreichen bald auch den Endverbraucher...

Java
Softwareentwicklung
Spring
Softwarearchitektur
API
Data

11.2.2024 | 7 Minuten Lesezeit

Sebastian Tiemann

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Große Sprachmodelle: Was ist ein LLM?

Große Sprachmodelle (Large Language Models oder LLM) haben in den letzten Jahren enorme Fortschritte gemacht und spielen eine entscheidende Rolle in verschiedenen Anwendungen. Aber was ist ein LLM? Es ist sinnvoll zu erklären, was ein „einfaches“ Sprachmodell...

Machine Learning

20.6.2023 | 4 Minuten Lesezeit

Elvira Siegel

Bessere SQL-Datenpipelines mit dbt

SQL ist weiterhin aus der Datenanalyse nicht wegzudenken – es ist vergleichsweise einfach zu lernen und Anwender können es ohne zusätzliche Werkzeuge auf einer Datenbank ausführen. Entsprechend ist es bei vielen Datenanalysten und Engineers beliebt. ...

Data

22.2.2023 | 2 Minuten Lesezeit

Matthias Niehoff

Personaltrends 2023

Die Entwicklungen der letzten Jahre bringen für Beschäftigte und Organisationen viele Veränderungen. Unser Sicherheits- und Werteverständnis, aber auch die Art, wie wir arbeiten, haben sich verändert. Diese Veränderungen sind im Personalbereich deutlich...

HR
Kultur

31.12.2022 | 4 Minuten Lesezeit

Olga Spivak

Streaming Wikipedia mit Apache Kafka

Apache Kafka ist in aller Munde und entwickelt sich im Kontext von verteilten Systemen zum De-facto-Standard als Plattform für Event Streaming. Im Rahmen unserer OffProject Time (Weiterbildungszeit) haben wir uns die Plattform auch näher angeschaut und...

Kotlin
Data
Java
Messaging
Spring

15.8.2022 | 10 Minuten Lesezeit

Christoph Metzger

Felix Rieß

Mentale Gesundheit – Chancen und No-Nos als Facilitator

Spätestens seit re:Work wissen wir: Psychologische Sicherheit ist ein Schlüsselfaktor für erfolgreiche Teams. Wir bei der codecentric AG glauben darüber hinaus nicht erst seit Corona, dass mentale Gesundheit ein wichtiger Grundpfeiler dessen ist. Leider...

Agilität
Kultur

21.7.2022 | 5 Minuten Lesezeit

Sascha Masanneck

Myriam

Erfahrungsbericht: Bachelorarbeit bei codecentric

Um mein Software-Engineering-Studium an der Fontys University of Applied Sciences abzuschließen, habe ich 2022 meine Bachelorarbeit bei der codecentric AG geschrieben. In diesem Blogpost möchte ich von meinen Erfahrungen berichten.Nachdem ich bei einem...

Community
Kultur

5.7.2022 | 3 Minuten Lesezeit

Paul Severin

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

In diesem Artikel möchte ich euch mit einem Python Jupyter Notebook zeigen, wie ihr Anwendungsfälle der Tourenoptimierung inklusive Nebenbedingungen lösen und visualisieren könnt. Außerdem zeige ich euch, wie ihr mit OpenStreetMaps die Route zwischen...

Data

21.6.2022 | 7 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

In diesem Artikel möchte ich euch zeigen, wie ihr Probleme der Tourenoptimierung in einem Python Jupyter Notebook lösen und visualisieren könnt. Am Beispiel eines Fahrradkurierdienst zeige ich außerdem, wie das Grundproblem um gängige Nebenbedingungen...

Data

16.6.2022 | 9 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung (1/3)

In vielen Unternehmen fallen täglich verschiedene Transportprozesse an. Klassische Beispiele sind die Optimierung von Warenein- und ausgängen, die Einsatzplanung von Servicetechnikern oder die optimale Reihenfolge der Auslieferung bei Lieferdiensten....

Data

12.6.2022 | 8 Minuten Lesezeit

Lukas Heidemann

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Die Corona-Krise ist weiterhin in aller Munde und wird uns mit hoher Wahrscheinlichkeit noch etwas länger begleiten. Wie man aus unterschiedlichen Statistiken erfährt, schwanken die Fallzahlen weiter und sorgen für zusätzliche Restriktionen. Diese werden...

Computer Vision
Künstliche Intelligenz
IoT
Machine Learning

13.12.2021 | 7 Minuten Lesezeit

Michel Ehmen

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Die Qualität bzw. Nützlichkeit von Machine-Learning-Modellen lässt sich mit Hilfe von Testdaten und Metriken bewerten. Allerdings in welchem Umfang? Manuell, automatisiert, einmalig, regelmäßig? Manuell lassen sich die ersten Modelle als Ergebnis eines...

Data
Machine Learning
Softwareentwicklung
CI/CD

7.12.2021 | 7 Minuten Lesezeit

Berthold Schulte

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Machine Learning (ML) erzeugt erst dann realen Mehrwert, wenn es in Produktion benutzt wird. Allerdings kann die Zeitspanne zwischen der Entwicklung eines belastbaren Modells und dessen Einsatz frustrierend lange sein. Insbesondere in schnelllebigen ...

Agile Methoden
Cloud
Machine Learning

26.7.2021 | 5 Minuten Lesezeit

Timo Böhm

Niklas Haas

Schnelles Training eines Recommendation-Modells durch BigQuery ML

Machine Learning (ML) kann nur durch Modelle in der Produktion Business Value erzeugen. Allerdings kann die Zeitspanne zwischen der Entwicklung der nächsten Iteration eines Modells und dessen Einsatz in einer Produktionsumgebung massiv sein. Dies gilt...

Accelerate
Cloud
Data
Google Cloud
Machine Learning

26.7.2021 | 11 Minuten Lesezeit

Niklas Haas

Timo Böhm

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Bei klassischen Machine-Learning-(ML-)Projekten beschäftigen sich Data Scientists häufig längere Zeit (mehrere Monate) mit der Entwicklung eines ML-Modells. Dabei werden hohe Kosten verursacht und die Zeit, bis ein erstes Modell zur Verfügung steht, ...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Google Cloud
Machine Learning

17.5.2021 | 5 Minuten Lesezeit

Nils Bauroth

Sven Rediske

Technologien lösen keine Probleme ― es sind die Menschen dahinter

Software zu entwickeln bedeutet, Mehrwert für den Kunden zu schaffen. Zu oft wird hierbei der menschliche Faktor im System missachtet. Stefanie Hasler, Senior Fullstack Developerin bei codecentric, gibt einen kleinen Einblick auf ihre Sicht der Dinge...

Künstliche Intelligenz
Softwareentwicklung
Remote Work
HR
Collaboration
Kultur

22.3.2021 | 6 Minuten Lesezeit

Kathrin Schaugg

Stefanie Hasler

Digitalisierung unterstützt Inklusion – Vorfreude auf die DeafIT 2021

„Sprichst du mit jemandem in einer Sprache, die er versteht, so erreichst du seinen Kopf. Sprichst du mit ihm in seiner eigenen Sprache, so erreichst du sein Herz.“ – Nelson MandelaDiesen Freitag und Samstag (12.-13.3.) sind auch wir bei der remote DeafIT...

Kultur
Frontend
JavaScript
Agile Methoden
Community
Barrierefreiheit

11.3.2021 | 3 Minuten Lesezeit

Agnes Köhler

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Kontakt

Absenden

KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben und umsetzen

Eine Wahrheit über Data-Science-Projekte

Eine schwere Bürde für Data-Science-Projekte

Daten – eine Frage der Einstellung

1. Schnellere Zykluszeit für die Validierung von Ideen

2. Der eigentliche Wert ist die Fähigkeit, ML-Algorithmen produktiv einzusetzen

Daten neu denken

Data-Science-Projekte neu denken

Zusammenfassung

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

DISH-O-TRON – Train that vision model!

DISH-O-TRON – Gather that DATA you must!

DISH-O-TRON – No more dirty dishes thanks to AI

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Thinking AI means re-thinking data

Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert

Great Expectations: Validating datasets in machine learning pipelines

Remote training with GitLab-CI and DVC

E-Mail-Klassifizierung mit SpaCy

Kunden-E-Mails effizient verarbeiten – mit künstlicher Intelligenz

Wie trainiert man eigentlich neuronale Netze?

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Weitere Artikel in diesem Themenbereich

Green Cloud: Daten und Emissionen sparen

Charge your APIs Volume 23: REST vs. gRPC

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Große Sprachmodelle: Was ist ein LLM?

Bessere SQL-Datenpipelines mit dbt

Personaltrends 2023

Streaming Wikipedia mit Apache Kafka

Mentale Gesundheit – Chancen und No-Nos als Facilitator

Erfahrungsbericht: Bachelorarbeit bei codecentric

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

Einführung in die Welt der Tourenoptimierung (1/3)

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Schnelles Training eines Recommendation-Modells durch BigQuery ML

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Technologien lösen keine Probleme ― es sind die Menschen dahinter

Digitalisierung unterstützt Inklusion – Vorfreude auf die DeafIT 2021

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten