SPRACHE

Fraud-Analyse mit Data-Science-Techniken

5.9.2017 | 9 Minuten Lesezeit

Was ist Fraud und was macht es für Data Science interessant?

Im Zusammenhang mit Data Science beschreibt das englische Wort „Fraud“ in der Regel Betrug im Online-, Kreditkarten- oder Versicherungsgeschäft. Betrugsversuche bei Geschäftsabschlüssen gibt es seitdem Menschen miteinander Handel treiben. Aber gerade durch die starke Zunahme von Online-Transaktionen hat sich für Betrüger ein neues breites Feld aufgetan. Fraud ist inzwischen zu einem weit verbreiteten Problem im E-Commerce geworden, und Firmen investieren viele Ressourcen, um ihn zu erkennen und zu verhindern.

Traditionelle Herangehensweisen zur Fraud-Prävention basieren auf durch Experten festgelegten Regeln; erfüllt eine Transaktion eine oder mehrere dieser Regeln, wird sie geflaggt. Ein Nachteil dieses Systems ist, dass es unflexibel ist und nur langsam auf neue Betrugsmaschen reagiert.
Die moderne Alternative ist, die großen Datenmengen, die bei Online-Transaktionen anfallen, zu sammeln und für die Fraud-Erkennung zu nutzen. In solchen Anwendungsfällen sind Data-Science- und Machine-Learning-Techniken, wie Deep Neural Networks, die offensichtliche Lösung!

Hier zeige ich ein Beispiel dafür, wie Data-Science-Techniken genutzt werden können, um Fraud in Finanztransaktionen zu erkennen. Ich werde dabei einen Einblick in Fraud-Analyse-Methoden geben, der für Laien verständlich sein soll.

Synthetisierte Finanz-Datensätze für Fraud-Erkennung

Ein synthetisierter Finanz-Datensatz für Fraud-Erkennung ist bei Kaggle frei verfügbar. Er wurde anhand mehrerer echter Datensätze synthetisiert, um Standarddaten aus finanziellen Transaktionen möglichst realistisch darzustellen; wir bekommen dabei Informationen über 6.362.620 Transaktion in einem 30-tägigen Zeitraum (siehe Kaggle für Details und weitere Informationen).

Indem wir uns ein paar der wichtigsten Variablen (auch Feature genannt) ansehen, bekommen wir bereits ein Gefühl für die Daten. Die beiden nachstehenden Abbildungen zeigen zum Beispiel, dass es bei betrügerischen Transaktionen tendenziell um größere Summen Geld geht. Wenn wir uns zusätzlich die Art der Transaktion angucken, stellen wir außerdem fest, dass Fraud nur in Transfers und Cash-Out-Transaktionen vorkommt. Diese Information können wir nutzen, wenn wir die Daten für Machine-Learning-Modelle vorbereiten.

Betrügerische Transaktionen involvieren tendenziell größere Summen Geld. Diese Abbildung zeigt die Verteilung der transferierten Geld-Summen (log + 1) in Fraud (Class = 1) und regulären (Class = 0) Transaktionen.

Fraud kommt nur in Transfers und Cash-Out-Transaktionen vor. Diese Abbildung zeigt die Verteilung der transferierten Geld-Summen (log + 1) in verschiedenen Transaktionsarten bei Fraud (Class = 1) und regulären (Class = 0) Transaktionen.

Dimensionalitätsreduktion

Für die Vorbereitung von Machine-Learning-Analysen sind Dimensionalitätsreduktion-Techniken hilfreiche Werkzeuge, um verborgene Muster in hoch-dimensionalen Datensätzen sichtbar zu machen. Darüber hinaus können wir sie nutzen, um die Anzahl an Features für das Machine Learning zu reduzieren ohne dabei essentielle Strukturen in den Daten zu verlieren. Ähnliche Herangehensweisen nutzen Clustering-Algorithmen, wie zum Beispiel k-Means Clustering.

Die am häufigsten verwendete Technik zur Dimensionalitätsreduktion ist die sogenannte „Principal Component Analyse“ (PCA). PCA erlaubt es uns, lineare Beziehungen zwischen Features in unseren Daten zu erkennen. Die erste Dimension, auch erste Principal Component (PC) genannt, spiegelt die größte Variation in unseren Daten wider, gefolgt von der zweiten PC mit der zweitgrößten Variation und so weiter. Wenn wir die ersten beiden Dimensionen in einem Streudiagramm gegeneinander auftragen, sehen wir Muster in unseren Daten: je unterschiedlicher zwei Proben in unserem Datensatz, desto größer ihr Abstand in der Abbildung. Allerdings ist PCA nicht in der Lage, komplexere Mustere in Daten zu finden. Für nicht-lineare Beziehungen zwischen Features können wir t-Distributed Stochastic Neighbor Embedding (t-SNE) verwenden. Im Gegensatz zu PCA zeigt t-SNE nicht nur die Unterschiedlichkeit von Proben, sondern zieht auch ihre Ähnlichkeit in Betracht, indem ähnliche Proben im Streudiagramm näher beieinander liegen. Dieser Unterschied mag nicht besonders gravierend klingen, aber wenn wir die beiden nachstehenden Abbildungen vergleichen, sehen wir, dass es deutlich einfacher ist, Cluster von Fraud-Fällen mit t-SNE zu finden als mit PCA. Beide Techniken können im Zusammenhang mit Machine Learning verwendet werden.

In dieser Beispielanalyse nutze ich Dimensionalitätsreduktion und Visualisierung zur Überprüfung der gelabelten Trainingsdaten. Da wir davon ausgehen können, dass nicht alle Fraud-Fälle auch als solche identifiziert wurden (und daher falsche Label zugewiesen bekommen haben), kann es sinnvoll sein, sich Proben, die nicht als Fraud gekennzeichnet wurden, aber in Clustern mit Fraud-Proben liegen, noch einmal genauer anzuschauen.

Techniken zur Dimensionalitätsreduktion in Fraud-Analyse. Die Abbildungen zeigen die ersten beiden Dimensionen aus PCA (links) und t-SNE (rechts) für Fraud (Class = 1) und reguläre (Class = 0).

Welche Machine-Learning-Algorithmen sind für Fraud-Analysen sinnvoll?

Machine Learning ist ein weites Feld. Es umfasst eine Vielzahl von Algorithmen und Techniken, die für Klassifikation, Regression, Clustering oder Anomalie-Erkennung eingesetzt werden. Es werden zwei Hauptgruppen von Algorithmen, für „überwachtes“ (supervised) und „unüberwachtes“ Lernen (unsupervised learning), unterschieden.

Supervised Learning wird benutzt, um entweder die Werte einer gesuchten Antwortvariablen vorherzusagen (Regression), oder um Proben einer von mehreren vorgegebenen Klassen zuzuordnen (Klassifikation). Überwachte Algorithmen lernen unbekannte Proben anhand der Daten von Proben mit bekannten Antwortvariablen/Klassen vorherzusagen.

Bei unserem Fraud-Beispiel handelt es sich streng genommen um ein Klassifikationsproblem: Jede Probe (entspricht jeweils einer Transaktion) hat ein entsprechendes Label, dass sie als Fraud (Class = 1) or regulär (Class = 0) klassifiziert. Es gibt allerdings zwei Hauptprobleme mit Supervised Learning und Fraud-Analyse:

Daten Labelling: Fraud ist in vielen Fällen schwer zu erkennen. Manche Betrugsversuche werden offensichtlich sein – diese sind mit Regel-basierten Systemen leicht zu erkennen und müssten nicht mit einem komplexen Modell analysiert werden. Interessant sind die Fälle, in denen subtiler Fraud begangen wird: Da wir nicht wissen, nach welchen Kriterien wir hier schauen müssen, werden diese Fälle mit traditionellen Methoden kaum erkannt. Hier kommt die Stärke von Machine Learning zum Tragen! Da wir Modelle beim Supervised Learning aber auf Grundlage von manuell vergebenen Labeln trainieren, ist es problematisch, wenn diese Label nicht oder nur teilweise stimmen. Wenn ein bestimmter Betrugsmechanismus bisher nicht aufgefallen und in unseren Daten als regulär gelabelt ist, werden überwachte Algorithmen diesen nicht erlernen können.
Unsymmetrische Daten: Eine wichtige Eigenschaft von Fraud-Daten ist, dass sie extrem unsymmetrisch sind. Das bedeutet, dass eine Klasse extrem viel häufiger vorkommt als die andere; in unserem Beispiel sind nur weniger als 1% aller Transaktionen Fraud (siehe Abbildung „Synthetisierter Finanz-Datensatz für Fraud-Erkennung“). Die meisten Supervised-Learning-Algorithmen sind empfindlich gegenüber unsymmetrischen Klassen, und spezielle Techniken müssen angewendet werden, um dies auszugleichen.

Synthetisierter Finanz-Datensatz für Fraud-Erkennung. Fraud-Fälle sind selten im Vergleich zu regulären Transaktionen; im simulierten Beispieldatensatz sind weniger als 1% aller Transaktionen Fraud.

Unsupervised Learning benötigt keine vorgegebenen Antwortvariablen. Es wird genutzt, um Cluster oder Ausreißer/Anomalien in Datensätzen zu finden.

In unserem Beispieldatensatz gehen wir davon aus, dass die Klassen-Label nicht zu 100% vertrauenswürdig sind. Aber wir können annehmen, dass Fraud-Fälle ausreichende Unterschiede zu regulären Transaktionen aufweisen, so dass Unsupervised-Learning-Algorithmen diese als Ausreißer oder Anomalien kennzeichnen.

Anomalie-Erkennung mit Deep Learning Autoencodern

Neuronale Netzwerke finden im Supervised- und Unsupervised-Learning-Anwendung. Autoencoder-Netzwerke werden für Anomalie-Erkennung im Unsupervised Learning genutzt; sie wenden sogenannte „Fehlerrückführung“ (backpropagation) an, um eine Annäherung an die Identitätsfunktion zu lernen, wobei die Output-Werte durch Minimierung des Rekonstruktionsfehlers den Input-Werten angeglichen werden sollen. Dadurch, dass der Rekonstruktionsfehler für die regulären Proben minimiert wurde, haben anormale Proben einen höheren Rekonstruktionsfehler.

Für die Modellbildungen nutze ich die Open-Source Software H2O über das R-Paket „h2o“. Auf dem oben beschriebenen Fraud-Beispieldatensatz wurde ein Unsupervised Neuronal Autoencoder Network trainiert (Gaußsche Verteilung, Quadratischer Loss, 209 Gewichte/Biases, 42.091.943 Trainingsproben, Mini-Batch Größe 1, 3 Hidden Layer mit [10, 2, 10] Knoten). Die Trainingsdaten enthalten nur reguläre Proben, so dass das Autoencoder-Modell die Struktur der „normalen“ Daten lernt. Testdaten sind eine Mischung aus regulären und Fraud-Proben. Im Hinterkopf zu behalten ist, dass Autoencoder-Modelle sensitiv auf Ausreißer reagieren; diese können typische Muster verschleiern. Mit diesem so trainierten Autoencoder-Modell können nun Ausreißer oder anormale Proben anhand des mittleren quadratischen Fehlers der Rekonstruktion (MSE) identifiziert werden: Transaktionen mit hohem MSE sind Anomalien im Vergleich zum globalen Muster in unseren Daten. Die unten stehende Abbildung zeigt, dass die Mehrheit der als Fraud gelabelten Testproben tatsächlich einen höheren MSE haben. Wir sehen außerdem einige als regulär gelabelte Transaktionen mit leicht erhöhtem MSE; diese könnten Fälle neuartiger Betrugsmaschen darstellen, die mit bisherigen Analysen unentdeckt geblieben sind.

Diese Abbildung zeigt den mittleren quadratischen Fehlers der Rekonstruktion (MSE, y-Achse) für jede Transaktion (instance) im Testdatensatz (x-Achse); Punktefarben entsprechen dem manuell vergebenen Label (Fraud = 1, regulär = 0).

Vortrainieren von Supervised-Learning-Modellen mit Autoencodern

Autoencoder-Modelle können auch genutzt werden, um Supervised Learning Modelle vorzutrainieren. Auf einem unabhängigen Trainingsdatensatz wurde ein weiteres Deep Neural Network trainiert – dieses Mal als Klassifikationsmodell für die Antwortvariable „Class“ (Fraud = 1, regulär = 0) mit den initialen Gewichten aus dem Autoencoder-Modell (2-Klassen Klassifikation, Bernoulli Verteilung, CrossEntropy loss, 154 Gewichte/Biases, 111.836.076 Trainingsproben, Mini-Batch Größe 1, balance_classes = TRUE).

Modell-Performance wird anhand des selben Testsets gemessen, das in der Abbildung oben den MSE des Autoencoder-Modells zeigt. Die Abbildung unten zeigt den Vergleich von vorhergesagten mit tatsächlichen Klassifikations-Labeln. Da es sich bei unserem Beispiel um stark asymmetrische Daten handelt, muss die Performance des Modells anhand der selteneren Klasse, die für uns von Interesse ist (hier: Fraud = Klasse 1), gemessen werden. Würden wir uns die Genauigkeit (Accuracy) angucken, würde ein Modell, das nie die Klasse 1 vorhersagt, trotzdem eine Genauigkeit von > 99% erreichen. So ein Modell ist für unseren Anwendungsfall sinnlos. Deshalb schauen wir auf die Parameter „Sensitivität“ und „Präzision“: Wir wollen ein Modell, das so optimiert wurde, dass es möglichst viele Fraud-Proben im Testset als solche klassifiziert (Sensitivität), während gleichzeitig möglichst viele der Fraud-Klassifizierungen korrekt sind (Präzision).
Ein optimales Ergebnis eines Supervised Neuronal Network für binäre Klassifikation ist in der nachstehenden Abbildung gezeigt.

Ergebnis eines Supervised Neuronal Network für binäre Klassifikation. Die Abbildung zeigt die Prozentzahl der korrekt klassifizierten Transaktionen, indem tatsächliche (x-Achse) mit vorhergesagten Labeln verglichen werden (Farbe; Fraud = 1, regulär = 0).

Können wir Machine-Learning-Modelle verstehen und ihnen vertrauen?

Entscheidungen, die von Machine-Learning-Modellen getroffen wurden, sind inhärent schwierig – wenn nicht gar unmöglich – nachzuvollziehen. Die Komplexität einiger der besten Modelle, wie Neuronale Netzwerke, ist genau das, was sie so erfolgreich macht. Aber es macht sie gleichzeitig zu einer Black Box. Das kann problematisch sein, denn Geschäftsführer oder Vorstände werden weniger geneigt sein einer Entscheidung zu vertrauen und nach ihr zu handeln, wenn sie sie nicht verstehen.

Local Interpretable Model-Agnostic Explanations (LIME) ist ein Versuch, diese komplexen Modelle zumindest teilweise nachvollziehbar zu machen. Mit LIME können wir konkreter erklären, warum zum Beispiel eine als regulär gelabelte Transaktion als Fraud klassifiziert wurde. Die Methode wurde in dem Papier “Why Should I Trust You? Explaining the Predictions of Any Classifier.” von Marco Tulio Ribeiro, Sameer Singh und Carlos Guestrin von der University of Washington in Seattle publiziert. Sie nutzt die Tatsache, dass lineare Modelle leicht zu erklären sind; LIME sucht eine Approximation an das komplexe Modell, indem lokale lineare Modelle in Permutationen der Trainingsdaten angepasst werden. In jeder Permutation wird ein lineares Model angepasst und eine Gewichtung vorgenommen, so dass positive Gewichte eine Entscheidung unterstützen und negative Gewichte ihr widersprechen. In Summe ergibt das eine annäherungsweise Erklärung, wie viel und in welcher Art ein Feature zu einer Entscheidung des Modells beigetragen hat.

Code

Ein vollständiges Beispiel mit Code für das Trainieren eines Autoencoders sowie für LIME kann auf meinem persönlichen Blog nachgelesen werde:

War dieser Beitrag hilfreich?

SPRACHE

Beitrag teilen

Gefällt mir

Blog-Autor*in

Shirin Elsinghorst

Team Lead & Consultant Data/AI

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Shirin Elsinghorst

The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

Dieser Artikel begleitet meinen Vortrag The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren, den ich am 20.10.2020 auf der data2day gehalten habe. Datenvisualisierung ist ausschlaggebend für Verständnis und Kommunikation Datenvisualisierung...

Data
Data Science

19.10.2020 | 11 Minuten Lesezeit

Shirin Elsinghorst

Simple Deep Learning mit Amazon SageMaker

In unserem neuesten codecentric.AI-Video geben wir eine kurze Einführung in Amazon SageMaker und zeigen, wie man damit schnell und einfach ein Bildklassifikationsmodell trainieren kann, das Brillenträger von Nicht-Brillenträgern unterscheidet. Mit...

Big Data
AWS
Cloud
Data
Machine Learning
Künstliche Intelligenz
Python

11.7.2018 | 5 Minuten Lesezeit

Shirin Elsinghorst

Oliver Moser

Vergleich von Text-to-Speech-Systemen

Computer haben angefangen mit uns zu reden! Dahinter stecken sogenannte Text-to-Speech-(TTS-)Systeme. Durch neuronale Netze, Deep Learning und viele Trainingsdaten sind die in den letzten Jahren immer besser und besser geworden. In manchen Fällen kann...

Data

28.6.2018 | 5 Minuten Lesezeit

Shirin Elsinghorst

rOpenSci Unkonferenz 2018 und eine Einführung in TensorFlow Probability...

Am 21. und 22. Mai hatte ich die Ehre, an der rOpenSci Unkonferenz in Seattle teilnehmen zu dürfen. Es war ein großartiges Event, bei dem ich viele tolle Menschen kennenlernen konnte. Hier berichte ich über das Event und das Projekt, an dem ich dort ...

Data
Machine Learning

18.6.2018 | 6 Minuten Lesezeit

Shirin Elsinghorst

Künstliche Intelligenz Initiative: „codecentric.AI“

Im April 2018 haben wir bei codecentric eine AI (Artificial Intelligence bzw. KI = künstliche Intelligenz) Initiative gestartet. Unter dem Projektnamen „codecentric.AI “ werden wir versuchen zu zeigen, was heute mit künstlicher Intelligenz möglich ist...

Computer Vision
Künstliche Intelligenz
Python

10.4.2018 | 3 Minuten Lesezeit

Oliver Moser

Shirin Elsinghorst

Deep Learning Workshop at codecentric AG in Solingen

Big Data – a buzz word you can find everywhere these days, from nerdy blogs to scientific research papers and even in the news. But how does Big Data Analysis work, exactly? In order to find that out, I attended the workshop on “Deep Learning with Keras...

Big Data
Data
AI
Machine Learning

6.2.2018 | 6 Minuten Lesezeit

Shirin Elsinghorst

Looking beyond accuracy to improve trust in machine learning

Traditional machine learning workflows focus heavily on model training and optimization; the best model is usually chosen via performance measures like accuracy or error and we tend to assume that a model is good enough for deployment if it passes certain...

Data
Machine Learning
Python

9.1.2018 | 11 Minuten Lesezeit

Shirin Elsinghorst

Explore Predictive Maintenance with flexdashboard

Predictive Maintenance Predictive Maintenance is an increasingly popular strategy associated with Industry 4.0; it uses advanced analytics and machine learning to optimize machine costs and output (see Google Trends plot below). A common use case for...

Big Data
Data
Machine Learning

2.11.2017 | 3 Minuten Lesezeit

Shirin Elsinghorst

Social Network Analysis and Topic Modeling of codecentric’s Twitter friends...

Recently, Matthias Radtke has written a very nice blog post on Topic Modeling of the codecentric Blog Articles , where he is giving a comprehensive introduction to Topic Modeling. In this article I am showing a real-world example of how we can use Data...

Open Source
AI
Data
Data Science

24.7.2017 | 8 Minuten Lesezeit

Shirin Elsinghorst

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Green Cloud: Daten und Emissionen sparen

Das Internet produziert jährlich 900 Millionen Tonnen CO₂ – das ist deutlich mehr als Deutschland insgesamt emittiert. Hauptverantwortlich ist der immer weiter steigende Stromverbrauch beim Transport und der Speicherung von Daten. Wenn ihr kurz darüber...

Cloud
Green IT
Softwarearchitektur
Data

11.3.2024 | 5 Minuten Lesezeit

Dennis

Charge your APIs Volume 23: REST vs. gRPC

APIs dienen als Verbindungsstück zwischen Daten und Verarbeitung und erlauben uns damit, Daten im richtigen Kontext als Informationen zu interpretieren. Passende fachliche Themen sind dabei präsenter denn je und erreichen bald auch den Endverbraucher...

Java
Softwareentwicklung
Spring
Softwarearchitektur
API
Data

11.2.2024 | 7 Minuten Lesezeit

Sebastian Tiemann

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Große Sprachmodelle: Was ist ein LLM?

Große Sprachmodelle (Large Language Models oder LLM) haben in den letzten Jahren enorme Fortschritte gemacht und spielen eine entscheidende Rolle in verschiedenen Anwendungen. Aber was ist ein LLM? Es ist sinnvoll zu erklären, was ein „einfaches“ Sprachmodell...

Machine Learning

20.6.2023 | 4 Minuten Lesezeit

Elvira Siegel

Datenanalyse auf die schnelle Art – mit Amazon Athena und GitLab

Wenn wir Erkenntnisse aus großen Datenmengen gewinnen wollen, bieten uns Cloud Service Provider inzwischen Lösungen an, dank derer wir uns kein Data Warehouse oder Hadoop-Cluster mehr in den Keller stellen müssen. AWS hat mit Athena, RedShift und EMR...

Cloud
Big Data
AWS
Serverless
GitLab

21.3.2023 | 16 Minuten Lesezeit

Maik Fleuter

Bessere SQL-Datenpipelines mit dbt

SQL ist weiterhin aus der Datenanalyse nicht wegzudenken – es ist vergleichsweise einfach zu lernen und Anwender können es ohne zusätzliche Werkzeuge auf einer Datenbank ausführen. Entsprechend ist es bei vielen Datenanalysten und Engineers beliebt. ...

Data

22.2.2023 | 2 Minuten Lesezeit

Matthias Niehoff

Streaming Wikipedia mit Apache Kafka

Apache Kafka ist in aller Munde und entwickelt sich im Kontext von verteilten Systemen zum De-facto-Standard als Plattform für Event Streaming. Im Rahmen unserer OffProject Time (Weiterbildungszeit) haben wir uns die Plattform auch näher angeschaut und...

Kotlin
Data
Java
Messaging
Spring

15.8.2022 | 10 Minuten Lesezeit

Christoph Metzger

Felix Rieß

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

In diesem Artikel möchte ich euch mit einem Python Jupyter Notebook zeigen, wie ihr Anwendungsfälle der Tourenoptimierung inklusive Nebenbedingungen lösen und visualisieren könnt. Außerdem zeige ich euch, wie ihr mit OpenStreetMaps die Route zwischen...

Data

21.6.2022 | 7 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

In diesem Artikel möchte ich euch zeigen, wie ihr Probleme der Tourenoptimierung in einem Python Jupyter Notebook lösen und visualisieren könnt. Am Beispiel eines Fahrradkurierdienst zeige ich außerdem, wie das Grundproblem um gängige Nebenbedingungen...

Data

16.6.2022 | 9 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung (1/3)

In vielen Unternehmen fallen täglich verschiedene Transportprozesse an. Klassische Beispiele sind die Optimierung von Warenein- und ausgängen, die Einsatzplanung von Servicetechnikern oder die optimale Reihenfolge der Auslieferung bei Lieferdiensten....

Data

12.6.2022 | 8 Minuten Lesezeit

Lukas Heidemann

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Die Corona-Krise ist weiterhin in aller Munde und wird uns mit hoher Wahrscheinlichkeit noch etwas länger begleiten. Wie man aus unterschiedlichen Statistiken erfährt, schwanken die Fallzahlen weiter und sorgen für zusätzliche Restriktionen. Diese werden...

Computer Vision
Künstliche Intelligenz
IoT
Machine Learning

13.12.2021 | 7 Minuten Lesezeit

Michel Ehmen

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Die Qualität bzw. Nützlichkeit von Machine-Learning-Modellen lässt sich mit Hilfe von Testdaten und Metriken bewerten. Allerdings in welchem Umfang? Manuell, automatisiert, einmalig, regelmäßig? Manuell lassen sich die ersten Modelle als Ergebnis eines...

Data
Machine Learning
Softwareentwicklung
CI/CD

7.12.2021 | 7 Minuten Lesezeit

Berthold Schulte

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Machine Learning (ML) erzeugt erst dann realen Mehrwert, wenn es in Produktion benutzt wird. Allerdings kann die Zeitspanne zwischen der Entwicklung eines belastbaren Modells und dessen Einsatz frustrierend lange sein. Insbesondere in schnelllebigen ...

Agile Methoden
Cloud
Machine Learning

26.7.2021 | 5 Minuten Lesezeit

Timo Böhm

Niklas Haas

Schnelles Training eines Recommendation-Modells durch BigQuery ML

Machine Learning (ML) kann nur durch Modelle in der Produktion Business Value erzeugen. Allerdings kann die Zeitspanne zwischen der Entwicklung der nächsten Iteration eines Modells und dessen Einsatz in einer Produktionsumgebung massiv sein. Dies gilt...

Accelerate
Cloud
Data
Google Cloud
Machine Learning

26.7.2021 | 11 Minuten Lesezeit

Niklas Haas

Timo Böhm

KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben...

Heutzutage steht fast alles, was mit den Labels „künstliche Intelligenz (KI)“ oder „Machine Learning (ML)“ versehen ist, für Fortschritt. Seltsamerweise schließt diese Assoziation jedoch häufig die Themen Daten und Dateninfrastruktur nicht ausreichend...

Kultur
Data
Machine Learning

21.6.2021 | 12 Minuten Lesezeit

Marcel Mikl

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Bei klassischen Machine-Learning-(ML-)Projekten beschäftigen sich Data Scientists häufig längere Zeit (mehrere Monate) mit der Entwicklung eines ML-Modells. Dabei werden hohe Kosten verursacht und die Zeit, bis ein erstes Modell zur Verfügung steht, ...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Google Cloud
Machine Learning

17.5.2021 | 5 Minuten Lesezeit

Nils Bauroth

Sven Rediske

The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

Dieser Artikel begleitet meinen Vortrag The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren, den ich am 20.10.2020 auf der data2day gehalten habe.Datenvisualisierung ist ausschlaggebend für Verständnis und KommunikationDatenvisualisierung...

Data
Data Science

19.10.2020 | 11 Minuten Lesezeit

Shirin Elsinghorst

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

Noch vor kurzer Zeit mussten für den Einsatz von künstlicher Intelligenz (KI) unter großem Aufwand eigene KI-Modelle erstellt werden. Heute ist für viele Anwendungsfälle die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Machine Learning
Python

29.7.2020 | 11 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und Konstruktion eigener neuronaler Netze möglich. Heute ist die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken. So kann man ...

Cloud
Computer Vision
Data
Python
Machine Learning
Google Cloud
Künstliche Intelligenz

8.7.2020 | 11 Minuten Lesezeit

Nico Axtmann

Marcel Mikl

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Kontakt

Absenden

Fraud-Analyse mit Data-Science-Techniken

Was ist Fraud und was macht es für Data Science interessant?

Synthetisierte Finanz-Datensätze für Fraud-Erkennung

Dimensionalitätsreduktion

Welche Machine-Learning-Algorithmen sind für Fraud-Analysen sinnvoll?

Anomalie-Erkennung mit Deep Learning Autoencodern

Vortrainieren von Supervised-Learning-Modellen mit Autoencodern

Können wir Machine-Learning-Modelle verstehen und ihnen vertrauen?

Code

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

Simple Deep Learning mit Amazon SageMaker

Vergleich von Text-to-Speech-Systemen

rOpenSci Unkonferenz 2018 und eine Einführung in TensorFlow Probability...

Künstliche Intelligenz Initiative: „codecentric.AI“

Deep Learning Workshop at codecentric AG in Solingen

Looking beyond accuracy to improve trust in machine learning

Explore Predictive Maintenance with flexdashboard

Social Network Analysis and Topic Modeling of codecentric’s Twitter friends...

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Weitere Artikel in diesem Themenbereich

Green Cloud: Daten und Emissionen sparen

Charge your APIs Volume 23: REST vs. gRPC

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Große Sprachmodelle: Was ist ein LLM?

Datenanalyse auf die schnelle Art – mit Amazon Athena und GitLab

Bessere SQL-Datenpipelines mit dbt

Streaming Wikipedia mit Apache Kafka

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

Einführung in die Welt der Tourenoptimierung (1/3)

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Schnelles Training eines Recommendation-Modells durch BigQuery ML

KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben...

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten