Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Keine Kommentare

Machine Learning (ML) erzeugt erst dann realen Mehrwert, wenn es in Produktion benutzt wird. Allerdings kann die Zeitspanne zwischen der Entwicklung eines belastbaren Modells und dessen Einsatz frustrierend lange sein. Insbesondere in schnelllebigen Branchen ist ein solcher Zeitversatz ein Wettbewerbsnachteil. Die Ursachen hierfür sind häufig darin zu suchen, dass das eigentliche ML-Modell nur einen kleinen Teil der gesamten Pipeline ausmacht:

BigQuery ML

Unserer Erfahrung nach wird häufig unverhältnismäßig viel Aufwand in die „ML-Code“-Logik investiert. Stattdesssen sollten Ansätze, die eine höhere Entwicklungsgeschwindigkeit und damit einen höheren Business Value liefern können, mit Priorität verfolgt werden. In diesem Blogpost widmen wir uns einem der möglichen Werkzeuge dafür, nämlich dem BigQuery ML (BQML) Dienst auf der Google Cloud Platform (GCP).

Wir sehen uns ein typisches Beispiel aus der Praxis an: Recommendation Engines. Ihr Einsatz auf dem Markt ist umfassend, bildet einen wichtigen Bestandteil für E-Commerce-Geschäftsmodelle und ist auch für viele andere Branchen relevant. Um einen direkten Mehrwert für digitale Produkte erzeugen, ist die Fähigkeit, eine solche Engine schnell und in hoher Qualität zu implementieren, zentral. Details zu der von uns verwendeten Implementierung lassen sich in unserem technischen Post zur gleichen Thematik nachlesen.

Zusätzlicher Lesestoff zur generellen Thematik von ML in Produktion sind die Beiträge unserer Kollegen Marcel Mikl („Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert“, „KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben und umsetzen“), Roman Seyffarth („Machine learning: Moving from experiments to production“) und Nils Bauroth, Sven Rediske & Lennart Küll („Schnelles KI-Prototyping mit Google Cloud AutoML Vision„).

Die Business-Perspektive auf Recommendation Engines

Das sichtbarste Ergebnis von Recommendation Engines sind die „Kunden, die diesen Artikel gekauft haben, haben auch X gekauft“-Bereiche in E-Commerce-Shops. Im Hintergrund werden berechnete Empfehlungen entweder direkt für den User berechnet oder in Datenbanken bereitgehalten. Um den Erfolg von Engines zu messen, kann beispielsweise Cross-/Up-Selling oder die Verweildauern bei Content-Providern herangezogen werden.

Angewendet werden diese Engines auf zwei Arten von Daten. Implizites Feedback entsteht durch beobachtetes Verhalten von Kunden, also z. B. welche Produkte gekauft werden. Explizites Feedback liegt vor, wenn beispielsweise Sternebewertungen zur Verfügung stehen. Auch wenn explizites Feedback reichere Daten erzeugt, sind beide Szenarien valide Einsatzgebiete für Recommendation Engines.

Uns ist keine umfassende Quantifizierung des Geschäftswerts von Recommender-Systemen bekannt. Die vorliegenden Fallstudien sprechen jedoch eine eindeutige Sprache. So berichtete Alibaba beispielsweise von 20 % höheren Konversionsraten bei personalisierten Seiten im Vergleich zu nicht personalisierten Inhalten.

Im Allgemeinen erzeugen Recommendation-Systeme drei weitreichende Vorteile für Unternehmen:

  • Das Benutzererlebnis verbessert sich signifikant. Qualitativ hochwertige Empfehungen reduzieren die Suchzeit und machen den Besuch zu einem reibungslosen Erlebnis.
  • Empfehlungen unterstützen Cross- und Up-Selling. Kunden sehen direkt alternative und ergänzende Angebote zu den von ihnen in Betracht gezogenen Produkten.
  • Die Reaktionen der Kunden auf die Empfehlungen liefern wertvolles Feedback für die Produktentwicklung.

Diese Vorteile müssen jedoch im richtigen Verhältnis zu den Entwicklungs- und Implementierungskosten stehen. Genau hier verspricht BQML eine starke Kostensenkung und damit einer Stärkung des Business Cases. Aber kann es dieses Versprechen auch einhalten? Wir bewerten in diesem Blogpost dafür zwei Aspekte: Time-to-Market und Kosten.

Time-to-Market

Unter Time-to-Market verstehen wir die Gesamtzeit von Beginn der Arbeit an einer Recommendation Engine bis zu dem Zeitpunkt, an dem ihre Ergebnisse in z. B. einem Onlineshop integriert sind:

Time-to-Market

Eine wichtige Zäsur sind dabei vorläufige Ergebnisse. Diese Ergebnisse müssen (und sollen) nicht perfekt sein,  ermöglichen aber eine frühzeitige Entscheidung über Fortführung oder Einstellung der Komponente. Sollte bei einer Fortführung das Modell eine ausreichende Qualität erreichen, um einen substanziellen Mehrwert zu erzielen, kann es als MVP in das digitale Gesamtprodukt integriert werden.

Aus einer Geschäftsperspekte sollten zwei Aspekte besonders bedacht werden. Je kürzer die Zeit bis zu ersten Ergebnissen, desto geringer das anfängliche Investitionsrisiko. Je schneller vielversprechende erste Ergebnisse in ein MVP überführt werden können, desto höher der Wert über die gesamte Laufzeit. Zusätzliche Verbesserungen geschehen dann vor dem Hintergrund bereits realisierten Mehrwerts.

Kosten

Natürlich lässt sich keine allgemeine Kostenschätzung seriös abgeben. Stattdessen fokussieren wir uns auf die zwei größten Kosten-Komponenten einer in BQML umgesetzen Lösung:

  1. Die Preisstruktur der Komponenten, die auf GCP benötigt werden.
  2. Die Arbeitskosten für die Implementierung, Warung und Aktualisierung des Systems. Dieser Aspekt ergibt sich aus der vorhandenen Qualifikation und notwendigen Arbeitszeit der eingesetzen Mitarbeiterinnen.

Evaluation von BigQuery ML

Time-To-Market

In unserem Test-Setup war das erste Modell bereits nach einer Stunde Arbeit für zwei Personen umgesetzt. Diese Stunde beinhaltete Diskussionen über technische Parameter und das Einrichten eine Cloud-Budgets für unsere Experimente. Wichtig zu erwähnen ist dabei jedoch, dass wir auf vorhandene Daten zugreifen konnten. Es waren keine zusätzlichen Anbindungen etc. notwendig.

Mit insgesamt einem Tag Arbeit wäre zudem Finetuning sowie eine Aufbereitung und Evaluation der vorläufigen Ergebnisse machbar gewesen. Anders formuliert: Ein einziger Tag hätte in unserem Fall von einem Kick-off bis hin zu belastbaren ersten Ergebnissen ausgereicht. Unter Berücksichtigung des üblichen Tagesgeschäfts wäre ein solches Experiment in einer einzigen Arbeitswoche machbar.

Würde die Entscheidung für den nächsten Schritt, also die Erstellung eines MVP, fallen, wären bereits zwei Produktvarianten zur Verprobung verfügbar. Zum einen könnte beispielsweise eine BI-Abteilung Analysen auf den berechneten Empfehlungen durchführen. Einzige Voraussetzung wären dabei durchschnittliche SQL-Kenntnisse. Zum anderen kann sehr leicht ein allgemein verfügbarer Endpoint erstellt werden. Dieser würde das Konsumieren der Ergebnisse z. B. durch eine Webseite ermöglichen.

Obwohl unsere Erwartungen im Vorfeld bereits hoch waren, wurden sie in Hinblick auf Time-to-Market sogar übertroffen. Selbstverstädndlich darf die Komplexität der konkreten Einbindung nicht unterschätzt werden. Trotzdem halten wir dies in wenigen Wochen für absolut realistisch.

Kosten

Wie bei allen Cloud-Diensten muss jeder Anwendungsfall gesondert berechnet werden, um unangenehme Überraschungen zu vermeiden. Die Kosten der Hauptkomponenten ergeben das folgende Bild:

Kosten Big Query ML Cloud Storage AI Platform

Das Modelltraining stellt also den größten Kostentreiber dar. Hier lassen sich, wie bei allen Cloud-Services, zwar Kosten optimieren, dem steht jedoch ein Overhead für gewissenhaftes Monitoring gegenüber. Eine solche Entscheidung muss im Einzelfall getroffen werden.

Im Vergleich zu anderen Implementierungsansätzen sind die Arbeitskosten vernachlässigbar. Es muss keine zusätzliche Infrastruktur für das Modelltraining und die Evaluation verwaltet werden. Durch die Integration in SQL können auch Anwender ohne Programmiererfahrung schnell Ergebnisse erzielen. Das Feintuning der Modelle kann ebensfalls schnell und ohne besondere technische Kenntnisse durchgeführt werden.

Fazit zu BigQueryML aus der Business-Perspektive

Aus unserer Sicht sind Dienste wie BigQuery ML ein großer Schritt zur Kommoditisierung und Kommerzialsierung von Machine Learning. Darüber hinaus ermöglichen sie eine hohe Entwicklungs- und Integrationsgeschwindigkeit. Uns hat der Service deshalb klar überzeugt.

Nach mehrjähriger Beratungserfahrung im Machine Learning und Data Science Umfeld, verbringt Timo nun den Großteil seiner Zeit in der Cloud. Aktuell fokussiert er sich darauf zu zeigen, wie managed Services der verschiedenen Cloud-Anbieter Entwicklungsprozesse vereinfachen und damit beschleunigen können.

Als Machine Learning Engineer nutzt Niklas Cloud Technologien und Machine Learning um automatisiert große Datenmengen zu verarbeiten, Einsichten zu gewinnen, Muster zu erkennen und Vorhersagen zu generieren. Dabei hört für ihn die Arbeit nicht nach dem Proof of Concept auf, sondern ist erst getan, wenn es in ein auslieferbares Data Product überführt wurde. Als studierter Wirtschaftsingenieur behält er bei seinen Entscheidungen zudem stets den Business Value im Hinterkopf.

Über 1.000 Abonnenten sind up to date!

Die neuesten Tipps, Tricks, Tools und Technologien.
Jede Woche direkt in deine Inbox.

Kostenfrei anmelden und immer auf dem neuesten Stand bleiben!
(Keine Sorge, du kannst dich jederzeit abmelden.)

Kommentieren

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.