GANmojis: Deep Learning meets Emojis

22.1.2019 | 5 Minuten Lesezeit

Die Generierung künstlicher Bilder mittels Deep Learning schlägt seit einigen Jahren immer wieder hohe Wellen in den Medien. Im Rahmen von codecentric.ai beschäftigen auch wir uns seit Kurzem mit diesem Thema. In diesem Blogartikel zeigen wir euch, wie wir uns mithilfe von Generative Adversarial Networks eigene, neue Emojis erstellen.

Neue Bilder mit Deep Learning generieren

Der Nutzen künstlicher neuronaler Netze zur Klassifikation von Daten, wie etwa Krankheiten, Autos oder Weinsorten, ist schon seit Jahrzehnten bekannt. Der Einsatz von Netzen zur Generierung von Daten hingegen ist ein recht neuer Forschungszweig im Bereich Deep Learning. Hier liegen aktuell insbesondere die sogenannten Generative Adversarial Networks im Fokus.

Bei einem Generative Adversarial Network (GAN) handelt es sich um eine besondere Architektur von neuronalen Netzen, in der zwei Netzwerke miteinander interagieren und so voneinander lernen. Das erste Netzwerk – der Generator – erzeugt neue Inhalte, meist Bilder. Das zweite Netzwerk – der Diskriminator – hingegen versucht zu erkennen, ob ein Inhalt vom Generator stammt oder von einem separaten Trainingsdatensatz. Nach erfolgreichen Training kann dann der Generator verwendet werden, um neue, glaubwürdige Inhalte zu erzeugen. GANs wurden erstmals 2014 vorgestellt und werden seit kurzer Zeit auch im Unternehmenskontext verprobt. Eine generelle Einführung in das Thema findet ihr in unserem Blogartikel :

Seit der ursprünglichen Architektur wurden zahlreiche Varianten und Modifikationen entwickelt. So wird in Wasserstein-GAN der Wasserstein-Loss als Fehlerfunktion eingeführt, was zu einem intuitiveren Fehlergradienten führt und dadurch die Konvergenzrate erhöht.

Progressive Growing of GANS

Ein wichtiger Meilenstein in der letzten Zeit war die Beschreibung und Umsetzung von Progressive GANs (PGANs) durch NVIDIA Research, die im Paper Progressive Growing of GANs for Improved Quality, Stability, and Variation (Tero Karras, Timo Aila, Samuli Laine (alle NVIDIA) und Jaakko Lehtinen (NVIDIA und Aalto University)) veröffentlicht wurden. PGANs führen eine fundamentale Neuerung beim Trainieren der beteiligten neuronalen Netze ein: Das Training startet bei groben Auflösungen und wird dann schrittweise feiner. Zuerst werden also nur wenig pixel-große Repräsentationen der Bilder antrainiert und diskriminiert. Die Auflösung wird dann im Laufe des Trainingsprozesses schrittweise gesteigert. Dies führt dazu, dass der Trainingsprozess stabiler ist und schneller konvergiert.

Ein Showcase für PGANs ist die Generierung künstlicher ‘Promis’. Die Ergebnisse sind fotorealistisch und von echten Hollywood-Stars im Stil kaum zu unterscheiden.

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Angespornt von der herausragenden Qualität dieser Ergebnisse haben wir versucht, uns mit PGAN neue Mitarbeiter zu generieren. Leider ist unser Datensatz mit etwa 500 Bildern sehr klein. Der CelebA-Datensatz, den NVIDIA für das obige Video verwendet, enthält 200.000 Bilder. Unsere neuen Kollegen sehen uns daher noch ziemlich ähnlich:

Unsere Kollegen Jonas und Olga, sowie ihre nächsten Nachbarn unter den generierten Mitarbeitern. Overfitting ist klar erkennbar.

Generierung von neuen Emojis

An dieser Stelle möchten wir euch zeigen, wie wir PGAN so trainieren können, dass es neuartige Emojis generiert. Emojis eignen sich für unser Experiment einigermaßen gut, da sie eine geringe Auflösung haben. Die geringe Auflösung ist für uns wichtig, da wir die Kosten für das Experiment erst einmal gering halten möchten. Außerdem erhoffen wir uns interessante und amüsante Ergebnisse.

Als Trainingsset verwenden wir die Emojis von EmojiOne in der 32×32-Auflösung, nachdem uns Apple eine Absage für die Nutzung ihrer Emojis für diesen Blogartikel untersagt hat. Der Datensatz enthält 893 Emojis, was für ein Trainingsset relativ klein ist.

Auszug aus dem verwendeten Datensatz

Setup und Trainingsprozess

Für die Generierung der neuen Emojis nutzen wir die originale PGAN-Implementierung von NVIDIA, die auf GitHub verfügbar ist. NVIDIA Research hat alle wichtigen Informationen rund um das Paper auf einer eigenen Seite zum Nachlesen zusammengefasst.

Das Training führen wir auf einer p3.2xlarge Amazon-EC2-Cloudinstanz durch. Diese Instanz besitzt eine Tesla V100 GPU mit 16GB Speicher (Kosten aktuell bei ca 7.000€). Ein Trainingsdurchlauf hat ca. acht Stunden gedauert und uns somit 31$ gekostet (3,82$/h). Insgesamt haben wir zwei Durchläufe gebraucht, um unsere letztendlichen Ergebnisse zu erzielen.

Bevor wir das Training starten können, müssen wir zunächst unsere Emojis in das geeignete Format bringen. PGAN speichert die verwendeten Trainingsbilder in tfrecords-Dateien. Um eigene Datensätze verwenden zu können, bringt PGAN die Funktion create_from_images mit, welche wir mittels

python dataset_tools.py create_from_images

ausführen können. Da die Bilder nativ im Farbraum P vorliegen, konvertieren wir sie vorher in den RGB-Farbraum.

Als nächstes registrieren wir unseren neuen Datensatz in der config.py, indem wir die Zeile

desc += '-emojis'; dataset = EasyDict(tfrecord_dir='emojis'); train.mirror_augment = True

hinzufügen, und die übrigen Datensätze auskommentieren. In der config.py können wir auch weitere Einstellungen vornehmen, wie etwa die Anzahl an GPUs. Da wir auf einer p3.2xlarge trainieren, wählen wir hier die Einstellung -preset-v2-1gpu.

Jetzt können wir das Training starten, indem wir einfach python train.py ausführen. Aufgrund der signifikanten Kosten stoppen wir den Trainingsprozess, sobald wir eine Konvergenz auf den Ergebnissen sehen.

Zwischenergebnisse. Auflösung 4×4

Zwischenergebnisse. Auflösung 8×8

Zwischenergebnisse. Auflösung 16×16

Finale Ergebnisse. Auflösung 32×32

Hier ein paar ausgewählte GANmojis:

creepy hat	Alter Schnuller	Evilmoji
König der Baustelle	Rauchermoji	Zu viel Kaffee
Monobrow	Slomo Face Hit	Rorschach
Shampoomoji	Pizzamampf	Behind Windows

Lessons Learned

Bei der Generierung hatten wir einige Herausforderungen und Fehler, die uns nicht direkt aufgefallen und somit recht teuer geworden sind. Ein Beispiel ist der oben kurz erwähnte falsche Farbraum, der von Tensorflow nicht richtig erkannt wurde und deshalb unsere Emojis nur in Schwarz-Weiß erkannt hat. Dieser Fehler ist uns leider erst nach Abschluss des Trainings aufgefallen:

Lesson Learned: Den Import der Trainingsdaten unmittelbar checken, entweder direkt in den tfrecord-Dateien oder zu Beginn des Trainings in der reals.png.

Zusammenfassung und Fazit

Mit genügend Trainingsdaten ist es inzwischen möglich, künstliche Inhalte von neuronalen Netzen generieren zu lassen. Die Qualität hängt dabei sowohl stark vom Trainingsset (beispielsweise der Größe oder Varianz) als auch von den eingesetzten Ressourcen ab. Wir haben mit einem recht überschaubaren Set an Trainingsdaten ohne spezielle Optimierungen bereits interessante Ergebnisse erzielt. Die Ergebnisse sind den ursprünglichen Emojis teilweise noch sehr ähnlich, was durch den kleinen Datensatz zu erwarten war. Eine gutes Trainingsset wäre idealerweise erheblich größer.

Die Generierung neuer Inhalte könnte auch heute schon für Unternehmen interessant sein. Perspektivisch könnten sogar gänzlich neue Geschäftsmodelle auf GANs basieren, z. B. die Erstellung reiner GAN-Stockphoto-Archive, die entweder vermarktet oder besser noch unter Creative-Commons-Lizenz bereitgestellt werden. In Betracht ziehen muss man dabei jedoch die Kosten: Sowohl bei der Nutzung von Cloud-Instanzen als auch bei der Anschaffung eigener Hardware fallen nicht unerhebliche Gebühren an. Eigene Hardware ist zudem während des Trainings für recht lange Zeiten blockiert.

Abschließend möchten wir uns bei NVIDIA bedanken, die uns die Verwendung der Referenzimplementierung als Ausgangspunkt unserer Experimente erlaubt haben.

War dieser Beitrag hilfreich?

Beitrag teilen

Gefällt mir

Blog-Autor*innen

Tim Sabsch

Machine Learning Engineer

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Kai Herings

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Tim Sabsch

Eine kurze Einführung in Generative Adversarial Networks

Am 25. Oktober 2018 wurde im weltberühmten Auktionshaus Christie’s in New York das Bild von Edmond de Belamy für 423.500$ verkauft . Das Besondere an diesem Bild? Der Künstler hinter Edmonds Gemälde ist keine reale Person, sondern eine künstliche Intelligenz...

Künstliche Intelligenz
Machine Learning

2.11.2018 | 7 Minuten Lesezeit

Tim Sabsch

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Eine Einführung in das Thema künstliche Intelligenz für Schülerinnen und...

Die Bedeutung von künstlicher Intelligenz wächst in der heutigen Welt. Doch wie funktioniert KI? Es hat zumindest nichts mit Magie zu tun – auch wenn KI gerne damit assoziiert wird. Normalerweise beantworte ich diese Frage ausführlich bei uns im IT ...

Künstliche Intelligenz

30.1.2024 | 3 Minuten Lesezeit

Meike Wocken

Ersetzt KI die Softwareentwickler?

In meinem letzten Blogartikel habe ich geschrieben, was KI-Tools wie ChatGPT heute schon leisten können, wenn es darum geht, fachliche Anwendungen in ausführbaren Programmcode zu übersetzen. Ich habe erfahren, dass die Ergebnisse zwar noch nicht zu 1...

Künstliche Intelligenz

10.9.2023 | 6 Minuten Lesezeit

Goetz Markgraf

KI-Tools zum Lernen neuer Programmiersprachen: Ein Erfahrungsbericht

Einleitung KI-Tools, die die Arbeit des Softwareentwicklers unterstützen – oder eventuell sogar ganz ersetzen – sorgen im Moment für Schlagzeilen. In diesem Artikel möchte ich einen ganz persönlichen Erfahrungsbericht schreiben, wie es mir erging, als...

Künstliche Intelligenz

4.9.2023 | 8 Minuten Lesezeit

Goetz Markgraf

ChatGPT im Alltag eines Python-Entwicklers

Seit einigen Tagen spiele ich mit ChatGPT herum. Beruflich und privat konnte ich damit einige Fragen bearbeiten, bspw. welche Alternativen es zu bestimmten Tools gibt, was Vorteile von Teilzeit für den Arbeitgeber sind oder wer ich bin. Leider weiß ChatGPT...

NLP
Python
Künstliche Intelligenz

27.1.2023 | 7 Minuten Lesezeit

Robert Meißner

GitHub Copilot – Pair Programming mit der KI

Vor drei Monaten konnte ich zum ersten Mal mit GitHub Copilot von Microsoft auf die Startbahn gehen. Ob der Flug erfolgreich war oder ob ich es gar nicht in die Luft geschafft habe, möchte ich euch einmal berichten. Was ist GitHub Copilot? Der Copilot...

Künstliche Intelligenz
GitHub
Microsoft

6.10.2022 | 8 Minuten Lesezeit

Danny Steinbrecher

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Die Corona-Krise ist weiterhin in aller Munde und wird uns mit hoher Wahrscheinlichkeit noch etwas länger begleiten. Wie man aus unterschiedlichen Statistiken erfährt, schwanken die Fallzahlen weiter und sorgen für zusätzliche Restriktionen. Diese werden...

Computer Vision
Künstliche Intelligenz
IoT
Machine Learning

13.12.2021 | 7 Minuten Lesezeit

Michel Ehmen

Wie man Java-Klassen in Python benutzt

Generell sollte man zwar für jedes Problem das passende Werkzeug nutzen. Aber oftmals wird man gezwungen, den Hammer Java zu nutzen, weil der Rest des Hauses mit diesem Hammer gebaut wurde. Eine moderne Lösung dieses Problems ist natürlich die Microservice...

Künstliche Intelligenz
Java
Python

15.11.2021 | 8 Minuten Lesezeit

Hendrik Schawe

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Bei klassischen Machine-Learning-(ML-)Projekten beschäftigen sich Data Scientists häufig längere Zeit (mehrere Monate) mit der Entwicklung eines ML-Modells. Dabei werden hohe Kosten verursacht und die Zeit, bis ein erstes Modell zur Verfügung steht, ...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Google Cloud
Machine Learning

17.5.2021 | 5 Minuten Lesezeit

Nils Bauroth

Sven Rediske

Technologien lösen keine Probleme ― es sind die Menschen dahinter

Software zu entwickeln bedeutet, Mehrwert für den Kunden zu schaffen. Zu oft wird hierbei der menschliche Faktor im System missachtet. Stefanie Hasler, Senior Fullstack Developerin bei codecentric, gibt einen kleinen Einblick auf ihre Sicht der Dinge...

Künstliche Intelligenz
Softwareentwicklung
Remote Work
HR
Collaboration
Kultur

22.3.2021 | 6 Minuten Lesezeit

Kathrin Schaugg

Stefanie Hasler

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

Noch vor kurzer Zeit mussten für den Einsatz von künstlicher Intelligenz (KI) unter großem Aufwand eigene KI-Modelle erstellt werden. Heute ist für viele Anwendungsfälle die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Machine Learning
Python

29.7.2020 | 11 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und Konstruktion eigener neuronaler Netze möglich. Heute ist die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken. So kann man ...

Cloud
Computer Vision
Data
Python
Machine Learning
Google Cloud
Künstliche Intelligenz

8.7.2020 | 11 Minuten Lesezeit

Nico Axtmann

Marcel Mikl

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und ausreichend Spezialwissen möglich. Hauptsächlich große Internet-Konzerne wie Google, Apple und Facebook hatten das Geld, die Daten und die Expertise, um ...

Data
Machine Learning
Künstliche Intelligenz

6.7.2020 | 7 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

Machine Learning in der Praxis. Eine Mate mit … Matthias Niehoff #EineMateMit

Machine Learning und künstliche Intelligenz sind aktuell in aller Munde und versprechen vielfältige Einsatzmöglichkeiten im Unternehmen. Trotzdem tun sich viele Unternehmen aktuell noch schwer, das Potential der Technologie zu nutzen. „Der Fokus liegt...

Künstliche Intelligenz
Data
Community
Machine Learning

27.5.2020 | 1 Minuten Lesezeit

Matthias Niehoff

Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert

Warum gelingt es Data-Science-Initiativen häufig nicht, einen echten Mehrwert zu schaffen? Wir haben einige Ursachen dafür ausgemacht. In diesem Blogpost stellen wir vier typische Fallen für Data-Science-Projekte vor und geben Tipps, wie Du sie umschiffen...

Machine Learning
Data
Künstliche Intelligenz
Softwareentwicklung

27.3.2020 | 11 Minuten Lesezeit

Marcel Mikl

Deployment von Machine-Learning-Modellen mit Seldon Core

In diesem Artikel sehen wir uns an, wie wir Machine-Learning- und Deep-Learning-Modelle mit Seldon Core deployen können. Seldon Core ist eine Open-Source-Plattform, um Modelle auf einem Kubernetes-Cluster in Betrieb zu nehmen. Bevor wir uns Seldon Core...

Softwarearchitektur
Data
Künstliche Intelligenz
Machine Learning

9.9.2019 | 7 Minuten Lesezeit

Nico Axtmann

Inbetriebnahme eines scikit-learn-Modells mit ONNX und FastAPI

Dieser Artikel befasst sich mit dem Deployment eines Machine-Learning-Modells, das den Wert eines Hauses in Boston anhand gewisser Merkmale wie der Kriminalitätsrate des Bezirks und der Anzahl der Räume in einer Wohnung bestimmen kann. Im ersten Schritt...

Data
Python
Künstliche Intelligenz
Machine Learning

6.8.2019 | 3 Minuten Lesezeit

Nico Axtmann

codecentric.AI Bootcamp ist online!

Im letzten Jahr haben wir bei codecentric eine AI-Initiative gestartet. Wir haben uns zum Ziel gesetzt, einen Online-Kurs zum Thema Machine Learning und künstliche Intelligenz in deutscher Sprache zu entwickeln. Natürlich gibt es bereits mehrere sehr...

Computer Vision
Künstliche Intelligenz
NLP

26.5.2019 | 4 Minuten Lesezeit

Oliver Moser

ONNX – Portabilität von Deep-Learning-Modellen

In den vergangenen Jahren ist die Anzahl an Frameworks für Deep Learning explodiert. Unternehmen wie Google, Facebook und Amazon haben ihre Deep Learning Frameworks TensorFlow , PyTorch und MXNet quelloffen zur Verfügung gestellt oder entwickeln aktiv...

Künstliche Intelligenz
Python

10.4.2019 | 6 Minuten Lesezeit

Nico Axtmann

Kunden-E-Mails effizient verarbeiten – mit künstlicher Intelligenz

EinleitungKünstliche Intelligenz (KI) findet sich heutzutage scheinbar überall. Bereits ohne den derzeitigen Hype-Faktor um KI ist der Begriff nur schwer zu greifen. Viele Unternehmen sehen sich unter Zugzwang, KI als neue Technologie einzusetzen und...

Data
Künstliche Intelligenz

7.4.2019 | 7 Minuten Lesezeit

Marcel Mikl

Oliver Moser

Natural Language Processing — Einsteigen und loslegen!

1 Worum geht es?Ob Suchmaschinen, Spamfilter, Chatbots oder Sprachassistenten wie Siri und Alexa — Computer verarbeiten immer mehr Sprache mit immer besserer Genauigkeit und dringen damit immer weiter in unseren Alltag vor. Dahinter stecken anspruchsvolle...

Künstliche Intelligenz
Machine Learning
Python
NLP
Data

7.3.2019 | 11 Minuten Lesezeit

Thomas Timmermann

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Kontakt

Absenden

GANmojis: Deep Learning meets Emojis

Neue Bilder mit Deep Learning generieren

Progressive Growing of GANS

Generierung von neuen Emojis

Setup und Trainingsprozess

Lessons Learned

Zusammenfassung und Fazit

War dieser Beitrag hilfreich?

Ja

Blog-Autor*innen

Kontakt aufnehmen

Kontakt aufnehmen

Kontaktiere Tim

Kontaktiere Kai

Weitere Beiträge

Eine kurze Einführung in Generative Adversarial Networks

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Weitere Artikel in diesem Themenbereich

Eine Einführung in das Thema künstliche Intelligenz für Schülerinnen und...

Ersetzt KI die Softwareentwickler?

KI-Tools zum Lernen neuer Programmiersprachen: Ein Erfahrungsbericht

ChatGPT im Alltag eines Python-Entwicklers

GitHub Copilot – Pair Programming mit der KI

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Wie man Java-Klassen in Python benutzt

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Technologien lösen keine Probleme ― es sind die Menschen dahinter

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Machine Learning in der Praxis. Eine Mate mit … Matthias Niehoff #EineMateMit

Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert

Deployment von Machine-Learning-Modellen mit Seldon Core

Inbetriebnahme eines scikit-learn-Modells mit ONNX und FastAPI

codecentric.AI Bootcamp ist online!

ONNX – Portabilität von Deep-Learning-Modellen

Kunden-E-Mails effizient verarbeiten – mit künstlicher Intelligenz

Natural Language Processing &mdash; Einsteigen und loslegen!

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten

Natural Language Processing — Einsteigen und loslegen!