Behaviour Driven Development with Elasticsearch

24.2.2014 | 5 minutes of reading time

Elasticsearch has been riding on top of the hype for a while now, and I expect it to hit even harder with the release of 1.0 – We will continue to see a massive growth in various fields throughout the tech world, and even more use cases will be discovered and put to production in stunning speed.

While it’s all hot and fresh I want to urge every Developer to try to include proper craftmanship techniques in his daily work with Elasticsearch. We all strive to ensure great results without regression – In this post I want to talk about a behaviour driven approach when it comes to Elasticsearch, something we at codecentric have had tremendous success so far.

Let’s imagine you’re having an Elasticsearch cluster up and running, and you’re trying to improve your search results for a specific use case, maybe by using the fantastic function score query – would you feel save pushing that change into production? Are you sure all the queries your customers throw at you will be answered sufficiently? If your answer is “HELL NO!” then you know you have a problem.

It’s not unsolvable though: This can be approached by having a decent set of tests that will provide accurate safety against regressions and support agile development of new features: Acceptance Tests! We are able to execute our tasks fast by starting up a whole ES node with the NodeBuilder in the java API and with a JUnit Rule ( as described by Florian Hopf here ) :

1public class ElasticsearchTestNode extends ExternalResource {
2 
3    private Node node;
4    private Path dataDirectory;
5 
6    @Override
7    protected void before() throws Throwable {
8        try {
9            dataDirectory = Files.createTempDirectory("es-test", new FileAttribute[]{});
10        } catch (IOException ex) {
11            throw new IllegalStateException(ex);
12        }
13        ImmutableSettings.Builder elasticsearchSettings = ImmutableSettings.settingsBuilder()
14                .put("http.enabled", "false")
15                .put("path.data", dataDirectory.toString());
16 
17        node = NodeBuilder.nodeBuilder()
18                .local(true)
19                .settings(elasticsearchSettings.build())
20                .node();
21    }
22 
23    @Override
24    protected void after() {
25        node.close();
26        try {
27            FileUtils.deleteDirectory(dataDirectory.toFile());
28        } catch (IOException ex) {
29            throw new IllegalStateException(ex);
30        }
31    }
32 
33    public Client getClient() {
34        return node.client();
35    }
36}

So let’s write our first test for it! Let’s create an Index, index a document and retrieve it again – in only a couple of clean lines!

1public class NodeCreationTest {
2 
3    @Rule
4    public ElasticsearchTestNode testNode = new ElasticsearchTestNode();
5 
6    @Test
7    public void indexAndGet() throws IOException {
8        testNode.getClient().prepareIndex("myindex", "document", "1")
9                .setSource(jsonBuilder().startObject().field("test", "123").endObject())
10                .execute()
11                .actionGet();
12 
13        GetResponse response = testNode.getClient().prepareGet("myindex", "document", "1").execute().actionGet();
14        assertThat((String) response.getSource().get("test"),equalTo("123"));
15    }
16}

Run the test and we’ll see in the console log that the node boots up, actually handles the request and shuts down gracefully, awesome!

So we could be done right here and commence happy TDD – but let’s crank it up a notch and

add JBehave to our stack
create a custom mapping within our code that we want to test

Let’s imagine we are building the next Twitter application and after careful consideration we come up with the follwing story:

Scenario: Basic Tweet retrieval
Given A user Chris submitted a tweet I luv tweeting
When We list all tweets for the user Chris
Then A tweet with the text I luv tweeting will be found

To introduce JBehave I can really recommend the fantastic JUnitReportingRunner from my workmates, grab it from Maven Central and create a Story Class that wires our story with some sane defaults. For further explanation check out Andreas’ post here .

1@RunWith(JUnitReportingRunner.class)
2public class TwitterStories extends JUnitStories {
3 
4    private final CrossReference xref = new CrossReference();
5 
6    public TwitterStories() {
7        super();
8    }
9 
10    @Override
11    protected List storyPaths() {
12        String codeLocation = codeLocationFromClass(this.getClass()).getFile();
13        List paths =  new StoryFinder().findPaths(codeLocation, asList("Tweet.story"
14        ), asList(""),"");
15        return paths;
16    }
17 
18    @Override
19    public InjectableStepsFactory stepsFactory() {
20        return new InstanceStepsFactory(configuration(), new TweetRetrievalTest());
21    }
22 
23    @Override
24    public Configuration configuration() {
25        Class<? extends Embeddable> embeddableClass = this.getClass();
26        Properties viewResources = new Properties();
27        viewResources.put("decorateNonHtml", "true");
28        viewResources.put("reports", "ftl/jbehave-reports-with-totals.ftl");
29        // Start from default ParameterConverters instance
30        ParameterConverters parameterConverters = new ParameterConverters();
31        // factory to allow parameter conversion and loading from external resources (used by StoryParser too)
32        ExamplesTableFactory examplesTableFactory = new ExamplesTableFactory(new LocalizedKeywords(), new LoadFromClasspath(embeddableClass), parameterConverters);
33        // add custom converters
34        parameterConverters.addConverters(new ParameterConverters.DateConverter(new SimpleDateFormat("yyyy-MM-dd")),
35                new ParameterConverters.ExamplesTableConverter(examplesTableFactory));
36        return new MostUsefulConfiguration()
37                .useStoryLoader(new LoadFromClasspath(embeddableClass))
38                .useStoryParser(new RegexStoryParser(examplesTableFactory))
39                .useStoryReporterBuilder(new StoryReporterBuilder()
40                        .withCodeLocation(CodeLocations.codeLocationFromClass(embeddableClass))
41                        .withViewResources(viewResources)
42                        .withFormats(STATS)
43                        .withFailureTrace(true)
44                        .withFailureTraceCompression(true)
45                        .withCrossReference(xref))
46                .useParameterConverters(parameterConverters)
47                        // use '%' instead of '$' to identify parameters
48                .useStepPatternParser(new RegexPrefixCapturingPatternParser(
49                        "$"))
50                .useStepMonitor(xref.getStepMonitor());
51    }

Here you can see we’re loading our previous story called “Tweet.story” and a test called “TweetRetrievalTest”. This test maps our story to actual executable code and takes care of the Elasticsearch node bootup:

1public class TweetRetrievalTest{
2 
3    public ElasticsearchTestNode testNode = new ElasticsearchTestNode();
4 
5    @BeforeStory
6    public void setUp() throws Throwable {
7        testNode.before();
8 
9        testNode.getClient().admin().indices().create(new CreateIndexRequest("twitter")).actionGet();
10        testNode.getClient().admin().indices()
11                .preparePutMapping("twitter")
12                .setType("tweets")
13                .setSource(mapping())
14                .execute().actionGet();
15    }
16 
17    @AfterStory
18    public void after(){
19        testNode.getClient().admin().indices().prepareGetFieldMappings("twitter").execute().actionGet();
20        testNode.after();
21    }
22 
23    private SearchResponse response;
24 
25    @Given("A user $user submitted a tweet $tweet")
26    public void userTweets(@Named("tweet") String tweet , @Named("user") String user) throws IOException {
27        testNode.getClient().prepareIndex("twitter", "tweets", "1")
28                .setSource(jsonBuilder()
29                        .startObject()
30                        .field("user", user)
31                        .field("message", tweet)
32                        .endObject())
33                .execute()
34                .actionGet();
35    }
36 
37    @When("We list all tweets for the user $user")
38    public void retreiveTweetsForUser(@Named("user") String user) {
39        response = testNode.getClient().prepareSearch("twitter").
40                setTypes("tweets")
41                .setQuery(QueryBuilders.termQuery("user", user))
42                .setFrom(0).setSize(60).setExplain(true)
43                .execute()
44                .actionGet();
45 
46    }
47 
48    @Then("A tweet with the text $text will be found")
49    public void expectTweet(@Named("tweet") String tweet)  {
50        for (SearchHit hitFields : response.getHits().getHits()) {
51            if(hitFields.field("tweet").getValue().equals(tweet)) {
52                return;
53            }
54        }
55        fail("expected Tweet " + tweet + "not found");
56    }
57 
58    /**
59     * Overriding mapping
60     */
61    public XContentBuilder mapping() throws Exception {
62        XContentBuilder xbMapping =
63                jsonBuilder()
64                        .startObject()
65                        .startObject("tweet")
66                        .startObject("properties")
67                        .startObject("source")
68                        .field("type", "string")
69                        .endObject()
70                        .startObject("user")
71                        .field("type", "string")
72                        .endObject()
73                        .startObject("message")
74                        .field("type", "string")
75                        .endObject()
76                        .endObject()
77                        .endObject()
78                        .endObject();
79        return xbMapping;
80    }
81 
82}

As a side-note, see how easy it is to inject a custom mapping into the whole setup! Feel free to experiment with it:

provision your Elasticsearch production nodes with a custom mapping from a .yml file
make use of the API: boost values, give it a custom scoring, try out different filters or analyzers
run the test and know that it’s going to work. Awesome!

Happy testing folks! You can grab the code for this small example on our company github account here .

Google

Was this post helpful?

Likes

Blog author

Christian Uhl

Do you still have questions? Just send me a message.

fromChristian Uhl

Elasticsearch tips: inserting vs. updating your index

Transforming an update-heavy Elasticsearch use case into an insert-heavy one. Just recently i’ve had the opportunity to set up an Elasticsearch installation at a customer that had a rather unique use case, and i’d like to share my approach of that with...

NoSQL
APM

12.12.2014 | 6 Minuten Lesezeit

Christian Uhl

Datastax Tech Day bei der codecentric München

Am 18.11 fand der erste DataStax Tech Day in Deutschland im Münchner Büro der codecentric statt. Im Mittelpunkt des Tages stand Apache Cassandra für Einsteiger. Rund 40 Teilnehmer lauschten hochkarätigen Sprechern, die in der kurzen Zeit eines einzigen...

5.12.2014 | 2 Minuten Lesezeit

Christian Uhl

Elasticsearch Zero Downtime Reindexing – Problems and Solutions

Reindexing Elasticsearch could be so easy. Well in the first place, we all wouldn’t have to reindex at all. Why should you do this? There is dynamic mapping! In this post I will explain why dynamic mapping won’t do you much good, how you can deal with...

NoSQL
IT-Security

17.9.2014 | 8 Minuten Lesezeit

Christian Uhl

Your job at codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Datenanalyse auf die schnelle Art – mit Amazon Athena und GitLab

Wenn wir Erkenntnisse aus großen Datenmengen gewinnen wollen, bieten uns Cloud Service Provider inzwischen Lösungen an, dank derer wir uns kein Data Warehouse oder Hadoop-Cluster mehr in den Keller stellen müssen. AWS hat mit Athena, RedShift und EMR...

Cloud
Big Data
AWS
Serverless
GitLab

21.3.2023 | 16 Minuten Lesezeit

Maik Fleuter

Simple Deep Learning mit Amazon SageMaker

In unserem neuesten codecentric.AI-Video geben wir eine kurze Einführung in Amazon SageMaker und zeigen, wie man damit schnell und einfach ein Bildklassifikationsmodell trainieren kann, das Brillenträger von Nicht-Brillenträgern unterscheidet. Mit ...

Big Data
AWS
Cloud
Data
Machine Learning
Künstliche Intelligenz
Python

11.7.2018 | 5 Minuten Lesezeit

Shirin Elsinghorst

Oliver Moser

Schema First Design – Produktentwicklung mit GraphQL

Zu den schwierigsten Aufgaben bei der Entwicklung neuer Produkte gehören die Koordinierung der Teams, der Featureumfang und unbekannte Faktoren in Form der „moving parts“. Laut Definition müssen wir bestimmte laufende Prozesse berücksichtigen. Ein gutes...

API
Big Data

25.6.2018 | 7 Minuten Lesezeit

Toni Haupt

Deep Learning Workshop bei der codecentric AG in Solingen

Big Data – ein Schlagwort, das zur Zeit in aller Munde ist, egal ob in nerdigen Blogs, wissenschaftlichen Artikeln oder der Tageszeitung. Doch wie funktionieren Analysen von Big Data eigentlich? Um das heraus zu finden, habe ich an dem Workshop über ...

Big Data
Data
Künstliche Intelligenz
Machine Learning

6.2.2018 | 6 Minuten Lesezeit

Shirin Elsinghorst

BigchainDB – Das leichtgewichtige Blockchain-Framework [blockcentric #...

Mit BigchainDB sehen wir eines der ersten vollumfänglichen, aber einfachen Blockchain-Frameworks. Das Projekt macht es sich zur Aufgabe, Blockchain für eine große Anzahl von Entwicklern und Use Cases nutzbar zu machen, ohne besonderes Wissen in Kryptographie...

Big Data
Blockchain

3.1.2018 | 5 Minuten Lesezeit

Jonas Verhoelen

Data Science und Big Data: Eine Mate mit… Michael Plümacher #EineMateMit

„Aufgrund der gestiegenen Rechen- und Speicherkapazitäten sind in den letzten Jahren ganz neue Möglichkeiten entstanden“, sagt Michael Plümacher, Data Scientist bei der codecentric. Einige seiner aktuellen Data-Science- und Big Data-Projekte stellt er...

Big Data
Data
Community

21.9.2017 | 1 Minuten Lesezeit

Felix Braun

Fraud-Analyse mit Data-Science-Techniken

Was ist Fraud und was macht es für Data Science interessant?Im Zusammenhang mit Data Science beschreibt das englische Wort „Fraud“ in der Regel Betrug im Online-, Kreditkarten- oder Versicherungsgeschäft. Betrugsversuche bei Geschäftsabschlüssen gibt...

Big Data
Data
Machine Learning

5.9.2017 | 9 Minuten Lesezeit

Shirin Elsinghorst

Datenlookup in Spark Streaming

Bei der Verarbeitung von Streaming-Daten reichen die Rohdaten aus den Events häufig nicht aus. Meist müssen noch zusätzliche Daten hinzugezogen werden, beispielsweise Metadaten zu einem Sensor, von dem im Event nur die ID mitgeschickt wird.In diesem ...

Softwarearchitektur
Scala
Big Data
Data
Streaming

1.6.2017 | 7 Minuten Lesezeit

Matthias Niehoff

Event-Zeit-Verarbeitung in Apache Spark und Apache Flink

Mit dem neuen Release von Spark 2.1 wurden die Eventzeit-Fähigkeiten von Spark Structured Streaming ausgebaut. Höchste Zeit also den Stand der Unterstützung genauer unter die Lupe zu nehmen und mit Apache Flink – ausgestattet mit einem breiten Support...

Big Data
Data
Machine Learning
Streaming

19.4.2017 | 9 Minuten Lesezeit

Matthias Niehoff

Verteilte Stream Processing Frameworks für Fast Data & Big Data – Ein ...

Spark Streaming, Flink, Storm, Kafka Streams – das sind nur die populärsten Vertreter einer stetig wachsenden Auswahl zur Verarbeitung von Streaming-Daten in großen Mengen. In diesem Artikel soll es um die wesentlichen Konzepte hinter diesen Frameworks...

Big Data
Data
Open Source
Messaging
Machine Learning
Streaming

26.3.2017 | 10 Minuten Lesezeit

Matthias Niehoff

IoT-Analyse-Plattform

Internet of Things (IoT) oder auch Industrie 4.0 ist heute in aller Munde. Aber welche Herausforderungen stellen sich eigentlich bei der Verarbeitung großer Datenmengen? Eine Variante kann sein, Daten zu sammeln und später im Batch-Betrieb zu verarbeiten...

Cloud
IoT
NoSQL
Scala
Big Data

13.7.2016 | 14 Minuten Lesezeit

Achim Nierbeck

Aufbau eines Mesosphere DC/OS-Clusters mit Terraform

Der Ein oder Andere kennt höchstwahrscheinlich die Herausforderung, ein verteiltes System zu betreiben. Selbst der Betrieb von einem einfachen Online-Shop kann eine nicht triviale Aufgabe sein, wenn der Shop in einer Microservice-Architektur über mehrere...

Cloud
CI/CD
DevOps
Softwarearchitektur
Reactive Programming
Messaging
Big Data

24.4.2016 | 5 Minuten Lesezeit

Bernd Zuther

Joins und Schema-Validierung mit MongoDB 3.2

Mit Version 3.2 der dokumentenorientierten NoSQL-Datenbank MongoDB werden u.a. zwei lange vermisste(?) Features eingeführt, auf die ich im Folgenden näher eingehen möchte.JoinsDie logischen Namensräume, in denen man seine Dokumente ablegt, werden in...

NoSQL
Big Data
Validierung

7.12.2015 | 3 Minuten Lesezeit

Tobias Trelle

Canary-Release mit der Very Awesome Microservices Platform (Vamp)

Im letzten Artikel der Serie “Microservice-Deployment ganz einfach ” erkläre ich, dass Docker nicht zwingend notwendig ist, um Microservice-Anwendungen auszuliefern. Wie der Artikel zeigt, kann man die Linux-Paketverwaltung benutzen, um Microservice...

Cloud
CI/CD
Infrastructure
Startup
Open Source
Big Data
Microservices
Kubernetes
Softwareentwicklung
API

11.10.2015 | 7 Minuten Lesezeit

Bernd Zuther

Cascaded Builder Pattern in Java

Wenn man mit dem Builder Pattern arbeitet, gelangt man an den Punkt, an dem man komplexe Objekte aufbauen muss. Nehmen wir nun an, dass wir ein Auto erzeugen möchten. Dieses besteht aus den Attributen Motor, Maschine und einer Anzahl Räder. Hierfür verwenden...

Java
Search

22.4.2015 | 6 Minuten Lesezeit

Sven Ruppert

Big Data und Tiny Hardware – Teil 1

AbstractNachdem Ihr unsere „Big Data in a Box“-Lösung auf Schulungen und Usergroup-Treffen gesehen habt, haben wir immer wieder Anfragen zur Realisierung von Euch erhalten. Ihr wolltet wissen was wir dort gebaut haben und wie alles einzurichten ist. ...

Java
Open Source
Big Data
NoSQL

11.2.2015 | 3 Minuten Lesezeit

Dominique Ronde

MongoDB 2.8 – Neue Storage-Engine WiredTiger

Mit Version 2.8 kommen wesentliche Neuerungen auf die Benutzer der NoSQL-Datenbank MongoDB zu. Eine davon ist die Einführung einer weiteren Storage Engine. Was es damit auf sich hat, werde ich in diesem Artikel erläutern.Bis zur Version 2.6 hat MongoDB...

Big Data
NoSQL

10.12.2014 | 4 Minuten Lesezeit

Tobias Trelle

Einführung in Hadoop – Was ist Big Data & Hadoop? (Teil 1 von 3)

Was ist Big Data?„Big Data ist, wenn die Daten selbst Teil des Problems werden“Diese kurze Definition in Anlehnung an ein Zitat des Verantwortlichen für Marktforschung bei O’Reilly Media, Roger Magoulas, ist in meinen Augen die beste Charakterisierung...

Big Data
NoSQL

12.8.2013 | 5 Minuten Lesezeit

Uwe Printz

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Send

Behaviour Driven Development with Elasticsearch

Was this post helpful?

Ja

Blog author

Get in contact

Get in contact

More articles

Elasticsearch tips: inserting vs. updating your index

Datastax Tech Day bei der codecentric München

Elasticsearch Zero Downtime Reindexing – Problems and Solutions

Your job at codecentric?

Agile Developer und Consultant (w/d/m)

View Job

More articles in this subject area

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Datenanalyse auf die schnelle Art – mit Amazon Athena und GitLab

Simple Deep Learning mit Amazon SageMaker

Schema First Design – Produktentwicklung mit GraphQL

Deep Learning Workshop bei der codecentric AG in Solingen

BigchainDB – Das leichtgewichtige Blockchain-Framework [blockcentric #...

Data Science und Big Data: Eine Mate mit… Michael Plümacher #EineMateMit

Fraud-Analyse mit Data-Science-Techniken

Datenlookup in Spark Streaming

Event-Zeit-Verarbeitung in Apache Spark und Apache Flink

Verteilte Stream Processing Frameworks für Fast Data & Big Data – Ein ...

IoT-Analyse-Plattform

Aufbau eines Mesosphere DC/OS-Clusters mit Terraform

Joins und Schema-Validierung mit MongoDB 3.2

Canary-Release mit der Very Awesome Microservices Platform (Vamp)

Cascaded Builder Pattern in Java

Big Data und Tiny Hardware – Teil 1

MongoDB 2.8 – Neue Storage-Engine WiredTiger

Einführung in Hadoop – Was ist Big Data & Hadoop? (Teil 1 von 3)

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten

Contact

Send

Behaviour Driven Development with Elasticsearch

Was this post helpful?

Ja

Blog author

Get in contact

Get in contact

More articles

Elasticsearch tips: inserting vs. updating your index

Datastax Tech Day bei der codecentric München

Elasticsearch Zero Downtime Reindexing – Problems and Solutions

Your job at codecentric?

Agile Developer und Consultant (w/d/m)

View Job

More articles in this subject area

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Datenanalyse auf die schnelle Art – mit Amazon Athena und GitLab

Simple Deep Learning mit Amazon SageMaker

Schema First Design – Produktentwicklung mit GraphQL

Deep Learning Workshop bei der codecentric AG in Solingen

BigchainDB – Das leichtgewichtige Blockchain-Framework [blockcentric #...

Data Science und Big Data: Eine Mate mit… Michael Plümacher #EineMateMit

Fraud-Analyse mit Data-Science-Techniken

Datenlookup in Spark Streaming

Event-Zeit-Verarbeitung in Apache Spark und Apache Flink

Verteilte Stream Processing Frameworks für Fast Data & Big Data – Ein ...

IoT-Analyse-Plattform

Aufbau eines Mesosphere DC/OS-Clusters mit Terraform

Joins und Schema-Validierung mit MongoDB 3.2

Canary-Release mit der Very Awesome Microservices Platform (Vamp)

Cascaded Builder Pattern in Java

Big Data und Tiny Hardware – Teil 1

MongoDB 2.8 – Neue Storage-Engine WiredTiger

Einführung in Hadoop – Was ist Big Data & Hadoop? (Teil 1 von 3)

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten