ETL-Pipeline und Datenvisualisierung

Entwicklung einer ETL-Pipeline und Datenvisualisierung für ein führendes Maklerunternehmen

Der Kunde

Ein Maklerunternehmen mit dem Ziel, seine Online-Präsenz zu stärken und die Nutzererfahrung auf seiner Website zu optimieren.

1 Zielsetzung

Das Unternehmen setzt intensiv auf digitales Marketing, insbesondere auf SEO- und SEA-Kampagnen, um in den Suchergebnissen optimal platziert zu werden. Aber auch Kennzahlen wie die sogenannten Core Web Vitals (CWV) spielen eine Rolle für das Ranking der Website. Google erfasst CWV, um die User Experience von Websites zu bewerten. Websites, die bestimmte Qualitätsstandards nicht erreichen, sind weniger sichtbar. Neben dem eigentlichen Ranking der Website, nehmen Ladezeit, visuelle Stabilität und Interaktivität maßgeblichen Einfluss auf die Nutzerzufriedenheit. Eine Website mit einer guten User Experience wird häufiger und länger besucht und erzielt eine bessere Conversion Rate. Daher sollen Daten zur Performance und Usability sowie zu Problemen der Website gesammelt und aufbereitet werden, um den Kunden bei der Entwicklung von Strategien zur Verbesserung seiner Online-Präsenz zu unterstützen.

2 Durchgeführte Maßnahmen:

Im Rahmen des Projekts wurde mit dem Aufbau einer ETL-Pipeline ein grundlegendes Konzept des Data Engineering zur Sammlung relevanter Daten angewandt. ETL steht für „Extract, Transform, Load“ und bezeichnet einen Prozess, bei dem Daten von Datenquellen extrahiert, transformiert und dann an einem Zielort geladen werden. Im Folgenden wird die Umsetzung der einzelnen Schritte beschrieben.

Extraktion:

Zunächst wurden Daten über verschiedene Schnittstellen (APIs), insbesondere die Google Pagespeed API, gewonnen. Darüber hinaus wurde eine spezielle Crawling-Software für die Analyse von Website-Problemen und Optimierungsmöglichkeiten verwendet. Die Befehle und API-Abfragen werden mithilfe von Python-Skripten durchgeführt. So werden Rohdaten, meist im JSON- oder CSV-Format, gewonnen. Abbildung 1 zeigt die typische Struktur von Rohdaten aus einer API-Abfrage.

Abbidung 1: Rohdaten im JSON-Format

Transformation:

Im Anschluss an die Extraktion werden die Rohdaten mithilfe von Funktionen von Python-Bibliotheken zur Datenanalyse und -verarbeitung wie Pandas und NumPy analysiert, bereinigt und transformiert. Dies ermöglicht die Extraktion relevanter KPIs aus den gesammelten Daten und die Überführung der Daten in ein strukturiertes Format. So werden die Daten für den nächsten Prozessschritt, nämlich das Laden an den gewünschten Zielort, vorbereitet. In Abbildung 2 ist das Ergebnis der Transformation von Rohdaten in ein strukturiertes Format dargestellt.

Abbidung 2: Sturkturierte Daten als Ergebnis des Transformationsprozesses

Laden:

Im abschließenden Schritt des ETL-Prozesses werden die Daten in den gewünschten Zielort geladen. Dies kann eine relationale Datenbank, ein Data Warehouse, eine Cloud-Speicherlösung oder sogar eine Datei wie CSV oder Excel sein. Da die Daten in diesem Projekt auf einem Dashboard visualisiert und regelmäßig aktualisiert werden, kommt eine cloudbasierte Speicherlösung zum Einsatz.

Automatisierung:

Ein zusätzlicher Aspekt, der bei der Implementierung der ETL-Pipeline berücksichtigt wurde, ist die automatisierte Aktualisierung der Daten. Durch eine planmäßige Ausführung der Skripte wird eine fortlaufende Datenerfassung sichergestellt. Die cloudbasierte Datengrundlage der Dashboards wird automatisch in einem festgelegten Zeitintervall geupdated. Dadurch wird sichergestellt, dass die Tabellen und Grafiken stets aktuelle Daten präsentieren.

Abbidung 2: Beispielhafte Darstellung eines Dashboards auf Basis automatisch aktualisierter Daten

Verwendete Technologien:

Datenbeschaffung und Analyse:
- Google Pagespeed API
- Screaming Frog
Datentransformation:
- Python (Programmiersprache)
- Datenanalyse Bibliotheken pandas und NumPy
Cloud-Integration:
- Google Cloud (Cloud Storage für Datenspeicherung)
- Python (Programmiersprache)
Automatisierung:
- Cron-Job in Virtual Environment
Visualisierung:
- Lookerstudio

Fazit:

Durch die Anwendung bewährter Data-Engineering-Praktiken und eine Visualisierung der gewonnenen Daten wird dem Kunden ein Überblick über entscheidende KPIs zur Performance seiner Website gegeben. Basierend auf fundierten Erkenntnissen kann der Kunde gezielt Strategien und Arbeitspakete für seine Entwicklerteams entwickeln und so die Usability und das Suchmaschinenranking seiner Website verbessern.

Fallbeispiele werden
zu echten Lösungen