Das Potenzial von Machine Learning in einem Data Lake

München, 06.06.2019.

Egal um welche Branche oder Unternehmensgröße es sich handelt: Daten sind unverzichtbar geworden, wenn es darum geht, fundierte Entscheidungen zu treffen oder Prozesse zu optimieren.

Dazu müssen die gewaltigen Datenmengen, die Unternehmen heute ununterbrochen generieren allerdings erst erschlossen und nutzbar gemacht werden. Die Grundlage dafür bildet der Data Lake (Datensee), ein zentrales Repository, in dem sämtliche Daten gespeichert und verwaltet werden.

Ein Data Lake bringt zahlreiche Vorteile mit sich. Er erleichtert die Datenerfassung, reduziert den zeitlichen Aufwand für Datenauswahl- und Integration und bietet eine enorme Rechenleistung, die es ermöglicht, Daten je nach Anwendungsbereich beliebig zu transformieren und zu kombinieren. Ein kürzlich veröffentlichter Report der Aberdeen Group zeigt, dass die Anwender einer Data-Lake-Architektur neun Prozent mehr organisches Wachstum verbuchen können als die Konkurrenz.

Hierin spiegelt sich eine der interessantesten Perspektiven wider, die der Data Lake bietet: Die Analyse von Daten mittels Machine Learning (ML). Auf diesem Weg lassen sich Geschäftsergebnisse prognostizieren und aufschlussreiche Informationen über die Effizienz von Prozessen, Mitarbeiterproduktivität und andere geschäftskritische Bereiche gewinnen.

Die Schattenseite

Trotz der Möglichkeiten, die ein Data Lake theoretisch bietet, haben viele Unternehmen nach wie vor Probleme mit bestimmten Aspekten der Datenverfügbarkeit- und Integration. Studien zeigen, dass Datenexperten bis zu 80 Prozent ihrer Zeit mit entsprechenden Aufgaben beschäftigt sind.

Das Problem besteht darin, dass es nicht ausreicht, Daten in ihrer „Rohform“ zu speichern. Für die Verarbeitung mittels ML müssen diese aufbereitet werden – was sich als äußerst kompliziert erweisen kann. In den letzten Jahren sind zahlreiche Tools für die Datenaufbereitung auf den Markt gekommen, die diesen Prozess vereinfachen sollen. Doch die Leistungsfähigkeit dieser Tools ist begrenzt, da sie nur für einfache Integrationsaufgaben verwendbar sind. Daher stehen IT-Abteilungen oft vor der schwierigen Aufgabe, neue Datensätze im Data Lake zu erstellen, die mit ML kompatibel sind.

Darüber hinaus verfügen viele Firmen heute über hunderte von Repositories, die über On-Premise-Plattformen, Rechenzentren, Cloud-Lösungen und dergleichen verteilt sind. Es überrascht also nicht, dass oft nur ein Bruchteil aller relevanten Daten überhaupt in den Data Lake gelangt.

Datenvirtualisierung schafft Abhilfe

Glücklicherweise gibt es eine Möglichkeit, diese Probleme in den Griff zu bekommen: Datenvirtualisierung. Unabhängig davon, wo sich die Daten befinden oder in welchem Format die Daten vorliegen, bietet die Datenvirtualisierung einen zentralen Zugriffspunkt. So werden auch Daten verfügbar, die sich noch nicht im Data Lake befinden.

Datenvirtualisierung bietet zudem ein hohes Maß an Benutzerfreundlichkeit. Insbesondere die Tools, die es ermöglichen, Daten zu katalogisieren, helfen Data Scientists, alle verfügbaren Datensätze ohne zu durchsuchen. Die Technologie bietet Anwendern und Unternehmen gleichermaßen neue Möglichkeiten, indem sie Daten demokratisiert und einen schnellen und kostengünstigen Zugriff ermöglicht.

Gleiches ist zeigt sich bei der Datenintegration: Daten werden per Datenvirtualisierung nach einem konsistenten Repräsentations- und Abfragemodell organisiert, das heißt, unabhängig davon, wo die Daten ursprünglich gespeichert sind, können sämtliche Daten dargestellt werden, als ob sie sich am gleichen Ort gespeichert wären. Weiter ist es möglich wiederverwendbarer logische Datensätze zu erstellen, die an individuelle ML-Prozess angepasst werden können. Dadurch werden Aufbereitung und Integration von Daten erheblich erleichtert.

Mehr Produktivität für Datenexperten

Der globale ML-Markt wird in den nächsten vier Jahren um über 40 Prozent wachsen. Da heute kein Weg mehr an datenbasierten Insights vorbeiführt, sind viele Unternehmen momentan auf der Suche nach modernen Lösungen für Analytics und ML. Vor diesem Hintergrund gewinnt Datenvirtualisierung immer mehr an Bedeutung. Die Technologie vereinfacht nicht nur die Arbeit von Datenexperten erheblich; sie liefert auch ML-basierte Analyseergebnisse und stellt damit die ideale Lösung für Unternehmen dar, die organisches Wachstum aus ihren Datenmassen schöpfen wollen. Quelle: Denodo Technologies GmbH

zurück TOP