Der Begriff „Data Lake“ bezeichnet einen sehr großen Datenspeicher, der sich aus verschiedensten Datenquellen speist. Neben text- oder zahlenbasierten Daten kann ein Data Lake auch Bilder, Videos oder andere Datenformate aufnehmen. Er speichert die Daten in der Regel in ihrem ursprünglichen Rohformat. Die Daten können strukturiert oder unstrukturiert sein und müssen vor der Speicherung nicht validiert oder (um-) formatiert werden. Erst wenn die Daten benötigt werden, erfolgt die Strukturierung und gegebenenfalls die Umformatierung der betroffenen Daten.
Ein Data Lake ist in Organisationen mit einem hohen digitalen Reifegrad der einzige Speicher für alle Unternehmensdaten, einschließlich Rohkopien von Quellsystemdaten und transformierten Daten, die für Aufgaben wie Berichterstellung, Visualisierung, erweiterte Analysen und maschinelles Lernen verwendet werden. Neben den Daten werden auch generische Analysemethoden abgelegt, sodass diese ebenfalls für die zentral gespeicherten Daten zur Verfügung stehen und nicht im Vorfeld jedes Analyseprozesses zusammengetragen werden müssen. Daher benötigen Data Lakes in der Regel mehr Speicherkapazität als zum Beispiel „Data Warehouses“ (siehe dort). Ein Data Lake lässt sich aufgrund seiner riesigen Informationsmenge für flexible Analysen im Big-Data-Umfeld einsetzen.