Daten unterscheiden

Daten sind nicht alle gleich und müssen daher im Rahmen von BI auch unterschiedlich behandelt werden. Zwei wesentliche Unterscheidungsmerkmale sind die Datenherkunft und die Datenstruktur. Beide Merkmale stellen wir im Folgenden etwas genauer vor.

Datenherkunft

Interne Daten sind Informationen, die innerhalb des Unternehmens generiert werden und Bereiche wie Betrieb, Controlling, Personal und Finanzen abdecken. Da diese Daten selbst generiert werden, haben Unternehmen darauf meist leichter Zugriff.

Externe Daten werden im Umfeld des Unternehmens oder werden  komplett außerhalb des Unternehmenskontextes generiert. Hierzu Statistiken, Einträge in (Social-Media) Foren,  Wettbewerbsdaten und viele mehr. Untersuchungen haben gezeigt, dass Business-Analysten intern generierte Daten grundsätzlich für wertvoller halten.  Beide Arten von Daten können jedoch hilfreich sein, um das Unternehmen strategisch zu steuern.

So können interne Daten vor allem bei der operativen Geschäftsführung oder der Optimierung von Abläufen unterstützen. Externe Daten wiederum sind geeignet, um Kunden  und Wettbewerber besser zu verstehen.  Um über eine wirklich aufschlussreiche Business Intelligence zu verfügen, benötigt man einen Überblick über beide Datenarten.

Datenstruktur

Einige Daten sind strukturiert, die meisten jedoch unstrukturiert. Strukturierte und unstrukturierte Daten werden auf unterschiedliche Weise erhoben, gesammelt und skaliert, und jede befindet sich in einer anderen Art von Datenbank.

Strukturierte Daten sind meist quantitativ Daten – liegen also als konkrete Zahlen, Nummern oder Werte vor. Die meisten Menschen sind es gewohnt, mit dieser Art von Daten zu arbeiten. Diese Art von Daten finden Sie häufig in Kalkulationsprogrammen wie Excel oder relationalen Datenbanken. Strukturierte Daten sind hochgradig organisiert und leicht verständlich. In relationalen Datenbanken können strukturierte Daten mithilfe eines relationalen Datenbankverwaltungssystems (RDBMS) relativ schnell eingegeben, gesucht und bearbeitet werden. Dies ist ein zentraler Vorteil strukturierter Daten.

Unstrukturierte Daten, die typischerweise als qualitative Daten kategorisiert werden, können nicht mit herkömmlichen Datenverarbeitungsmethoden verarbeitet und analysiert werden. Da unstrukturierte Daten kein vordefiniertes Datenformat haben, werden sie am besten in nicht relationalen (NoSQL) Datenbanken verwaltet. Eine andere Möglichkeit, unstrukturierte Daten zu verwalten, besteht darin, Data Lakes zu verwenden, um sie in Rohform aufzubewahren. Die Bedeutung unstrukturierter Daten nimmt rapide zu. Jüngste Prognosen zeigen, dass unstrukturierte Daten über 80 % aller Unternehmensdaten ausmachen.

strukturierte Daten

  • Verständlichkeit

    Wird von vielen Anwender:innen intuitiv verstanden.

  • Machine Learning

    Wird von den meisten Machine-Learning Algorithmen verstanden.

  • Mehr Tools

    Da strukturierte Daten schon länger als unstrukturierte verarbeitet werden, stehe dafür mehr Tools zur Verfügung.

  • eingeschränkte Nutzbarkeit

    Daten mit einer vordefinierten Struktur können nur für den vorgesehenen Zweck verwendet werden, was ihre Flexibilität und Verwendbarkeit einschränkt.

  • eingeschränkte Speichermöglichkeiten

    Strukturierte Daten werden in der Regel in Datenspeichersystemen mit starren Schemata (z. B. „Data Warehouses“) gespeichert. Daher erfordern geänderte Anforderungen eine Aktualisierung aller strukturierten Daten, was zu einem höheren Ressourcenaufwand führt.

unstrukturierte Daten

  • natives Format

    Unstrukturierte Daten, die in ihrem nativen Format gespeichert sind, bleiben undefiniert, bis sie benötigt werden. Diese Anpassungsfähigkeit erhöht die Dateiformate in der Datenbank, was den Datenpool erweitert und in der Analyse ermöglicht, nur die Daten aufzubereiten und zu analysieren, die benötigt werden.

  • einfache Erfassung

    Da die Daten nicht vorbearbeitet bzw. vorstrukturiert werden müssen, können sie schnell und einfach erfasst werden.

  • kostengünstige Speicherung

    Unstrukturierte Daten können in sogenannten „Data Lakes“ gespeichert werden. Dies ermöglicht eine hohe Speicherkapazität bei nutzungsabhängigen Preisen, was Kosten senkt und die Skalierbarkeit erleichtert.

  • benötigt Expertise

    Aufgrund ihrer undefinierten/nicht formatierten Natur ist datenwissenschaftliches Fachwissen erforderlich, um unstrukturierte Daten aufzubereiten und zu analysieren. 

  • erfordert spezialisierte Tools

    Die Bearbeitung der Daten erfordert spezialisierte BI-Tools.

Um einen Überblick zu schaffen, haben wir die zwei verschiedenen Merkmale von Daten in einer Matrix gegenübergestellt. Die sich daraus ergebenden vier Quadranten bilden die Felder ab, in denen Unternehmen typischerweise Daten finden können. Wir haben für jedes Feld 1 bis 2 Beispiele vorbereitet.

Feld 1: Kunden Adressen, Erlösstatistik

Feld 3: Kunden E-Mails, Beiträge auf eigenen Social Media Kanälen

Feld 2: Aktienkurse, Geo-Locations von Wettbewerbern

Feld 4: Wetterdaten, Beiträge oder Rezensionen in Online-Foren