Data Science basiert, wie der Name schon sagt, auf Daten. Doch was genau ist ein "Datum"? In seiner einfachsten Form ist ein Datum eine abstrakte Darstellung einer Entität aus der realen Welt – sei es eine Person, ein Objekt oder ein Ereignis. In diesem zweiten Teil unserer Serie untersuchen wir die Struktur von Daten, die verschiedenen Arten von Attributen und warum die richtige Datenaufbereitung der wichtigste Schritt in jedem Projekt ist.
1. Der Analyse-Datensatz: Die m * n Matrix
In der Welt der Data Science werden Daten meist in einer sogenannten Matrix organisiert. Stellen Sie sich eine Tabelle vor:
- Die Zeilen (n): Jede Zeile repräsentiert eine einzelne Entität, auch "Instanz", "Fall" oder "Beispiel" genannt. In einem Kundendatensatz wäre jede Zeile ein einzelner Kunde.
- Die Spalten (m): Jede Spalte repräsentiert ein "Attribut", eine "Variable" oder ein "Merkmal". Dies sind die Eigenschaften, die die Entität beschreiben (z. B. Name, Alter, Einkommen).
Die Erstellung dieses "Analyse-Datensatzes" ist das Fundament. Er ist oft das Ergebnis der Zusammenführung von Daten aus vielen verschiedenen Quellen, wie Datenbanken, sozialen Medien أو Sensordaten.
2. Die vier Skalenniveaus: Welche Daten haben wir?
Nicht alle Daten sind gleich. Ein Data Scientist muss verstehen, mit welcher Art von Attribut er arbeitet, da dies die Analysemethoden bestimmt. Wir unterscheiden hauptsächlich vier Typen:
A. Nominale Attribute (Namen)
Dies sind Kategorien ohne natürliche Rangfolge. Beispiele sind Geschlecht, Blutgruppe oder die Farbe eines Autos. Man kann sie zählen, aber nicht mit ihnen rechnen.
B. Ordinale Attribute (Rangfolgen)
Hier gibt es eine klare Reihenfolge, aber die Abstände zwischen den Werten sind nicht messbar. Ein klassisches Beispiel ist eine Kundenzufriedenheitsumfrage: "sehr unzufrieden", "neutral", "sehr zufrieden".
C. Intervall-Attribute (Abstände)
Bei diesen numerischen Daten sind die Abstände zwischen den Werten gleich, aber es gibt keinen "echten" Nullpunkt. Das beste Beispiel ist die Temperatur in Celsius. 20 Grad sind zwar mehr als 10 Grad, aber es ist nicht doppelt so warm, weil der Nullpunkt willkürlich festgelegt wurde.
D. Verhältnis-Attribute (Proportionen)
Dies ist das höchste Datenniveau. Es gibt einen absoluten Nullpunkt. Beispiele sind Gewicht, Länge oder Preis. Hier können wir sagen: "100 Euro sind doppelt so viel wie 50 Euro".
3. Daten als Abstraktion: Die Karte ist nicht das Territorium
Ein wichtiger philosophischer und praktischer Punkt in der Data Science ist das Verständnis, dass Daten niemals die vollständige Realität abbilden. Sie sind eine Abstraktion. Wie der Wissenschaftler Alfred Korzybski sagte: "Die Karte ist nicht das Territorium."
Wenn wir Daten sammeln, wählen wir bewusst aus, welche Merkmale wir erfassen und welche wir ignorieren. Diese Wahl ist oft subjektiv und kann zu Verzerrungen (Bias) führen. Ein Modell ist nur so gut wie die Auswahl der Attribute, die es füttern.
4. Strukturierte vs. Unstrukturierte Daten
Heute stammen die meisten Daten nicht mehr aus ordentlichen Tabellen. Wir unterscheiden zwischen:
- Strukturierten Daten: Klassische Datenbanken, die leicht zu durchsuchen sind.
- Unstrukturierten Daten: E-Mails, Videos, Tonaufnahmen oder Social-Media-Beiträge. Diese machen den Großteil der heutigen "Big Data" aus und erfordern komplexe Techniken wie Sprachverarbeitung (NLP), um sie in ein strukturiertes Format zu bringen.
5. Abgeleitete Attribute: Der Schlüssel zur Erkenntnis
Manchmal liegt der wahre Wert nicht in den Rohdaten, sondern in dem, was wir daraus berechnen. Ein klassisches Beispiel ist der Body-Mass-Index (BMI). Gewicht und Größe allein sagen wenig über die Gesundheit aus, aber ihr Verhältnis zueinander (das abgeleitete Attribut) liefert wertvolle neue Informationen. In der Data Science suchen wir ständig nach solchen Interaktionen zwischen Merkmalen.
Fazit
Das Verständnis der Anatomie der Daten ist der erste Schritt zur Meisterschaft in Data Science. Nur wer weiß, wie seine Daten strukturiert sind und welche mathematischen Grenzen sie haben, kann die richtigen Algorithmen wählen. Im nächsten Artikel unserer Serie verlassen wir die Theorie der Daten und werfen einen Blick auf das "Ökosystem der Data Science": Welche Technologien wie Hadoop oder NoSQL ermöglichen uns den Umgang mit diesen riesigen Datenmengen?
