Daten beschreiben Merkmale von "Dingen". Der allgemeine Begriff "Ding" (thing) kann für eine Person, ein Gerät, ein Unternehmen, ein Buch, ein Prozess, usw. stehen. Wir könnten auch sagen: Daten beschreiben Merkmale eines Untersuchungsgegenstandes.
Personenbezogene Daten beschreiben demnach Merkmale einzelner Personen. Bevölkerungsdaten beschreiben Merkmale von Bevölkerungsgruppen. Fahrplandaten beschreiben Abfahrts- und Ankunftszeiten von Zügen und Bussen. Forschungsdaten beschreiben Merkmale von Forschungsprojekten und deren Ergebnissen.
Daten werden erfasst, z.B. mit Messungen, Befragungen, Beobachtungen, Berechnungen. Erfasste Daten sind dann wertvoll, wenn auch festgehalten (und zugänglich gemacht) wird, wer sie wann, wie, womit, unter welchen Bedingungen, usw. erfasst hat. Falls solche Beschreibungen in strukturierter Form vorliegen, bezeichnet man sie als Metadaten.
Primärdaten oder Rohdaten sind die direkt erfassten Daten vor einer Bearbeitung oder Interpretation. Sekundärdaten oder abgeleitete Daten entstehen durch Berechnung, Bearbeitung oder Interpretation aus den Primärdaten.
Quantitative Daten sind numerisch (z.B. eine Länge in Metern, ein Gewicht in kg, eine Anzahl, ein prozentualer Anteil). Nominale und ordinale Daten sind qualitative Daten. Nominale Daten beschreiben mögliche Verschiedenartigkeiten eines Merkmals (z.B. das Geschlecht: männlich / weiblich). Ordinale Daten beschreiben mögliche Verschiedenartigkeiten eines Merkmals unter Berücksichtigung einer Rangfolge (z.B. Altersgruppen: 15-19 Jahre / 20-24 Jahre / 25-29 Jahre / usw.).
Daten werden immer mehr und immer wichtiger. Sie bilden die Grundlage für Analysen, die Information liefern, um Vorgänge besser zu verstehen und zu steuern und um bessere Entscheidungen zu treffen.
Oft wird in diesem Zusammenhang der Begriff "Big Data" erwähnt. Eine einheitliche Definition gibt es (immer) noch nicht. Aber einige gängige Definitionen weisen darauf hin, dass "big" mit der Menge, der Geschwindigkeit der Zunahme der Menge, der Vielfalt unterschiedlicher Datenformate und der zunehmenden Unsicherheit bezüglich der Vertrauenswürdigkeit der Daten zu tun hat. Big Data übersteigt damit die Leistungsfähigkeit konventioneller Methoden und Systeme zur Erfassung, verarbeitung, Speicherung und Analyse der Daten. Manche Definitionen nennen auch die Einbindung von unstrukturierten Daten (z.B. aus Social Media Plattformen) in die Analyse als Merkmal von Big Data (siehe z.B. Ward, 2013).
Ein Dokument trägt Inhalte, die sich an Menschen richten und die mit (direkter oder indirekter) Beteiligung von Menschen erstellt worden sind. Der Inhalt eines Dokuments kann sachlich sein (z.B. eine Sitzungsankündigung, eine Rechnung, die Fotografie einer Landschaft), aber auch Gefühle und Haltungen ausdrücken.
Dokumente können auch Daten enthalten (z.B. das Protokoll einer Messung).
In digitale ("elektronische") Dokumente können ausserdem Metadaten "eingebettet" werden (z.B. der Aufnahmeort, der Zeitpunkt der Aufnahme, die Blendenzahl und die Verschlusszeit bei einer Fotografie).
Computerprogramme können die Bedeutung des Inhalts von digitalen Dokumenten nur erschliessen, wenn dieser strukturiert ist (z.B. eine Tabelle mit Messwerten in einem genau definierten Format). Derartige Dokumente kann man als maschinenlesbar bezeichnen. Um mit dem Computer einzelne Aspekte der Bedeutung des Inhalts von unstrukturierten und semi-strukturierten digitalen Dokumenten zu erschliessen, sind Methoden des Text-Mining nötig (z.B. Sentiment Analysis, Named Entity Recognition).
Mit der zunehmenden Digitalisierung von Geschäftsprozessen steigen die Anforderungen an die Maschinenlesbarkeit von Dokumenten. Verschiedene Initiativen befassen sich deshalb mit der Entwicklung von Standards für das "Einbetten" von maschinenlesbaren Metadaten in Geschäftsdokumente, z.B. die Zentralen User Guidelines des Forums elektronische Rechnung Deutschland (ZUGFeRD).