Replikation (Datenverarbeitung)

Replikation oder Replizierung (lateinisch replicare ‚erwidern‘, ‚wiederholen‘) im Wortsinne ist die bloße Herstellung von Mehrexemplaren (Kopien) derselben Daten, meistens jedoch verbunden mit dem regelmäßigen Abgleich der Daten.

Allgemein dient Replikation in der Datenverarbeitung dazu, Daten an mehreren Orten zugänglich zu machen. Dieses dient einerseits zur Datensicherung; andererseits zur Verkürzung der Antwortzeiten, besonders für lesende Datenzugriffe.

Die einfachste Form der Datenreplikation ist die Speicherung einer Kopie einer Datei (copy), in erweiterter Form das Kopieren und Einfügen moderner Betriebssysteme. – Replikation im Wortsinne ist auch die Vervielfältigung optischer Datenträger in einem Presswerk oder mit Hilfe eines Brenners.

Mehrfach-Haltung von Daten und deren Abgleich

Ändernde Datenzugriffe werden im Allgemeinen durch die Mehrfach-Haltung der Daten aufwändiger. Bei der häufig anzutreffenden Master/Slave-Replikation unterscheidet man zwischen dem „Original“ der Daten (Primärdaten) und den abhängigen Kopien. Bei gleichrangigen Kopien (Versionsverwaltung) muss in der Replikation zu Mergestrategien gegriffen werden, um die Datenbestände zusammenzuführen (salopp Synchronisation, verschieden von echter Synchronisation).

Mitunter ist es wichtig zu wissen, welche Aktualität die Replikate besitzen müssen. Je nach Art der Replizierung liegt zwischen der Bearbeitung bzw. Erstellung der Primärdaten und ihrer Replizierung eine gewisse Zeitspanne. Diese Zeitspanne wird als timelines, meist aber als latency („Latenz“) bezeichnet.

Synchrone Replikation

Von synchroner Replikation spricht man, wenn eine Änderungsoperation an einem Datenobjekt nur dann erfolgreich abgeschlossen werden kann, wenn sie auch auf den Replikaten durchgeführt wurde. Um dies technisch umsetzen zu können, ist ein Protokoll zur Gewährleistung der Atomarität (Unteilbarkeit) von Transaktionen anzuwenden, das Commit-Protokoll.

Strategien synchroner Replikation:

ROWA-Verfahren
Voting-Verfahren, zum Beispiel Gewichtetes Votieren

Beispiele für eine synchrone Replikation sind:

Warm Standby Replikation von ASE-Sybase-Server-Datenbanken
Hot Standby Replikation von SQL-Server-Microsoft-Datenbanken

Asynchrone Replikation

Wenn zwischen der Bearbeitung der primären Daten und der Replizierung eine Latenz liegt, spricht man von Asynchronität. Die Daten sind nur zu dem Zeitpunkt der Replikation synchron (identisch).

Eine einfache Variante der asynchronen Replikation ist die „File Transfer Replication“, der Transfer von Dateien via FTP oder SSH.

Die Daten der Replikate stellen also nur eine Momentaufnahme der primären Daten zu einem bestimmten Zeitpunkt dar. Auf Datenbankebene können so in kurzen Zeitintervallen die Transaktionslogs der Datenbanken von einem Server zum anderen transportiert und in die Datenbank eingelesen werden.

Unter Voraussetzung eines intakten Netzwerks entspricht die Latenz dann dem Zeitintervall, in dem die Transaktionslogs geschrieben werden.

Strategien asynchroner Replikation:

Vor- und Nachteile der Replikation

Vorteile von Replikaten in verteilten Datenbanksystemen:

erhöhte Verfügbarkeit der Daten
Beschleunigung von Lesezugriffen (bessere Antwortzeiten, Kommunikationseinsparungen)
bessere Möglichkeiten zur Lastverteilung und Query-Optimierung

Nachteile:

hoher Updateaufwand
erhöhter Speicherplatzbedarf
mögliche Redundanz der Datensätze bei möglicher Vernetzung

Anwendungsmöglichkeiten

Data-Warehouse-Prozess
Abgleich von Datenbanken in der Groupware

Siehe auch

Liste von Dateivergleichsprogrammen