Falk Dübbert

Hinweis: Dieser Artikel ist eine Baustelle. Ich werde einmal pro Woche an ihm arbeiten.

Es war dringend überfällig, das Backup- und Archiv-Konzept noch mal anzugehen. Die Datenmenge hat sich … verändert.
Der Artikel wird… lang.

2017 2023
Gesamtbestand 8 TB 13 TB
davon statisch/Archiv 7 TB 11 TB
Changerate mittel 11 GB / tag 16 GB / tag
Changerate max 30 GB 520 GB
Kompressibilität 29% 43 %
größter Anteil Platz HDD-Images VMs
größte Anzahl EML-Dateien Bilder (NEF + JPG)

Bei Kunden erfasse ich als erstes genau diese Daten und prüfe dann die möglichen Backupvarianten und mit der Tabelle gehe ich dann in einen Beratungstermin. Der hat folgende Inhalte.

  • Abgleich der aufgefassten Ziele
  • Vorstellung globaler Strategien für Storage, Backup und Archiv
  • Zusammenführen der Inputs und Übertragen auf die Kandidaten
  • Festlegen der Maßnahmen

Wenn ich diesen Vorgang für mich durchspiele:

Ziele
  • Aktiv + 2
  • automatisches-Backup
  • örtliche und systemische Redundanz
  • innere und äußere Verschlüsselung
  • Automatisierung

Aufmerksamen Lesern fällt sofort die Abwesenheit von „Offline“ auf. Dazu später mehr.

Jetzt kommen meine Einschränkungen:
  • Das NAS muss für das Backup nicht permanent laufen müssen.
  • Die Anzahl der manuellen Operationen darf 1 pro Tag nicht überschreiten und muss auch ohne diese Operation weiterlaufen.
  • Ich muss auf Komponentenebene über die beteiligten Geräte bestimmen können.

Bei der Come-Up-Time oder Restore-Time-Objective habe ich keine Einschränkungen oder Probleme.

Die Datenquellen:
  • 3 Notebooks (1x Mac, 1x Windows 10, 1x Debian)
  • 2 Server (1x Rootserver, 1x Colo)
  • 1x Seafile Cloud
  • 1 NAS
    Auch hier ist „Quelle“ upräzise bis falsch. Dazu später mehr
Mögliche Ebenen:
  • Imagebasiertes-Backup der Rechner und Datei-basiertes Backup der NASen (bisherige Variante)
  • Datei-Basiertes Backup
  • Service-Basiertes Backup
Mögliche Backup-Pläne:
  • „Forever Incremental“
  • Vollbackups und Inkremente
  • Versionierte Spiegelung

Ich vermeide gerade massiv, die Wörter „Strategie“ und „Technik“ zu benutzen. Denn Tools oder gar Produkte kommen sehr spät in der Abwägung.

Der Vorgang ist erstmal den Überblick über die Daten zu bekommen und dann zu prüfen, ob diese Daten ggf. vor dem Backup behandelt werden können oder müssen. Ich fahre ein dreiteiliges Datenmodell.
1) Aktive Daten:
Sind Daten, die ich aktuell oder innerhalb der letzten drei Monate in Benutzung habe. Diese werden mit der Cloud synchronisiert.
2) Archivierte Daten:
Diese Daten, sind älter und wurden vom Rechner auf das NAS verschoben.
3) Medien (Festplatten-Images, VM-Images, Fotos und Videos):
Diese existieren nur auf dem USB-C-JBOD und dem NAS. Die Rechner dienen im Grunde nur dazu die Daten zu Ihnen zu tragen.

Bislang schoben die Notebooks Veeam-Images auf das NAS und dieses kopierte sich auf USB-Platten. Veeam-Images sind zwar sehr robust, aber ich möchte mit der Backup-Ebene nach „oben“. Image-Backup ist eine zuverlässige Lösung, aber mit den Handständen, die man unternehmen muss um für den Restore an der Datenträgerverschlüsselung vorbei zukommen, sind wesentliche Vorteile weg. Hier muss man sagen, dass Apple diese Teile des Prozesses mit der TimeMachine besser gestaltet und vor allem ins Betriebsystem integriert hat – Beim Rest hat Apple jedoch ziemlich versagt.

Imagebasierte Backups sind automagisch vollständig und haben die geringsten Aufwände nach der Wiederherstellung.

Auf der Negativseite kann es gut sein, dass man zum Beispiel den schlafenden Kryptotrojaner mit wiederbelebt und man erhält die maximale Quelldatengröße aber auch den finalen Lock-In-Effekt. Gerade bei Subscription-Based- oder Cloud-Lizenzen ist man am Ende darauf angewiesen, dass der Hersteller der Backup-Lösung noch existiert und entweder Restores ehemaliger Kunden noch zulässt oder kurzfristig möglich macht.

Das neue Backup soll somit mit offline installierbaren Programmen auskommen. Noch muss ich MacOS, Windows, Linux und FreeBSD abdecken – auch das ist ein Grund für mich, in Zukunft auf Datei-Backup zu setzen. Der Mechanismus, mit dem die einzelnen Rechner ihre Dateien auf die beiden Zentralen Punkte schieben, ist vorhanden und täglich erprobt.