Jump to content

Dateien vom Webserver per http downloaden und verwaiste löschen?


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Recommended Posts

Hi,

 

ich weiß nicht wohin ich mich wenden soll daher versuche ich einfach mal mein Glück in diesem Forum:

 

Ich habe einen Linux-Webserver vor die Nase gesetzt bekommen welcher per HTTP Dateien zum Download anbietet (ca. 130 GB / Apache mit Directory Listing). Diese Dateien lade ich mittels wget per Taskplaner herunter und synchronisiere sie auf andere Server mit DFS. Klappt wunderbar! Mein Problem: Löscht der Hersteller auf seinem Webserver Dateien, bekomme ich das nicht mit. Demnach verbleiben diese bei mir und der Speicherplatz wächst schnell an (ca. 10GB pro Woche). Offensichtlich kann wget per http keine verwaisten Dateien erkennen und löschen; wie könnte man das Problem lösen bzw. wie würdet ihr das machen?

 

cu,

cjmatsel

Link to comment

Ich würde (k.a. ob das so mit wget geht oder das ein eigenes Script / Programm benötigt) folgendes machen.

 

Lokal die Daten Temporär verschieben, alle Dateien auf dem Webserver auflisten (z.B. Name, Größe, Datum) und mit den Lokalen vergleichen. Wenn eine Datei lokal existiert diese kopieren, wenn nicht herunterladen und am Ende das Temporäre verzeichnis löschen.

 

Oder (einfacher, braucht aber mehr Bandbreite):

Lokal alle Daten löschen und jedes mal neu ziehen.

Link to comment

Hi,

 

die Bandbreite hätte ich, aber bei über 100GB wird das zum einen ein Zeit- und HDD-Problem und zum anderen werden die Daten ja per DFS (und dann über dürre WAN-Verbindungen) repliziert. Das schlägt dann kräftig zu!

 

Soweit ich lesen konnte ist das Thema "orphaned files" bei den wget-Entwicklern zwar angekommen aber bisher noch nicht gelöst worden. Wenn ein anderes Tool gibt was das kann dann nehme ich das gern...

 

Ich hatte schon so eine ähnliche Lösung: Einfach alles herunterladen in ein temporäres Verzeichnis und dann in das DFS-Verzeichnis verschieben, dabei mittels robocopy nicht enthaltene Dateien löschen. Das temporäre Verzeichnis wird dann immer schön geleert... Das Problem: doppelter Speicherplatz ist notwendig!

Link to comment
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...