Heute hab ich durch Zufall einen für mich neuen Robotnamen in einer robots.txt entdeckt: ia_archiver
Der ia_archiver ist der nette kleine Robot der Waybackmachine.
Die Waybackmachine spidert seit Jahren bestehende Seiten und speichert diese in unregelmäßigen Abständen auf den eigenen Servern zwischen, somit ist es für die Nachwelt jederzeit möglich sich ein älteres Abbild einer Seite anzeigen zu lassen. Wie sah z.B. Microsoft.com vor fast 12 Jahren aus? Oder wie lange existiert eine Domain schon in etwa?
Für die meisten ist es sicherlich kein Problem das das Veröffentlichte dort wohlmöglich auf alle Ewigkeiten zwischengespeichert wird. Wer jedoch zu 100% darüber entscheiden möchte für wie lange die eigenen Inhalte für die Nachwelt verfügbar bleiben, der hat über die robots.txt eine einfache Möglichkeit die Archivierung seiner Seite auch nachträglich abzuknipsen.
User-agent: ia_archiver Disallow: /
Zack, innerhalb von ein paar Stunden ist das Archiv zu eurer Domain nicht mehr zugänglich. Natürlich ist es hier auch möglich nur einzelne URLs oder Unterordner für die Archivierung zu sperren.
Kommentare zum Thema Waybackmachine-Robot aussperren:
Ich muss zugeben, als ich das erste Mal von hackthenet.de gehört hatte, dachte ich als erstes an eine Website, die illegale Inhalte anbietet. Danke Wayback habe ich eben erfahren, dass das ja wirklich stimmte…
Wayback ist echt ein tolles Ding und ich finde es schade, diesen Robot auszusperren… Ich werde es jedenfalls nicht tun! :)
Falls man möchte, dass die Website generell ausgeschlossen werden, kann man sich per Mail an die Leute der Waybackmachine wenden. Ich hatte den Fall, dass ich eine Domain gelöscht hatte, diese folglich keine robots.txt mehr mit Aussperrung ausgab. Somit hatte die Waybackmachine die Website inkl. der Historie wieder im Angebot. Nach einer kurzen formlosen E-Mail wurde die gesamte Website für den Abruf gesperrt.
Die Länge der Historie bzw. die Anzahl der Einträge, die im Archiv der Wayback-Machine gespeichert sind, spielen beim Ranking in Suchmaschinen mitunter eine Rolle. Das sollte man bei der Entscheidung berücksichtigen, wenn man überlegt den Archive-Robot auszusperren.
Auf jedenfall ein guter Tipp. Wobei es wirklich manchmal Interessant ist was man mal vor Jahren Pupliziert hat.
Ist schon witzig, da dachte ich immer das web sei ein schnell flüchtiges Medium, aber Pustkuchen heute, als Rentne,r finde ich die Website die ich 2002 für meinen Rentengeber http://www.kraemer-bau.de schrieb wieder.Wenn ich zurückdenke wie ich mir damals mit Frontpage die Finger gebrochen habe…peinlich ist es mir trotzdem nicht. Ich finde den Robot sollte man nicht aussperren, man soll eben nur das schreiben , wozu man stehen kann.
Schön, dass es solche Tipps, wie diesen gibt. Bislang hat die Waybackmachine meine Seite noch nicht entdeckt (laut Seitwert). Werde gleichmal den Code einbinden, damit das auch so bleibt
Ich würde den Eintrag noch um folgende Zeilen erweitern.
User-agent: ia_archiver/1.6
Disallow: /
So bleibt auch der neuere Bot draußen. Viele Grüße..Markus
Kommentar-Feed für diesen Artikel
Antworten zu Webentwicklung und Webdesign Kennt ihr noch SSI?

Die sind nicht weg, sondern sind nur nich mehr sichtbar. Wenn man den Eintrag in der robots.txt entfernt, dann tauchen die Seiten nach ner Zeit wieder in der waybackmachine auf.
Hatte das schon mal getestet.