Heute hab ich durch Zufall einen für mich neuen Robotnamen in einer robots.txt entdeckt: ia_archiver

Der ia_archiver ist der nette kleine Robot der Waybackmachine.

Die Waybackmachine spidert seit Jahren bestehende Seiten und speichert diese in unregelmäßigen Abständen auf den eigenen Servern zwischen, somit ist es für die Nachwelt jederzeit möglich sich ein älteres Abbild einer Seite anzeigen zu lassen. Wie sah z.B. Microsoft.com vor fast 12 Jahren aus? Oder wie lange existiert eine Domain schon in etwa?

Für die meisten ist es sicherlich kein Problem das das Veröffentlichte dort wohlmöglich auf alle Ewigkeiten zwischengespeichert wird. Wer jedoch zu 100% darüber entscheiden möchte für wie lange die eigenen Inhalte für die Nachwelt verfügbar bleiben, der hat über die robots.txt eine einfache Möglichkeit die Archivierung seiner Seite auch nachträglich abzuknipsen.

User-agent: ia_archiver
Disallow: /

Zack, innerhalb von ein paar Stunden ist das Archiv zu eurer Domain nicht mehr zugänglich. Natürlich ist es hier auch möglich nur einzelne URLs oder Unterordner für die Archivierung zu sperren.



Kommentare zum Thema Waybackmachine-Robot aussperren:

1 | Einsiedlerkrebs schrieb am 15.04.2008 um 21:29
Gravatar dieses Kommentators

Die sind nicht weg, sondern sind nur nich mehr sichtbar. Wenn man den Eintrag in der robots.txt entfernt, dann tauchen die Seiten nach ner Zeit wieder in der waybackmachine auf.
Hatte das schon mal getestet.

2 | Christian schrieb am 15.04.2008 um 21:46
Gravatar dieses Kommentators

Jepp, da hast du recht. Allerdings hat man eben zum einen den Schutz solange man die Zeile in der robots.txt belässt, zudem glaube ich auch das während dieser Zeit der ia_archiever keine Seiten mehr Spider, inhalte die während dieser Zeit also hinzugefügt wurden nicht in dessen Index auftauchen.

3 | Daniel schrieb am 16.04.2008 um 00:56
Gravatar dieses Kommentators

Jetzt wo du den Microsoft-Link postet verfalle ich ein bisschen in Nostaligie und Erinnerungen. Kann mich noch gut an die Seite erinnern und meine Anfänge im Internet. Ach ja… schön war die Zeit… :-)

4 | macx schrieb am 16.04.2008 um 16:16
Gravatar dieses Kommentators

Danke für den Tipp, habe ich bei mir gleich eingebaut.

5 | Janis schrieb am 16.04.2008 um 17:20
Gravatar dieses Kommentators

Ich muss zugeben, als ich das erste Mal von hackthenet.de gehört hatte, dachte ich als erstes an eine Website, die illegale Inhalte anbietet. Danke Wayback habe ich eben erfahren, dass das ja wirklich stimmte…

Wayback ist echt ein tolles Ding und ich finde es schade, diesen Robot auszusperren… Ich werde es jedenfalls nicht tun! :)

6 | Christian schrieb am 16.04.2008 um 17:34
Gravatar dieses Kommentators

Guck mal unter Persona, da stehts sogar drin :)

Kindheits-Bug könnte man das von damals sogar nennen… aber wahrscheinlich ist genau für sowas das aussperren des Robots gut, nur das ich mich für damals nicht schäme, was macht man nicht alles in der Kindheit :D

7 | Markus Baumer schrieb am 18.04.2008 um 14:55
Gravatar dieses Kommentators

Falls man möchte, dass die Website generell ausgeschlossen werden, kann man sich per Mail an die Leute der Waybackmachine wenden. Ich hatte den Fall, dass ich eine Domain gelöscht hatte, diese folglich keine robots.txt mehr mit Aussperrung ausgab. Somit hatte die Waybackmachine die Website inkl. der Historie wieder im Angebot. Nach einer kurzen formlosen E-Mail wurde die gesamte Website für den Abruf gesperrt.

8 | Felix schrieb am 01.07.2008 um 15:28
Gravatar dieses Kommentators

Die Länge der Historie bzw. die Anzahl der Einträge, die im Archiv der Wayback-Machine gespeichert sind, spielen beim Ranking in Suchmaschinen mitunter eine Rolle. Das sollte man bei der Entscheidung berücksichtigen, wenn man überlegt den Archive-Robot auszusperren.

9 | Christian schrieb am 01.07.2008 um 16:23
Gravatar dieses Kommentators

@Felix Das is schmarn. Sicherlich spielt das alter einer Domain eine Rolle, aber dafür fragt Google und Co. doch nicht bei der Waybackmachine an, sondern jede Suchmaschine merkt sich einfach wann sie das erste mal eine Webseite durchsucht hat. Da hat jede Suchmaschine einen eigenen kleinen Index.

10 | Markus schrieb am 01.07.2008 um 16:58
Gravatar dieses Kommentators

@Felix: Wenn man berücksichtigt, wie oft die Wayback-Machine Verbindungsfehler hat oder unvollständige Daten beinhaltet, sollte einem klar sein, dass dies keine Grundlage für den Datenbestand für Google sein kann.

11 | Daniel schrieb am 15.10.2009 um 21:40
Gravatar dieses Kommentators

Auf jedenfall ein guter Tipp. Wobei es wirklich manchmal Interessant ist was man mal vor Jahren Pupliziert hat.

12 | gummibaerle schrieb am 16.11.2009 um 13:17
Gravatar dieses Kommentators

Schaut euch mal den Hinweis von Matt Cutts an zum Thema “Blocking Internet Archive may be a Negative Signal” (http://www.seomoz.org/blog/new-interesting-insights-into-google-rankings-spam-from-pubcon).

Künftig ist es wohl besser den Archiv-Bot nicht auszusperren.

Gruss
Wolfgang

13 | Web Architekt schrieb am 17.12.2009 um 18:54
Gravatar dieses Kommentators

Ist schon witzig, da dachte ich immer das web sei ein schnell flüchtiges Medium, aber Pustkuchen heute, als Rentne,r finde ich die Website die ich 2002 für meinen Rentengeber http://www.kraemer-bau.de schrieb wieder.Wenn ich zurückdenke wie ich mir damals mit Frontpage die Finger gebrochen habe…peinlich ist es mir trotzdem nicht. Ich finde den Robot sollte man nicht aussperren, man soll eben nur das schreiben , wozu man stehen kann.

14 | Dirk schrieb am 13.01.2010 um 08:46
Gravatar dieses Kommentators

Schön, dass es solche Tipps, wie diesen gibt. Bislang hat die Waybackmachine meine Seite noch nicht entdeckt (laut Seitwert). Werde gleichmal den Code einbinden, damit das auch so bleibt

15 | Suchmaschinenoptimierung Offenbach schrieb am 26.02.2010 um 14:02
Gravatar dieses Kommentators

Ich würde den Eintrag noch um folgende Zeilen erweitern.
User-agent: ia_archiver/1.6
Disallow: /
So bleibt auch der neuere Bot draußen. Viele Grüße..Markus

Kommentar-Feed für diesen Artikel




Dein Kommentar:


HTML-Tags werden entfernt.
Formatierung bitte mit Textile.
Gravatare werden unterstützt.

Werbeabwehr: (bitte lass dieses Feld auf jeden Fall leer)

Name: (erforderlich)

E-Mail: (wird NICHT angezeigt)

Homepage: (wird bei Spamverdacht manuell gelöscht)



Blogsuche

RSS-Feeds

Plaste & Plastik

plasteundplastik.de - Das Geocaching-Weblog

Die Kategorien


Netz-Fundstücke


Meta / Propaganda