 Das Gedächtnis des Internets
Das World Wide Web ist ein flüchtiges Medium. Im Schnitt werden Webseiten gerade mal 100 Tage alt. Wie kann man da in 20 Jahren noch etwas von dem erfahren , was heute im Web geschrieben steht? Es gibt Initiativen, die wollen genau das erreichen!
von Werner Pluta
Am 6. August 1991 kündigte ein gewisser Tim Berners-Lee im Diskussionsforum Newsgroup "alt.hypertext" ein "einfaches aber wirksames globales Informationssystem" an. Ausgangspunkt für dieses Projekt mit dem Titel "World Wide Web" sei die Vorstellung, "dass viele akademische Informationen frei für jeden zugänglich sein sollen." Die Folgen sind bekannt.
Doch das Internet ist ein schnelllebiges Medium - eigentlich müsste Berners-Lees Diskussionsbeitrag längst dem digitalen Vergessen anheim gefallen sein. "Die durchschnittliche Lebensdauer einer Website beträgt in 100 Tage", klagt Brewster Kahle. Ein Gedächtnis für das World Wide Web musste her. Also gründete Kahle "Internet Archive Wayback Machine". Seit 1996 speichert er in seiner elektronischen Bibliothek das World Wide Web - alle zwei Monate aufs Neue.
Etwa 10.000 Nutzer besuchen jeden Tag die verschwundenen Internet-Seiten. Die meisten, so Kahle, schauen sich nur ihre eigene Site an. Wissenschaftler nutzen das Archiv zu Forschungszwecken, Webdesigner um die "Evolution des Designs" (Kahle) zu verstehen. Auch Betreiber von Internet-Präsenzen finden praktische Anwendungen für das Archiv: So stellten die Archivare bei der Auswertung der Zugriffsdaten fest, dass ein Websitebetreiber, dem vermutlich die Grafiken auf seiner Site verloren gegangen waren, diese aus dem Archiv geladen hat.
Inzwischen ist die Sammlung der gespeicherten Dokumente auf 13 Milliarden angewachsen, etwa 100 Terabyte Daten. Das entspricht etwa 100 Millionen Büchern. Die größte Bibliothek der Welt, die amerikanische Library of Congress, besitzt gerade mal 26 Millionen. Eine technische Herausforderung: Welcher Computer hat genug Speicherkapazität, um eine solche Datenmenge zu bewältigen?
Kahle fand die Lösung: Distributed Computing, die Aufteilung von Rechenoperationen und Datenspeicherung auf mehrere Rechner. "Wir haben einen Supercomputer aus normalen PCs gebaut." Die nach eigenen Angaben "größte Datenbank der Welt" besteht aus handelsüblichen Computern, die die Archivare im Dutzend kaufen. Inzwischen sind es rund 200, jeder von ihnen ausgerüstet mit vier Festplatten und 512 Megabyte Arbeitsspeicher.
Natürlich ist der Umgang mit solchen Datenmengen nicht ganz unproblematisch. Wichtig sei, so berichtet der WWW-Archivar, den Datenbestand stets auf aktuellen Datenträgern zu sichern. Denn die Websiten fallen nicht nur der mangelnden Wertschätzung ihrer Betreiber, sondern auch dem raschen technischen Fortschritt zum Opfer: Disketten, für die es keine Laufwerke mehr gibt, kaputte Datenträger, nicht mehr lesbare Datenformate. "Digitales Material ist sehr viel anfälliger als physisches Material, das Jahrhunderte oder sogar Jahrtausende überdauern kann. Versuchen Sie doch mal, eine 20 Jahre alte Floppy auszulesen", so Kahle.
Es scheint paradox: Dokumente, die auf modernen Maschinen erstellt werden, haben weniger Bestand als Jahrtausende alte Texte auf vergänglichen Materialien wie Papyrus oder Pergament. Doch schon 1998 äußerte Christopher Densmore die Befürchtung, das ausgehende 20. Jahrhundert werde eine überaus schlecht dokumentierte Epoche. Der Archivar an der Universität von Buffalo im US-Bundesstaat New York machte die mangelnde Haltbarkeit der Datenträger, aber auch die schnell veraltenden Datenformate dafür verantwortlich: Bestimmte Datenformate können nur von Computern einer bestimmten Generation gelesen werden oder von der Software eines gewissen Jahrganges, die nicht mehr erhältlich ist. Densmores Rezept gegen den digitalen Gedächtnisschwund: nicht nur Dateien zu archivieren, sondern auch die Software, mit der sie erstellt wurden.
Mit dieser Problematik befasst sich auch Brewster Kahle. "Refreshing the Bits" nennt er die Notwendigkeit, Speichermedien stets auf dem aktuellen Stand zu halten und die Bits immer auf die neuen Medien zu schaufeln. "Migration" soll sicherstellen, dass die Dateien lesbar bleiben. "Es geht um die Frage, wie man alte Microsoft Word oder alte Word-Perfect-Dateien liest", erklärt Kahle. Ein Problem, an dem sich die Geister scheiden: Soll man die alten Programme emulieren, mit denen die Daten erstellt wurden? Oder lieber die Dateien in aktuelle Formateübersetzen?
Für das Internet Archive ist diese Debatte derzeit nicht von Belang. HTML sei, sagt Kahle, ein sehr verbreitetes Format, das in absehbarer Zeit nicht veralte. Deshalb widmet der Weboberarchivar seine Aufmerksamkeit lieber dem Auffrischen der Bits. "Robustness" lautet seine oberste Anforderung an das Web-Archiv – damit seiner digitalen Weltbibliothek das Schicksal der Bibliothek von Alexandria erspart bleibt.
Die Bewahrung des Usenet, des Netzes der Diskussionsforen, hat sich der Suchmaschinenbetreiber Google zur Aufgabe gemacht. 700 Millionen Newsgroup-Beiträge aus über zwanzig Jahren hat Michael Schmitt, technischer Leiter von Google Groups, zusammengetragen, insgesamt knapp zwei Terabyte. "Das Archiv ist so vollständig, wie es geht", erzählt Schmitt stolz. Dabei bedurfte es einiger Detektivarbeit, um das Usenet bis zurück ins Jahr 1981 zu rekonstruieren. Ein wichtiger Meilenstein war der Kauf des Usenet-Archivs von "Deja News" im Februar 2001.
Ein Aufruf auf der Google-Homepage, alte Usenet-Bestände für das Archiv zu Verfügung zu stellen, erwies sich als Glücksgriff. So stellte ihm beispielsweise die inzwischen in der Fraunhofer-Gesellschaft aufgegangenen Gesellschaft für Mathematik und Datenverarbeitung (GMD) eine praktisch vollständige "de"-Hierarchie zur Verfügung. Außerdem fand Schmitt das legendäre "UT Zoo"-Archiv, das die Jahre 1981 bis 1991 umfasst. Benannt ist es nach dem Server des Zoologischen Instituts an der University of Toronto. Dieser war seinerzeit der zentrale Rechner des Usenet, das damals gerade mal 200 Nutzer hatte
Wie die WWW-Suchmaschine von Google ist auch Google Groups ein Ratgeber für beinahe jede Notlage. Ob Fragen der Systemkonfiguration, Beratung für den Kauf eines Content Managementsystems oder Tipps bei Krankheiten- es gibt kaum ein Thema, das nicht in den Foren diskutiert wird. Hier, wo Nutzer ihre Erfahrungen austauschen, findet man oft wertvollere Informationen als auf den Produktseiten der großen Unternehmen. Denn hier erfährt der Ratsuchende von jenen Schwierigkeiten im alltäglichen Einsatz, die die Hersteller gern verschweigen. Internet-Beraterin Petra Vogt konsultierte das Usenet-Archiv, als bei ihrer Digitalkamera Probleme auftauchten. Dort erfuhr die Hamburgerin, dass der Defekt, den der Hersteller herunterspielte, ein herstellungsbedingter Mangel war, mit dem sich viele Kamerabesitzer konfrontiert sahen.
Auch für Historiker sind Newsgroups eine Goldmine, die oft Geschichte in Momentaufnahmen widerspiegeln. "Unglaublich! Unvorstellbar! Historisch!", jubelte beispielsweise am 10. November 1989 der Berliner Gunter Zschoche im Forum "eunet.politics" unter der Betreffzeile "West Berlin - sorry, Berlin". "Wir sitzen heute morgen hier in West-Berlin zusammen und sprechen über die Neuigkeiten über die Mauer - sie ist offen und vielleicht bald gar nicht mehr da!!!!"
Einige denkwürdige historische Ereignisse hat Google hat auf einer gesonderten Seite zusammengestellt. Neben Berners-Lee Ankündigung des WWW findet sich dort beispielsweise die erste Erwähnung de Niederschlagung der Studentenproteste auf dem Platz des Himmlischen Friedens oder die Nachricht, dass ein Flugzeug in das World Trade Center geflogen sei.
Die Macher von Archive.org haben mit den Web Collections eine vergleichbare Auswahl zusammengestellt mit Seiten zum 11. September 2001, der Präsidentschaftswahl im Jahr 2000 sowie einer Sammlung von Websites der britischen Regierung, die Archive.org im Auftrag des National Archives of the United Kingdom zusammengestellt hat.
Noch weiter zurück in der Geschichte digitaler Kommunikation geht Jason Scott, Betreiber von Textfiles.com. Scott hat sich der Rettung der elektronischen Mailboxen verschrieben. Die ersten dieser elektronischen Schwarzen Bretter entstanden Ende der 70er Jahre. Nutzer wählten sich über ein Modem direkt auf einem anderen Computer ein, luden Dateien herunter und hinterließen eigene Nachrichten. "Ich fing 1983 an, diese Dateien zu sammeln, kurz nachdem ich einen IBM-Rechner und ein Modem bekam", erinnert sich Scott. "Ich speicherte sie auf Disketten und tauschte sie mit Freunden. Mit der Zeit hatte ich tausende."
Die weltweiten Datennetze brachten die Mailboxen schnell aus der Mode. "1998 fragte ich mich, was wohl aus einer alten Mailbox geworden ist, die ich immer angerufen hatte", erzählt Scott. Doch eine Suche im Internet blieb erfolglos. "Da dämmerte mir, dass es im Internet fast nichts über die Mailboxen aus meiner Jugend gab." Ein Archiv muss her, entschied Scott. "Ich stellte meine eigene Sammlung von Textdateien ins Internet, etwa 2000 Stück, und Textfiles.com war geboren."
Inzwischen ist das Archiv auf etwa 60.000 Dateien angewachsen, darunter Kuriositäten wie Verhaltensregeln für eine Begegnung mit Außerirdischen. Neben dem Textarchiv führt Scott zudem ein Mailbox-Verzeichnis. Über 100.000 Boards hat er inzwischen seiner Liste - mit dem Zeitraum, in dem sie existierten, und der Telefonnummer, unter der sie zu erreichen waren.
Die Netzgemeinde nutzt die Archive gern, berichten die Archivbetreiber übereinstimmend. Google-Mitarbeiter Schmitt hatte nach der Wiedereröffnung des Archivs im vergangenen Jahr mit eine Flut von Aufforderungen gerechnet, alte Postings zu entfernen. "Doch überraschenderweise kamen nur sehr wenige", erzählt er.
Und falls doch jemand seine Seiten aus dem Archiv entfernen möchte? Kein Problem, sagt Web-Oberarchivar Kahle. "Wir wollen nichts in unserem Archiv haben, das die Autoren nicht darin haben wollen." Webmaster können einige oder alle ihrer Webseiten für die Suchroboter sperren. Sind jedoch die Dateien schon im Archiv gespeichert, werden sie nachträglich gelöscht. Hat ein Websitebetreiber seine liebe Müh' mit dem Ausschließen der Suchroboter ("robots exclusion"), kann er sich auch vertrauensvoll an die Archive.org-Mitarbeiter werden. Sie löschen die Dateien dann von Hand.

Werner Pluta
Mit einem einem ausgeprägten Faible für Ostasien und vor allem für China lebt und arbeitet Werner Pluta in Hamburg, zur Zeit als freier Wissenschaftsjournalist, u.a. für Spiegel Online, Bild der Wissenschaft, Focus, Die Zeit, c't
Website: www.wpluta.de |