Also ich habe mir letztes Jahr eine gedruckte Version des Handbuchs für meinen Oldtimer gekauft. Denn wenn man drei Tage damit verbringt, danach zu suchen, "gucks Du bei Tony Jackson, gucks Du hier, gucks Du dort", und in der Hälfte der Fälle einen Fehler 404 und in der anderen Hälfte ein Kurzhuberhandbuch findet, dann ist man genervt.
Ich habe das Handbuch sofort eingescannt, und zwar nicht als monolithischen Klotz, sondern kapitelweise:
> ls -lh *pdf
-rw-r--r-- 1 ... 1.1M Oct 22 2012 001_inhalt.pdf
-rw-r--r-- 1 ... 1.2M Oct 22 2012 017_spez_werkzeuge.pdf
-rw-r--r-- 1 ... 1.9M Oct 22 2012 ds000_0.pdf
-rw-r--r-- 1 ... 1.6M Oct 25 2012 ds100_3.pdf
-rw-r--r-- 1 ... 3.0M Oct 25 2012 ds111_1.pdf
-rw-r--r-- 1 ... 3.8M Oct 25 2012 ds141_1.pdf
-rw-r--r-- 1 ... 2.1M Oct 22 2012 ds231_0.pdf
-rw-r--r-- 1 ... 5.1M Oct 24 2012 ds312_3.pdf
-rw-r--r-- 1 ... 3.0M Oct 24 2012 ds331_1.pdf
-rw-r--r-- 1 ... 4.6M Oct 23 2012 ds334_1.pdf
-rw-r--r-- 1 ... 6.3M Oct 23 2012 ds410_0.pdf
-rw-r--r-- 1 ... 1.8M Oct 24 2012 ds440_0.pdf
-rw-r--r-- 1 ... 3.9M Nov 12 2012 ds451_0.pdf
-rw-r--r-- 1 ... 3.4M Oct 24 2012 ds510_0.pdf
-rw-r--r-- 1 ... 6.9M Oct 22 2012 ds_bt001.pdf
-rw-r--r-- 1 ... 6.2M Oct 23 2012 ds_bt036.pdf
-rw-r--r-- 1 ... 5.9M Nov 1 2012 ds_bt073.pdf
-rw-r--r-- 1 ... 6.9M Nov 2 2012 ds_bt111.pdf
-rw-r--r-- 1 ... 6.8M Nov 1 2012 ds_bt111a.pdf
-rw-r--r-- 1 ... 5.2M Nov 3 2012 ds_bt154.pdf
Dann geht auch das lokale Öffnen des Files schneller, weil sich der Acrobat nicht durch 500MB durchgraben muss.
Will ich was schrauben, drucke ich mir die interessierenden Seiten aus, und wenn Öl oder Dreck dran kommt, ist es egal...
Ich habe hier einen Scanner mit automatischem Einzug und Duplexer, da lege ich die zu scannenden Seiten oben drauf und drücke einen Knopf. Ich denke, die Nettoscanzeit für die ca 800 Seiten war vielleicht drei Stunden. Das ist erträglich, aber man versuche das mal als Privatmann mit einem 100€ Scanner aus dem Saturn...
Es ist aber eigentlich überflüssig, dass das 10 Leute jeder für sich macht.
Und was das OCRen angeht: Vergesst es für die nächsten 20 Jahre! Das mag vielleicht heute für gesprochene Sprache halbwegs funktionieren, wo ein intelligenter Leser übriggebliebene Erkennungsfehler weginterpoliert, aber nie in meinem Leben bei technischen Anleitungen.
Wenn ich eine geOCRte Anleitung vorliegen hätte, in dem für das Ventilspiel 0,6 oder 0,8 mm
angegeben wäre (6 und 8 werden beim OCRen sehr gern vertauscht), würde ich mich doch nie darauf verlassen, sondern immer in das Original reinschauen.
Ich hatte geschrieben, dass ich mich ebenfalls an einer Dokumentensammlung a la Tomsail arbeitsmässig beteiligen würde. Wenn man dafür ein paar nachvollziehbare Regeln aufstellen würde, wir mit angebotenen Dokumenten zu verfahren ist (Scannen/Runterladen, Virencheck, Indizieren, Kurzbeschreibung, in den vorhandenen Bestand einsortieren...), dann könnte man einen gemeinsamen Mailalias einrichten und derjenige, der gerade eine Zeitscheibe frei hat, macht das dann. Wenn dann noch ein Dritter dabei mitmacht, dann wird sich der Arbeitsaufwand für den Einzelnen sehr in Grenzen halten.
Wofür ich keine Zeit habe: OCRen von hunderten von Seiten, Korrekturlesen, Java, PHP, bewegte Intros, bunte mit überflüssigem Schnickschnack überladene Seiten, auf denen es blinkt und wenn man mit der Maus drüberfährt poppt allenthalben irgendwas auf.
Und was ich besonders hasse: Seiten die mit PHP, Java und sonstigem Mist so überladen sind, dass sie meinen Browser zum Absturz bringen.
Ich schliesse mich allen Vorschreibern an, die zum Ausdruck gebracht haben, dass eine zuverlässige Downloadmöglichkeit von gescannten .pdf-Dokumenten
heute viel wichtiger ist, als ein Wolkenkuckucksheim
irgendwann, das wegen grossem Arbeitsaufwand auf halbem Weg stecken bleibt.
Klemens