Um in einer Texterkennung saubere Ergebnisse zu erzielen, sollte die Auflösung mindestens 150 DpI betragen. Ich habe persönlich die Erfahrung gemacht, dass Auflösungen über 300 DpI die Erkennungsleistung nicht weiter erhöhen.
Deshalb nutze ich bei OCR immer 300 DpI.
Wenn man Bilddateien als Vorlage nimmt, ist jede Störung, also auch Kompressionsartefakte, zu vermeiden.
Ich nutze unkomprimierte TIFFs.
Dann sollte man in der Scansoftware noch den Weißpunkt so einstellen, dass der i.d.R. weiße Hintergrund des Dokumentes auch wirklich weiß ist, und nicht grau. Ansonsten wird der graue Hintergrund als blattfüllende Grafik angesehen, was natürlich die spätere Datei auch aufbläht.
Einfach ein bisschen mit Kontrast und Helligkeit spielen, hat bei mir auch gedauert.
Hilfreich ist auch ein Calibrationsheet, welches einen genormten Graukeil und einen genormten Farbkeil mitbringt. So lassen sich später Fehlfarben besser korrigieren.
Leider gibt es solche Calibrationsheets nicht für jeden Scanner und einzeln kosten sie im professionellen Fotografenbedarf ein höllisches Geld, je nach Größe...