OCR verwerking

11/27/2021
2 minutes to read

Na het opladen van documenten worden deze door de Document Capture Service opgepikt uit de PDF-map. Dit proces verloopt sequentieel. Achterliggend worden bestanden map per map gecontroleerd en opgepikt. Elk bedrijf heeft per document categorie een eigen map.

NOTE

Houdt er rekening mee dat door het sequentieel verloop de ocr-verwerking tijd nodig kan hebben vooraleer een document opgepikt wordt. Zeker wanneer heel veel bestanden tegelijk worden aangeleverd.

Bij de ocr-verwerking wordt het pdf-bestand omgezet in tekst. Eén pdf-bestand resulteert na deze verwerking in één pdf-bestand, één tiff-bestand en één xml-bestand.

Het pdf-bestand wordt gebruikt om later het document te kunnen weergeven in BoCount Dynamics. Het tiff-bestand wordt gebruikt voor het aanleren van tekst. Het xml-bestand bevat alle herkende woorden en zal bij het importeren overgezet worden naar een tabel in de database van BoCount Dynamics.

NOTE

De vierde tegel Bestanden met fout, bevat documenten die niet correct verwerkt konden worden. Een van de redenen daarvoor kan zijn omdat het om een beveiligd pdf-bestand gaat. Bestanden in deze tegel moeten nagekeken worden. Zie ook: Documenten in fout.

Na de OCR-verwerking, volgt het importeren van bestanden.