OCR

Wat is OCR?

Wat is OCR en welke voordelen heeft dit voor bedrijven?

De afkorting OCR staat voor Optical Character Recogition ofwel optische tekenherkenning. Dit maakt de conversie mogelijk van verschillende documenten, zoals papieren documenten, PDF-bestanden of digitale afbeeldingen in bewerkbare en doorzoekbare bestanden.

Wanneer een documentbeheersysteem in een bedrijf wordt geïntroduceerd, wordt vaak eerst een groot aantal papieren documenten ingescant, zodat deze kunnen worden gedigitaliseerd. De meeste scans worden eenvoudig geconverteerd naar een niet-bewerkbare PDF. Met een OCR-toepassing wordt de inhoud van het document herkend en kunt u het document ook in digitale vorm gebruiken en er vooral naar zoeken.

Hoe werkt een OCR?

Hiervoor analyseert het programma de structuur van de documentafbeelding en verdeelt de pagina in verschillende tekstblokken, vervolgens in regels en vervolgens verdeeld in woorden en letters. Vervolgens vergelijkt het programma de afzonderlijke letters met patronen en maakt het hypotheses over welk woord het zou kunnen zijn. Na het berekenen van vele hypothesen presenteert het programma aan het einde een resultaat, de herkende tekst. Dit werkt zo goed dat het foutenpercentage minder dan 2% is. Dit betekent echter ook dat er ongeveer 20 fouten voorkomen in een tekst van ongeveer 1.000 woorden. Vaak wordt een "ü" "u" of vice versa. Maar zelfs deze problemen kunnen worden opgelost met autocorrecties of speciale add-ons.

Handgeschreven documenten zijn een probleem

Hoewel OCR-programma's gemakkelijk veel standaarddocumenten kunnen herkennen en ook hun eigen foutenpercentages kunnen verlagen door verschillende automatische correcties, blijven ze worstelen met de herkenning van handgeschreven documenten. Begrijpelijk, omdat elk handschrift van elkaar verschilt, terwijl de meest voorkomende digitale lettertypen altijd hetzelfde zijn. Op dit punt, bijvoorbeeld, bij de overdracht van handgeschreven protocollen of vragenlijsten, wordt menselijke arbeid onophoudelijk. Met cloudservices en crowdworkers is de informatie in de documenten echter snel en gemakkelijk toegankelijk. Vanwege de AVG is het niet eenvoudig om handgeschreven documenten naar derden te sturen, die ze vervolgens digitaliseren.

Oplossing door Crowdworker

Daarom wordt software gebruikt die een gescand document ontvangt en de handgeschreven velden hierin herkent. Het snijdt de woorden in afzonderlijke letters en herkent vergelijkbare fragmenten en combineert ze in een taak. Vervolgens wordt de betreffende taak via een online interface naar de cloud gedownload. Dan komen de crowdworkers in actie. Verdeeld over de hele aarde, nemen deze de erkenning van de afzonderlijke taken over. Ze lezen de individuele letters en cijfers en voeren ze in de herkenningssoftware in. Hierna worden de afzonderlijke fragmenten vervolgens weer in hele woorden samengevoegd. Op deze manier kan geen enkele crowdworker conclusies trekken over de afzonderlijke documenten. Het duurt slechts enkele minuten voor een enkele taak voordat u een document eenvoudig en zonder fouten kunt terugkrijgen.

Veel voordelen door OCR

Maar waarom zou u de documenten op deze manier digitaliseren? Is het niet voldoende om de documenten via de gebruikelijke scanner in te lezen? Voor een optimaal gebruik van een DMS is het erg belangrijk dat de tekst in de documenten ook wordt herkend. Alleen dan kan het systeem de documenten voldoende verwerken en gebruiken voor bijvoorbeeld analyses. Anders blijft de informatie gewoon ongebruikt.

16 september 2019

Quantum-superioriteit: Google dient rapport in

Google verzendt nu zijn rapport over de door u ontwikkelde kwantumcomputer, waarvan wordt gezegd dat deze voor het eerst kwantum suprematie heeft bereikt.

Lees verder

Snelheid van digitalisering

Wat vandaag nog steeds innovatief is, is morgen verouderd. Digitalisering verandert onze werkwereld razendsnel.

Lees verder