
Wat is OCR?
Wat is OCR en welke voordelen heeft dit voor bedrijven?
De afkorting OCR staat voor Optical Character Recogition ofwel optische tekenherkenning. Dit maakt de conversie mogelijk van verschillende documenten, zoals papieren documenten, PDF-bestanden of digitale afbeeldingen in bewerkbare en doorzoekbare bestanden.
Wanneer een documentbeheersysteem in een bedrijf wordt geïntroduceerd, wordt vaak eerst een groot aantal papieren documenten ingescant, zodat deze kunnen worden gedigitaliseerd. De meeste scans worden eenvoudig geconverteerd naar een niet-bewerkbare PDF. Met een OCR-toepassing wordt de inhoud van het document herkend en kunt u het document ook in digitale vorm gebruiken en er vooral naar zoeken.
Hoe werkt een OCR?
Hiervoor analyseert het programma de structuur van de documentafbeelding en verdeelt de pagina in verschillende tekstblokken, vervolgens in regels en vervolgens verdeeld in woorden en letters. Vervolgens vergelijkt het programma de afzonderlijke letters met patronen en maakt het hypotheses over welk woord het zou kunnen zijn. Na het berekenen van vele hypothesen presenteert het programma aan het einde een resultaat, de herkende tekst. Dit werkt zo goed dat het foutenpercentage minder dan 2% is. Dit betekent echter ook dat er ongeveer 20 fouten voorkomen in een tekst van ongeveer 1.000 woorden. Vaak wordt een "ü" "u" of vice versa. Maar zelfs deze problemen kunnen worden opgelost met autocorrecties of speciale add-ons.
Handgeschreven documenten zijn een probleem
Hoewel OCR-programma's gemakkelijk veel standaarddocumenten kunnen herkennen en ook hun eigen foutenpercentages kunnen verlagen door verschillende automatische correcties, blijven ze worstelen met de herkenning van handgeschreven documenten. Begrijpelijk, omdat elk handschrift van elkaar verschilt, terwijl de meest voorkomende digitale lettertypen altijd hetzelfde zijn. Op dit punt, bijvoorbeeld, bij de overdracht van handgeschreven protocollen of vragenlijsten, wordt menselijke arbeid onophoudelijk. Met cloudservices en crowdworkers is de informatie in de documenten echter snel en gemakkelijk toegankelijk. Vanwege de AVG is het niet eenvoudig om handgeschreven documenten naar derden te sturen, die ze vervolgens digitaliseren.
Oplossing door Crowdworker
Daarom wordt software gebruikt die een gescand document ontvangt en de handgeschreven velden hierin herkent. Het snijdt de woorden in afzonderlijke letters en herkent vergelijkbare fragmenten en combineert ze in een taak. Vervolgens wordt de betreffende taak via een online interface naar de cloud gedownload. Dan komen de crowdworkers in actie. Verdeeld over de hele aarde, nemen deze de erkenning van de afzonderlijke taken over. Ze lezen de individuele letters en cijfers en voeren ze in de herkenningssoftware in. Hierna worden de afzonderlijke fragmenten vervolgens weer in hele woorden samengevoegd. Op deze manier kan geen enkele crowdworker conclusies trekken over de afzonderlijke documenten. Het duurt slechts enkele minuten voor een enkele taak voordat u een document eenvoudig en zonder fouten kunt terugkrijgen.
Veel voordelen door OCR
Maar waarom zou u de documenten op deze manier digitaliseren? Is het niet voldoende om de documenten via de gebruikelijke scanner in te lezen? Voor een optimaal gebruik van een DMS is het erg belangrijk dat de tekst in de documenten ook wordt herkend. Alleen dan kan het systeem de documenten voldoende verwerken en gebruiken voor bijvoorbeeld analyses. Anders blijft de informatie gewoon ongebruikt.
16 september 2019
Start uw ERP selectie
Ontdek welke ERP systemen het beste passen bij uw onderneming
De ERP-trends voor 2021
We laten u alle trends in ERP-software zien die in 2021 te verwachten zijn. Kijk met ons mee naar de toekomst van de ERP-markt.
Lees verderExact rondt overname Unit4 Bedrijfssoftware af
Exact heeft de overname van Unit4 Bedrijfssoftware, het bedrijfsonderdeel van Unit4 dat de accountancy- en mkb-markt in Nederland en België bedient, afgerond.
Lees verderBij digitalisering wordt de werknemersfactor vaak vergeten
In de Corona-crisis gaan veel bedrijven fors door met de digitalisering van hun eigen processen. Het personeelsbestand staat echter vaak op de achtergrond.
Lees verder