Hvað er OCR?
Optical Character recognition (OCR) vísar til þess ferlis að breyta textamyndum í véllæsanlegt textasnið. Til dæmis, ef þú skannar eyðublað eða kvittun, vistar tölvan skönnunina sem myndskrá. Þú getur ekki breytt, leitað í eða talið texta í myndaskrá með textaritli. Hins vegar geturðu notað OCR til að umbreyta myndum í textaskjöl og geyma efni sem textagögn.

Af hverju er OCR svona mikilvægt?
Flest verkflæði fyrirtækja fela í sér aðgang að upplýsingum í gegnum prentmiðla. Eyðublöð á pappír, reikningar, skönnuð lögfræðileg skjöl og prentaðir samningar eru allir hluti af viðskiptaferlinu. Það tekur mikinn tíma og pláss að geyma og stjórna þessum stóru skjölum. Þrátt fyrir þróunina í átt að pappírslausri skjalastjórnun er enn krefjandi að skanna skjöl í myndir. Ferlið krefst mannlegrar íhlutunar, er fyrirferðarmikið og hægt.
Að auki getur stafræn setning á innihaldi skjala leitt til myndaskráa með falnum texta. Ritvinnsluforrit geta ekki unnið texta í myndum á sama hátt og textaskjöl. OCR leysir þetta vandamál með því að breyta textamyndum í textagögn sem hægt er að greina með öðrum viðskiptahugbúnaði. Þú getur síðan notað gögnin til að greina, bæta rekstur, gera ferla sjálfvirkan og auka framleiðni.

Hvernig virkar OCR?
Myndaöflun
Skannar lesa skjöl og breyta þeim skjölum í tvöfalda gögn. OCR hugbúnaður greinir skönnuðu myndina og flokkar ljós svæði sem bakgrunn og dökk svæði sem texta.
forvinnslu
OCR hugbúnaðurinn hreinsar fyrst myndina og fjarlægir villur í undirbúningi fyrir lestur. Hér eru nokkrar hreinsunaraðferðir sem notaðar eru við það:
Lítilsháttar offset leiðrétting eða skekkjun á skönnuðum skjölum við skönnun til að laga jöfnunarvandamál.
Fjarlægðu hávaða, fjarlægðu bletti af stafrænum myndum eða sléttaðu brúnir textamynda.
Hreinsaðu upp ramma og línur í mynd.
Handritaþekking með fjöltyngdri OCR tækni
Textagreining
Tvær megingerðir OCR reiknirit eða hugbúnaðarferla sem OCR hugbúnaður notar til textagreiningar eru mynstursamsvörun og eiginleikaútdráttur.
Samsvörun á mynstri
Mynstursamsvörun aðskilur mynd af persónu (kallast glyph) og ber hana saman við geymda svipaða glyfa. Mynstursamsvörun virkar aðeins ef geymdi gljáinn hefur svipaða leturgerð og stærð og inntaksglugginn. Þessi aðferð virkar vel fyrir skannaðar myndir af skjölum sem eru færð inn í þekkt leturgerð.
Eiginleikaútdráttur
Eiginleikaútdráttur hlutar eða sundrar táknmyndum í eiginleika eins og línur, lokaðar lykkjur, línustefnu og línufókus. Það notar síðan þessa eiginleika til að finna bestu eða nánustu samsvörun meðal hinna ýmsu geymdu táknmynda.
Eftirvinnsla
Eftir greiningu breytir kerfið útdregnum textagögnum í tölvutækar skrár. Sum OCR-kerfi geta búið til skýringar PDF-skrár sem innihalda for- og eftirskönnunarútgáfur af skönnuðum skjölum.


