OCR tækni hjálpar þróun tungumálaþýðinga

Aug 15, 2022 Skildu eftir skilaboð

Hvað er OCR?

Optical Character recognition (OCR) vísar til þess ferlis að breyta textamyndum í véllæsanlegt textasnið. Til dæmis, ef þú skannar eyðublað eða kvittun, vistar tölvan skönnunina sem myndskrá. Þú getur ekki breytt, leitað í eða talið texta í myndaskrá með textaritli. Hins vegar geturðu notað OCR til að umbreyta myndum í textaskjöl og geyma efni sem textagögn.

png

Af hverju er OCR svona mikilvægt?

Flest verkflæði fyrirtækja fela í sér aðgang að upplýsingum í gegnum prentmiðla. Eyðublöð á pappír, reikningar, skönnuð lögfræðileg skjöl og prentaðir samningar eru allir hluti af viðskiptaferlinu. Það tekur mikinn tíma og pláss að geyma og stjórna þessum stóru skjölum. Þrátt fyrir þróunina í átt að pappírslausri skjalastjórnun er enn krefjandi að skanna skjöl í myndir. Ferlið krefst mannlegrar íhlutunar, er fyrirferðarmikið og hægt.

Að auki getur stafræn setning á innihaldi skjala leitt til myndaskráa með falnum texta. Ritvinnsluforrit geta ekki unnið texta í myndum á sama hátt og textaskjöl. OCR leysir þetta vandamál með því að breyta textamyndum í textagögn sem hægt er að greina með öðrum viðskiptahugbúnaði. Þú getur síðan notað gögnin til að greina, bæta rekstur, gera ferla sjálfvirkan og auka framleiðni.

7d9be6872456af033802d073206010b

Hvernig virkar OCR?


Myndaöflun

Skannar lesa skjöl og breyta þeim skjölum í tvöfalda gögn. OCR hugbúnaður greinir skönnuðu myndina og flokkar ljós svæði sem bakgrunn og dökk svæði sem texta.

forvinnslu

OCR hugbúnaðurinn hreinsar fyrst myndina og fjarlægir villur í undirbúningi fyrir lestur. Hér eru nokkrar hreinsunaraðferðir sem notaðar eru við það:

Lítilsháttar offset leiðrétting eða skekkjun á skönnuðum skjölum við skönnun til að laga jöfnunarvandamál.

Fjarlægðu hávaða, fjarlægðu bletti af stafrænum myndum eða sléttaðu brúnir textamynda.

Hreinsaðu upp ramma og línur í mynd.

Handritaþekking með fjöltyngdri OCR tækni

Textagreining

Tvær megingerðir OCR reiknirit eða hugbúnaðarferla sem OCR hugbúnaður notar til textagreiningar eru mynstursamsvörun og eiginleikaútdráttur.


Samsvörun á mynstri

Mynstursamsvörun aðskilur mynd af persónu (kallast glyph) og ber hana saman við geymda svipaða glyfa. Mynstursamsvörun virkar aðeins ef geymdi gljáinn hefur svipaða leturgerð og stærð og inntaksglugginn. Þessi aðferð virkar vel fyrir skannaðar myndir af skjölum sem eru færð inn í þekkt leturgerð.


Eiginleikaútdráttur

Eiginleikaútdráttur hlutar eða sundrar táknmyndum í eiginleika eins og línur, lokaðar lykkjur, línustefnu og línufókus. Það notar síðan þessa eiginleika til að finna bestu eða nánustu samsvörun meðal hinna ýmsu geymdu táknmynda.


Eftirvinnsla

Eftir greiningu breytir kerfið útdregnum textagögnum í tölvutækar skrár. Sum OCR-kerfi geta búið til skýringar PDF-skrár sem innihalda for- og eftirskönnunarútgáfur af skönnuðum skjölum.