Какво е OCR и OCR технология? (част 2)

Нека видим как софтуерът разпознава текст. Първо, програмата анализира структурата на документа-изображение. Разделя страниците на елементи като блокове от текст, таблици, изображения и т.н. Линиите са разделени на думи, а после на знаци (букви). След като знаците са разделени програмата ги сравнява с набор от модели изображения. Тя издига безброй хипотези за това кой знак е това. Базирайки се на тях програмата анализира различни варианти за разчупване на линиите в думи, а после тях в знаци. След обработката на огромен брой вероятни хипотези, програмата взима решение и ви представя разпознатия текст.


На какво се базират OCR софтуерите?

Най-модерните системи за оптично разпознаване на символи са фокусирани върху възпроизвеждането на натурално разпознаване или разпознаване „като на животно”. В сърцето на тези системи лежат трите принципа: цялостност, целесъобразност и адаптивност. Първият принцип се изразява в това, че наблюдаваният обект трябва винаги да се смята като едно цяло, което се състои от множество взаимосвързани части. Вторият предполага, че всяко тълкуване на данните винаги трябва да има някаква цел. Последният означава, че програмата трябва да може да се учи сама.

Човек не трябва да бъде OCR специалист, за да види предимствата на OCR софтуерите, изградени върху тези принципи. Те правят програмата максимално гъвкава и интелигентна, което е възможно най-близо до човешкото разпознаване.


Разпознаване на изображения от цифров фотоапарат

Снимките, заснети с цифров фотоапарат, се различават от сканираните документи или изображения в PDF. Те често имат дефекти, като нарушаване на ръбовете и замъглена светлина, което създава трудност за повечето програми за разпознаване, и съответно правилното разпознаване на текст. По-новите версии на софтуерите поддържат адаптивни технологии за разпознаване, които са специално предназначени за обработка на изображения от камера. Предлагат набор от функции за подобряване на качеството на такива образи.


Какви са ползите от OCR софтуерите?

Разпознатите документи изглеждат точно като оригинала. Може да спестите много време и усилия при създаване, обработка и промяна на целта на различни документи. Можете да сканирате хартиени документи за по-нататъшно редактиране и споделяне с колеги и партньори. Можете да извлечете цитати от книги и списания, за да ги използвате за създаване на курс от проучвания и доклади без да е необходимо да ги набирате отново.

2015-07-03 14:43:37
0
1888

Коментари:

Внимание: HTML не се поддържа!