Jak rozpoznat text pomocí aplikace ABBYY FineReader: pokyny krok za krokem. Jak používat ABBYY FineReader

Pojďme se bavit o programu ABBYY FineReader 12, tedy o jeho nejnovější verzi. Aniž bychom se dívali příliš daleko, vybrali jsme nejslavnější produkt ABBYY, který je podle svých předností dokonale rusifikován. Fine Reader (FR) už na první pohled působí dojmem programu s dobrou ruskou podporou: v tomto ohledu je skutečně vše provedeno na velmi slušné úrovni, včetně podkladů.

Za prvé, ustoupit. Otázka, jak převést celý archiv nebo jeho část do digitálního formátu, je vždy aktuální (a co se vlastně rozumí pod pojmem „digitální“). Je nepravděpodobné, že koupě skeneru vyřeší všechny problémy. Samozřejmě velmi často disk nebo několik s proprietárním software. Již ve fázi dezinfekce se však ukazuje, že kvalita skenovacího programu ponechává mnoho přání nebo formát, ve kterém se provádí ukládání, bohužel není vhodný pro skladování. Proč? Většina grafických formátů neoddělujte text od netextového prostoru dokumentu, a proto není možné z takového souboru kopírovat žádnou pasáž.

Právě v takových případech přicházejí na pomoc funkční programy „rozpoznávání textu“, mezi jejichž schopnosti patří zejména extrahování textu z obrázku.

Úvod do ABBYY FineReader

Igelitová taška ABBYY Fine Reader 12- systém optického rozpoznávání textů (Optical Character Recognition - OCR). Je určen jak pro automatické vkládání tištěných dokumentů do počítače, tak pro převod PDF dokumentů a fotografií do editovatelných formátů (z manuálu k programu)

Zkratka "OCR" se vztahuje na všechny aplikace pro rozpoznávání dat (nejen text). Zdrojem pro extrakci dat může být tištěný nebo elektronický dokument. Kdysi, není to tak dávno, málokdo znal OCR, v té či oné podobě, a proces převodu textu do elektronické podoby se proměnil ve skutečnou rutinu, až po ruční přetisk původního textu. Dnes mít plochý skener (manuální skenery doma používá jen málokdo) a jemný čtenář 12- buďte si jisti - při skenování a rozpoznávání nebudou žádné potíže.

Počínaje šestou verzí podporuje FineReader import a export do formátu PDF, patentovaného společností Adobe. Mnoho čtenářů se pravděpodobně setkalo s potížemi při překladu z tohoto formátu do jakéhokoli jiného (doc atd.), protože skutečně užitečné programy v této oblasti toho tolik není (pozornost si zaslouží pouze dceřiný produkt ABBYY - PDF Transformer). Faktem je, že takové programy provádějí rozpoznávání textu pouze jednou, v důsledku čehož „identita“ výsledku není vůbec velká (v závislosti na složitosti dokumentu) a formátování dokumentu je docela ztraceno.

V případě FineReaderu jsou věci jinak. Devátá verze programu představila technologii nazvanou Document OCR. Je založen na principu integrálního rozpoznávání dokumentu: je analyzován a rozpoznáván jako celek, nikoli stránka po stránce. Zároveň všechny druhy sloupců, záhlaví, fontů, stylů, poznámek pod čarou a obrázků zůstávají nedotčené nebo jsou nahrazeny blízko originálu.

Instalace balíčku

Demo verzi Finereader 12 lze stáhnout z webu Abbyy.ru, v sekci Ke stažení, plná verze licencovanou verzi distribuován na CD. O způsobech nákupu se dozvíte na stejném webu v sekci "Koupit".

Na webu ABBYY developers si můžete stáhnout demo verzi ABBYY FineReader verze 12 (nebo jinou verzi, která je aktuální)

ABBYY FineReader je distribuován v několika verzích: Professional Edition, Corporate Edition, Site License Edition atd. Verze Professional se liší od ostatních v tom, že je navržena tak, aby fungovala firemní síť s příležitostí společná práce nad rozpoznáváním dokumentů. Jinak je rozdíl nepatrný a závisí na volbě podmínek licenční smlouvy.

Těžko si představit, že před 12 lety existoval FineReader 2.0, který zabíral asi 10 MB místa na disku. Časem se balíček „rozrostl“ desetinásobně a nyní po instalaci zabírá až 300 MB. Hodně nebo málo - posuďte sami. Nový FR podporuje 179 rozpoznávacích jazyků, mezi nimiž jsou málo známé umělé jazyky (Ido, Interlingua, Occidental a Esperanto), programovací jazyky, vzorce atd. Nezapomínejme ani na podporu různých formátů a skriptů. Pokud tedy z nějakého důvodu chcete omezit prostor zabraný balíčkem, během instalace zkontrolujte pouze ty součásti, které budou během provozu vyžadovány.

Výběr komponentů ovlivňuje dobu instalace, která by však neměla zabrat mnoho času. Během procesu instalace budete seznámeni s hlavními funkcemi FR. Po aktivaci (na internetu, přes E-mail, pomocí přijatého kódu atd.) je program připraven k plnohodnotné práci. V demo režimu jistě narazíte na různá omezení, která bohužel neumožňují balíček plně využít.

Rozhraní FineReader. Funkčnost

Přístup k funkcím programu je dostupný jak pomocí skriptů, které se objeví v hlavní nabídce ihned po procesu instalace, tak i přes hlavní rozhraní.

Úvodní obrazovka při spouštění FineReaderu

Vzhled program od verze k verzi neprochází žádnými zvláštními změnami: vývojáři nevidí důvod jej drasticky měnit. Značná pozornost je věnována ergonomii, která je patrná u všech produktů ABBYY (Lingvo, PDF Transformer, FlexiCapture...). Jinými slovy, rozhraní Fine Reader 12 je dobře promyšlené a je určeno všem uživatelům, včetně začátečníků. Princip „Získejte výsledek jedním kliknutím“ osloví ty, kteří nejsou zvyklí něco nastavovat a měnit. Na druhou stranu, zkušenější uživatelé mohou FineReader doladit přes dialog nastavení (Nástroje -> Možnosti...). Jediné upozornění: pro pohodlnou práci v aplikaci je žádoucí nastavit rozlišení obrazovky na 1280 × 800, aby byly všechny nástroje vždy, jak se říká, po ruce.

Po spuštění programu Fine Reader se objeví okno s tlačítky rychlý přístup k programovým funkcím. Tato nabídka je dostupná také prostřednictvím nabídky Nástroje -> ABBYY FineReader, tlačítka "Základní skripty" v pravém rohu programu nebo pomocí kombinace kláves Ctrl+N (podobně jako ve Wordu, kde tato kombinace otevře nový dokument) .

Skenovat do Microsoft Word: devátá verze FineReaderu zavedla podporu pro Microsoft Word 2007, který se zatím nestal populární. aplikace společnosti Microsoft Office, v sekci doplňků po instalaci FR se objeví "značková" červená ikona.

Nabídka pro export rozpoznaného dokumentu FineReader

Výběr jazyků pro skenování a rozpoznávání dokumentů

Na rozdíl od Microsoft Office, FR podporuje integraci s Microsoft Outlook, poskytuje export výsledků rozpoznávání do stejných aplikací Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect a Adobe Acrobat. Tyto funkce do jisté míry usnadňují a urychlují práci s programem, zejména pokud v něm musíte pravidelně pracovat.

PDF nebo obrázky v aplikaci Microsoft Word: rozpoznat data z PDF - nebo jiného typu grafického souboru podporovaného verzí Finereader 12. Je třeba poznamenat, že technologie pro extrakci textu z PDF souboru ve FR není jen „odloupnutím“ textového obsahu (textová vrstva v PDF může chybět) z grafického. Ve skutečnosti je technologie rozpoznávání poměrně komplikovaná: po analýze obsahu dokumentu se program rozhodne, co a jak s textem udělá: stačí extrahovat nebo rozpoznat a tak dále pro každý textový fragment.

Skenovat do Microsoft Excel: skenování do XLS (formát Microsoft Excel) může být oprávněné, pokud naskenovaný obrázek obsahuje tabulky.

Skenování do PDF: Existuje mnoho důvodů pro skenování do PDF. Jedním z nich je zabezpečení: je to jediný formát známý FR, který lze nakonfigurovat tak, aby byl chráněn heslem. Heslo se nastavuje nejen pro otevření dokumentu, ale také pro jeho tisk a další operace. Je možné zvolit jednu ze tří úrovní šifrování: 40bitové, 128bitové na základě standardu RC4, 128bitové úrovně podle standardu AES (Advanced Encryption Standard).

Převést fotografii do aplikace Microsoft Word: převod souboru z grafického formátu (může to být PDF nebo vícestránkový obrázek) do DOC / DOCX.

Otevřít v aplikaci Fine Reader: OTEVŘENO grafický soubor(PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG) pro rozpoznávání FineReaderem.

Práce ve FineReaderu

Nyní - stručně o funkcích programu. Celý proces je rozdělen na skenování, rozpoznávání a ukládání výsledků. Poté, co zvolíte typ akce programu, specifikujete soubor nebo zařízení, které chcete skenovat, FineReader postupně plní svůj úkol, který je mimochodem pro centrální procesor poměrně náročný na zdroje.

Jestli ty - šťastný majitel dvoujádrový procesor, pak při práci v balíčku Fine Reader 12 můžete ocenit sílu rychlosti počítače. Faktem je, že FR, když detekuje dvoujádrový procesor, rozpozná paralelně ne jednu, ale dvě stránky dokumentu najednou. Maličkost - ale pěkné.

Nejprve přichází na řadu skenování, poté rozpoznání a export dočasného dokumentu do zvoleného formátu.

Proces rozpoznávání PDF dokumentů

Snímání.Žádný předvolby v aplikaci FineReader (kromě výběru čtečky) to před skenováním nemusíte dělat. Proto byly vynalezeny skripty: jsou navrženy tak, aby zjednodušily provádění stejného typu akcí.

Uznání. Zjednodušení se dotklo i dalších maličkostí. Pokud si tedy vzpomeneme na minulé verze programu, museli jsme předtím ručně změnit jazyk (jazyky, pokud jich bylo několik) dokumentu. Nyní se to děje automaticky, i když ne vždy. V druhém případě FR nenápadně nabízí kontrolu jazyka dokumentu.

Vraťme se k technologii rozpoznávání FR: proč program nejprve naskenuje celý dokument a ne stránku po stránce? Jak již bylo zmíněno, text je rozpoznán na základě celého obsahu: jsou vybrána písma podobná velikostí / typem písma, tabulky a okraje, odsazení atd.

Nebuďte překvapeni, když vám FineReader 12 zobrazí zprávu, že stránku nelze rozpoznat, protože nebyla nalezena žádná textová oblast. Pro experiment jsme fotili dál mobilní telefon z obrazovky LCD - oblast textového dokumentu (avšak znalost výsledku je již předem). Fine Reader 12 nerozpoznal text na obrázku, protože byl zjevně v takové kvalitě, že na to zjevně nestačí. Při druhé návštěvě jsme se vyfotili digitální fotoaparát stránka s textem za normálního osvětlení.

FineReader pasáž bez problémů rozpoznal, zachoval formátování a označil fixy některé pochybné body nebo znaky, které mohou mít variantní pravopis.

Jak vidíte na obrázku, jedná se především o tečky, pomlčky, čárky – obecně malé znaky. Navíc je jasně vidět, že program zohlednil hrbolky, zakřivení fotografované stránky a zarovnal řádky textu. Závěr - FR se se svým, i když nepříliš obtížným úkolem, odvedla na výbornou.

Občas si některé drobné body program Fine Reader nevšimne, ale lze je snadno ručně opravit. Naštěstí má balíček svůj vlastní WYSIWYG editor, jehož možnosti jsou zcela dostačující k provedení finální úpravy dokumentu. K dispozici je také kontrola pravopisu.

Jak zlepšit přesnost rozpoznávání, abyste se později museli potýkat s úpravou textu v menší míře? Nejprve můžete připojit vlastní slovník Microsoft Word. Pravda, nárůst přesnosti je těžké posoudit, snad kromě nárůstu slovní zásoby kontroly pravopisu (modul, který kontroluje pravopis a gramatiku). Pro zlepšení rozpoznávání má mimo jiné smysl seznámit se s nastavením programu (Nástroje -> Možnosti) a vybrat si jeden ze dvou režimů:

pečlivé rozpoznání- lze jej vybrat při rozpoznávání dokumentů jakékoli "složitosti": s tabulkami bez mřížky, textem, grafy, tabulkami na barevném pozadí atd. Může pomoci i s nekvalitním zdrojem pro rozpoznávání

rychlé rozpoznání- tento režim se doporučuje pro zpracování velkých objemů dokumentů s jednoduchým designem nebo pokud čas neumožňuje důkladné rozpoznání. Ve většině případů, když máte černě vytištěný text na bílém pozadí, můžete se zastavit u rychlého rozpoznání.

Obecně je zlepšování kvality FineReaderu samostatným tématem k diskuzi, o jehož podrobnostech se můžete dozvědět z oficiální nápovědy, konkrétně v sekci „Jak zlepšit výsledky“.

Ukládání dokumentu. Poslední fází práce ve Fine Reader 12 je uložení konečného výsledku v určitém grafickém/textovém formátu. Předběžná nastavení ukládání lze zadat v možnostech FR: Nástroje -> Možnosti, záložka Uložit. Každý formát má svá vlastní nastavení. Při ukládání ve formátu DOCX byste měli dbát na kompatibilitu formátu (soubory DOCX nejsou ve Wordu 2003 rozpoznány<). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

ABBYY Screenshot Reader

Vývojáři často rádi přidávají malé obslužné programy do mnoha velkých balíčků. Řekněme, že známá aplikace Nero pro vypalování disků obsahuje sadu 3 až 5 utilit, které umožňují dělat věci, které ani samotné Nero neumí. Přehled (zde si můžete stáhnout jako součást Fine Reader 12).

Pokud jde o FineReader, v jeho složení se nachází jedna malá aplikace Screenshot Reader. S ním můžete také rychle převést do požadovaného formátu pomocí FR. Program je dostupný prostřednictvím nabídky Start (Start -> Všechny programy -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader.).

Možnosti Screenshot Readeru jsou poněkud širší, než by se na první pohled mohlo zdát. (Jinak by to šlo udělat pouhým stisknutím klávesy "PrintScreen" na klávesnici). Kromě toho, že Screenshot Reader pořídí snímek obrazovky (nebo spíše vybranou oblast obrazovky), je program úzce integrován s FR.

Když kliknete na tlačítko "Snímek" na panelu Screenshot Reader, kurzor změní tvar a zapne se nástroj pro výběr obrazovky. Vybraná oblast obrázku je orámována pro další rozpoznání textu (spustí se automaticky).

V rozevíracím seznamu můžete vybrat požadovanou akci: ve skutečnosti Screenshot Reader duplikuje rychlé skripty FR s tím rozdílem, že místo snímku ze skeneru je jako vstup přijat snímek obrazovky.

Nutno podotknout, že program spolu s celým balíčkem vyžaduje aktivaci. Při registraci produktu je ABBYY FineReader 12 Professional Edition Screenshot Reader poskytován zdarma jako „bonus“.

Závěr

jemný čtenář - nepostradatelný program pro skenování a rozpoznávání grafických dat. Rozhraní v ruském jazyce a dostupnost nastavení nezastraší nezkušený uživatel. Podpora nejnovějších formátů inovativní technologie a v důsledku toho vysoce kvalitní uznání tvoří program Nejlepší volba, zejména proto, že ABBYY FineReader stále nemá v této oblasti konkurenci.

Klávesové zkratky FineReader 12

Vytvořit nový dokument ABBYY FineReader-CTRL+N
Otevřete dokument aplikace ABBYY FineReader 12 - CTRL+SHIFT+N
Uložit stránky-CTRL+S
Uložit obrázek do souboru- CTRL+ALT+S
Rozpoznejte všechny stránky dokumentu- CTRL+SHIFT+R
Zavřít aktuální stránku- CTRL+F4
Rozpoznejte vybrané stránky dokumentu ABBYY FineReader-CTRL+R
Otevřete Správce scénářů- CTRL+T
Otevřete dialogové okno Fine Reader Options- CTRL+SHIFT+O
Otevřete Nápovědu- F1
Přejděte do okna Dokument-ALT+1
Přejděte do okna Obrázek- ALT+2
Přejděte do okna Text- ALT+3
Přejděte do okna Close-up- ALT+4

Jedna z nejoblíbenějších funkcí pro práci se skenováním a zpracováním souborů různé typy- Dobrá čtečka. Funkční softwarový produkt byl vyvinut ruskou společností ABBYY, umožňuje dokumenty nejen rozpoznávat, ale i zpracovávat (překládat, měnit formáty atd.). Mnoho uživatelů může pouze nainstalovat, ale nemohou okamžitě zjistit, jak používat ABBYY FineReader. Odpovědi na mnoho otázek najdete v tomto článku.

Program umožňuje skenovat a rozpoznávat text - a nejen to

Abychom podrobně pochopili, jaký druh programu ABBYY FineReader 12 je, je nutné podrobně zvážit všechny jeho funkce. První a nejjednodušší funkcí je skenování dokumentu. Existují dvě možnosti skenování: s rozpoznáním a bez něj. V případě běžného skenování vytištěného listu obdržíte naskenovaný obrázek do určené složky na vašem počítačovém zařízení.

POZORNOST. List musí být umístěn na snímací části tiskárny přesně podle obrysů vyznačených na tiskárně. Nemanipulujte se zdrojem, může to vést k špatná kvalita finální skenování.

Musíte se sami rozhodnout, co je pro vás FineReader, protože utilita má významnou funkcionalitu, například si můžete vybrat, v jaké barvě chcete získat obrázek, je možné převést všechny fotografie na černobílé. V černobílém rozpoznávání barev je rychlejší, kvalita zpracování se zvyšuje.

Pokud máte zájem o funkci rozpoznávání textu aplikace ABBYY FineReader, musíte před skenováním stisknout speciální tlačítko. V tomto případě existuje několik možností, jak informace získat. Ve výchozím nastavení se na vaší obrazovce zobrazí rozpoznaný kus listu, který můžete zkopírovat nebo upravit ručně.

Pokud zvolíte jiné funkce, můžete soubor okamžitě získat jako dokument Word nebo tabulku Excel. Volba funkcí je velmi jednoduchá, menu je intuitivní, snadno konfigurovatelné díky tomu, že všechna potřebná tlačítka máte na očích.

DŮLEŽITÉ. Před rozpoznáním Text ABBYY FineReader, musíte přesně vybrat jazyk zpracování. Navzdory skutečnosti, že utilita funguje zcela automaticky, stává se, že nízká kvalita zdrojového kódu neumožňuje pochopit, jaký jazyk byl ve zdrojovém kódu. To značně snižuje kvalitu konečných výsledků aplikace.

Více provozních režimů

Chcete-li plně pochopit, jak používat ABBYY FineReader 12, musíte vyzkoušet dva provozní režimy: „Through“ a „Quick Recognition“. Druhý režim je vhodný pro vysoce kvalitní snímky, zatímco první režim je vhodný pro soubory s nízkou kvalitou. Důkladný režim trvá zpracování souborů 3-5krát déle.

Na obrázku je výsledek programu – rozpoznání textu z obrázku

Jaké další funkce existují?

Rozpoznávání textu v aplikaci ABBYY FineReader není jediné užitečná funkce. Pro větší uživatelské pohodlí existuje

Takže máme na počítači nainstalovaný FineReader. Zapneme skener a zdigitalizujeme nějaký vícestránkový dokument. Říkejme tomu podmíněně „Smlouva“.

Položíme první stránku dokumentu na sklo skeneru, zavřeme víko. Spouštíme program FineReader. Klikněte na tlačítko "Skenovat" nebo stiskněte kombinaci "Ctrl + K" s klávesami. Otevře se okno ABBYY FineReader Scanning. Při digitalizaci obvyklé textová stránka napsaný fontem 11-12 bodů, ponechte nastavení ve výchozím okně a klikněte na tlačítko "Zobrazit".

Skener funguje a po pár sekundách vidíme naši stránku v prohlížecím okně. Zde můžeme v případě potřeby změnit velikost skenování. A poté klikněte na tlačítko "Skenovat".

FineReader spustí proces OCR a během minuty se v okně programu otevře obraz stránky. Pravá část Okno je nyní rozděleno na tři části. V levé části "Obrázek" můžeme obrázek upravit. Více o úpravách obrázků si můžete přečíst v lekci: Skenování knihy. V pravé sekci "Text" můžete okamžitě provádět změny v textu - upravovat obsah stránky ještě před jejím uložením. To je velmi výhodné, když například potřebujete rychle změnit data, údaje, příjmení v dokumentu.

V levé části okna „Stránky“ se zobrazí ikona rozpoznané stránky:

Pokud nepotřebujete nic upravovat, vyměňte první stránku na skle skeneru za druhou a zopakujte technologii. Po nastavení rozměrů skenování v okně "ABBYY FineReader Scanning" v režimu "Zobrazit" pro první stránku nyní ihned klikněte na tlačítko "Skenovat". Nastavení pro první stránku se uloží a další stránky se naskenují bez náhledu. Naskenujeme tedy všechny stránky našeho dokumentu.

Skončili jsme a nyní střídavým klikáním na ikony otevíráme stránky a kontrolujeme jejich správné pořadí.

Poté v levé části okna "Stránky" vyberte všechny ikony tlačítkem: "Upravit - Vybrat vše" nebo klávesovou zkratkou: "Ctrl + A". Poté v rozevíracím seznamu vedle tlačítka „Uložit“ vyberte příkaz: „Uložit jako PDF dokument":

Nyní zatleskáme na samotné tlačítko a uložíme dokument s názvem „Agreement.pdf“ do složky „Agreement“:

Výsledkem je vícestránkový textový dokument ve formátu pdf - elektronická verze našeho dokumentu s podmíněným názvem "Smlouva".

Takže digitalizujeme textové dokumenty pomocí FineReaderu.

Změnou režimu skenování na „barevný“ v okně „Skenování ABBYY FineReader“ můžeme také snadno digitalizovat barevné obrázky a fotografie.

A ptát se kontextová nabídka, například příkaz: "Uložit jako dokument Microsoft Word 2007" převede náš projekt na jeden vícestránkový upravitelný dokument Word.

Obecně je program snadno stravitelný, intuitivní a vyskakovací rady jsou všude.

Abbyy FineReader má více než 20letou historii. Společnost oslavila své výročí v roce 2013 vydáním plnohodnotného (ve srovnání s Express Edition z roku 2009) Abbyy FineReader Pro pro Mac ao několik měsíců později, v únoru 2014, Uživatelé Windows- Abbyy FineReader 12 Professional a Corporate. Dovolte mi připomenout, že předchozí verze se objevila již v roce 2011 a dva a půl roku je značné období - pojďme zjistit, jak významné jsou změny.

obecná informace

Systémové požadavky pro nová verze se vůbec nezměnily. Platformou může být Windows nebo Windows Server počínaje XP a 2003. Hardwarové požadavky jsou v současnosti ještě skromnější: procesor libovolné kapacity s frekvencí 1 GHz, paměť s náhodným přístupem minimálně 1 GB plus 512 MB pro každé výpočetní jádro atd. Pouze potřeba pro místo na disku- nyní instalace vyžaduje 850 MB místo 700 (plus jako dříve dalších 700 MB pro pracovní soubory).

Přirozeně mluvíme o minimální požadavky; plný potenciál Abbyy FineReader 12 Professional bude odhalen pouze relativně moderní systémy. Zejména mi dovolte připomenout, že program dokáže efektivně paralelizovat zpracování jednotlivé stránky, při využití všech procesorových jader a zatížení libovolného procesoru téměř na 100 %. Ale opravdu není chamtivý pro RAM a dokonce zůstává 32bitový.

Postup instalace se nezměnil: minimum otázek a možností. Abbyy FineReader 12 Professional je stále dodáván s Abbyy Screenshot Reader, který bude funkční až po registraci uživatele.

Poté se otevře také přístup k technické podpoře.

I na základě těchto skromných informací lze předpokládat, že máme před sebou výsledek evoluce. Podle toho se v následujícím zaměřím na popis změn oproti předchozí verze, které lze podmíněně rozdělit do dvou hlavních skupin: práce s programem (rozhraní, pomocné nástroje, jednoduchost použití) a OCR (kvalita a výkon vlastního rozpoznávání).

Práce s programem

Abbyy FineReader 12 Professional demonstruje některá vylepšení z hlediska uživatelské rozhraní. To je okamžitě patrné v okně Úkoly, které se ve výchozím nastavení otevře při spuštění programu. Zjevně napodobuje koncept dlaždic Windows 8.x a je přizpůsoben pro ovládání prsty, zejména proto, že program také podporuje základní gesta, jako je posouvání a zoomování. Ve skutečnosti se změny dotkly pouze „fasády“ a dokonce i částečně - běžné ovládací prvky sousedí s dlaždicemi a v procesu nastavování jakéhokoli scénáře se budete muset vypořádat se standardními dialogovými okny. Práce s nimi prsty je poměrně problematická, zejména na 8-10″ obrazovkách, které se stávají oblíbenými u tabletů s Windows.

Je opravdu snadné si představit, že uživatel takového tabletu vybaveného fotoaparátem může chtít rychle „za pochodu“ zadat nějaký druh tištěného dokumentu. Mezitím všichni historie windows, od prvního vydání Tablet PC, potvrzuje nesmyslnost přizpůsobování standardního desktopového rozhraní dotykovému ovládání. Pro tyto účely je zjevně mnohem správnější vytvořit speciální skořápku, která odpovídá všem kánonám metra, ale používá stejný „motor“. Příklad takové rozhodnutí slouží internet Explorer ze systému Windows 8.x. Abbyy má navíc dokonce backlog v podobě Abbyy FineReader Touch pro Windows 8, který využívá cloudová služba společnosti.

Pokud ignorujeme dotykový vstup, pak stále dochází ke změnám tato třída- z očekávané aktualizace otevřených/ukládání oken dokumentů, které mimo jiné poskytují snadný přístup cloudové úložiště(pokud je v systému vhodný agent a jeho složka), na několik důležitějších a užitečnějších.

Zpracování stránek v Abbyy FineReader 12 Professional se nyní provádí na pozadí. To znamená nepřítomnost toho prvního modální okno se stavem operací (nyní tuto roli hraje stavový řádek ve spodní části obrazovky) a podle toho dostupnost přístupu k rozhraní. Uživatel tak má možnost pracovat s programem souběžně s procesem rozpoznávání (pokud je samozřejmě dostatečně dlouhý), například kopírovat fragmenty přijatého textu nebo dokonce opravit rozvržení stránky - to bude zařazen do fronty a znovu zpracován.

Na rozdíl od stará verze, nedochází také k otáčení stránek, jak je rozpoznáno nebo kdy bootstrap dokument, pokud je automatické rozpoznávání zakázáno. V Abbyy FineReader 12 Professional je dokument načten a stránkován téměř okamžitě a jejich miniatury se vytvářejí pouze při ručním procházení levým panelem. Mimo jiné se tím šetří výpočetní prostředky, a to docela znatelně na velkých vícestránkových dokumentech.

Zbytek změn v této třídě už tak zajímavý není, i když se v některých scénářích mohou hodit, takže o nich bude krátce řeč.

Pokud nepotřebujete zpracovat celý dokument, ale pouze citovat jednotlivé pasáže, můžete vypnout všechny automatické operace a vybrat potřebné fragmenty libovolného typu a okamžitě je zkopírovat do schránky - zatímco analýza a rozpoznávání budou prováděny za běhu .

Chcete-li získat výsledek s jednodušší strukturou než původní, můžete vypnout opětovné vytváření záhlaví a zápatí, poznámek pod čarou a dalších prvků rozvržení. To se může hodit například při přípravě e-knih.

Pokračujeme v e-knihách, Abbyy FineReader 12 Professional podporuje formáty EPUB 2.0.1 a 3.0.

Rozšířily se možnosti převodu do XLSX, například bylo možné vymazat formátování nebo uložit obrázky.

Při ukládání výsledných dokumentů jako PDF s textovou vrstvou můžete nyní použít nová technologie Abbyy Precise Scan, který spočívá ve vyhlazování znaků na obrázcích původní stránky. Je k dispozici mimochodem pouze v barevném režimu.

Efekt její práce je dosti patrný, i když ne vždy, řekněme, „akademický“. Čitelnost vyhlazených znaků by však v každém případě měla být vyšší a v tomto příkladu je originál opravdu velmi Nízká kvalita.

OCR

Nyní se podívejme, jaká vylepšení se udála v samotných mechanismech rozpoznávání.

Vývojáři informují o další fázi vylepšování technologie ADRT, která, dovolte mi připomenout, analyzuje a znovu vytváří logickou strukturu dokumentu. Je deklarováno, že začalo mnohem přesněji pracovat, zejména s tabulkami, seznamy, grafy. Demonstrovat to na adekvátních příkladech není snadné, ale ne nemožné. Zde jsou například výsledky rozpoznávání (s výchozím nastavením) stejné stránky v Abbyy FineReader 11 Professional (nahoře) a Abbyy FineReader 12 Professional (dole).

Stará verze vybrala a zpracovala pouze hlavní textový blok, možná kvůli nízké kvalitě originálu, přičemž zbytek prvků považovala za „odpad“. Nový naopak správně identifikoval seznam a pokusil se jej znovu vytvořit. Výsledek však není ideální: skutečnost, že nejsou rozpoznány všechny značky, lze opět přičíst kvalitě obrazu, ale program zřejmě stále nepochopil, že má před sebou obsah, jinak by interpretovat čísla jako písmena. Nicméně pokrok je evidentní a na lepších originálech by taková tvrzení nemusela být.

A takto je zpracována „implicitní“ tabulka bez oddělovacích řádků – Abbyy FineReader 11 Professional (nahoře) a Abbyy FineReader 12 Professional (dole).

Je jasně vidět, že stará verze zde na rozdíl od nové vůbec neviděla tabulkovou strukturu a omezila se na sadu nesouvisejících textových bloků. Neváhejte kliknout na obrázky a porovnat výsledky rozpoznávání – Abbyy FineReader 12 Professional to má blízko ideálu.

Bohužel tomu tak není vždy a již na sousedních stránkách Abbyy FineReader 12 Professional vykazoval výsledky podobné výsledkům Abbyy FineReader 11 Professional. I když je to ADRT, kdo měl sledovat stejné "caps" a pochopit, že má před sebou jakýsi plynulý stůl.

Ale stále je jasně vidět, že aktualizované algoritmy věnují pozornost velké množství detaily než dříve. V procesu testování Abbyy FineReader 12 Professional se například dokonce objevil pokus interpretovat obrázek s uspořádaným umístěním jako tabulku. textové informace. Mnohem častěji se nová verze také snaží znovu vytvořit různé diagramy a diagramy na základě obrázku na pozadí, a nikoli ze samostatných grafických a textových bloků.

Existuje několik dalších novinek navržených pro zlepšení kvality rozpoznávání v Abbyy FineReader 12 Professional. Jak víte, jedním z předpokladů pro to je kvalita originálu, zvláště pokud byl získán pomocí fotoaparátu, nikoli skeneru. Proto kdysi ve FineReaderu existovaly prostředky pro předběžné zpracování originálů. V nové verzi byl rozšířen jejich seznam, přibylo ořezávání po okrajích stránek, zesvětlení a vyrovnání jasu pozadí a odstranění barevných prvků. Ten může být užitečný například pro zpracování dokumentů s pečetěmi a razítky. Navíc se nyní může uživatel připojit různé metody jednotlivě.

Vylepšena byla i jazyková podpora. Za prvé se objevila ruská abeceda s akcenty a za druhé je deklarováno zvýšení kvality rozpoznávání čínštiny, japonštiny a korejštiny (až o 20 %), arabštiny (až o 60 %), hebrejštiny (až o 10 %) - toho bylo zřejmě dosaženo díky zlepšení a dodatečnému školení klasifikátorů.

A na závěr jedna z nejpalčivějších otázek pro mnoho čtenářů: zvýšila se rychlost programu? Není tak snadné dát odůvodněnou odpověď na tuto otázku, zejména s čísly - existuje příliš mnoho jazyků, z nichž každý má své vlastní nuance; rozmanitost originálů je příliš velká; existuje příliš mnoho neznámých faktorů ovlivňujících činnost algoritmů. Proto se i samotní vývojáři k nárůstu výkonu Abbyy FineReader 12 Professional o 10-15 % staví poměrně rezervovaně.

Taková čísla se obvykle získávají jako výsledek zpracování dostatečně velkých polí dokumentů, a proto představují něco jako „ průměrná teplota v nemocnici." Proto je užitečné podrobněji prostudovat některé ilustrativní speciální případy, jako jsou například tyto dva:

naskenováno barevně v rozlišení 300 dpi 10 stran plnobarevné brožury A4. Kvalita je dobrá, jazyky jsou ruština a angličtina, rozložení je složité;
PDF z grafické obrázky 138 stran knihy s malým množstvím barevných a černobílých ilustrací, několik tabulek. Kvalita je nízká (začátek zřejmě „slepým“ tiskem v papírové knize), jazyky jsou ukrajinština a ruština, rozvržení je jednoduché.

Oba dokumenty byly rozpoznány v barevném režimu a druhý také v černobílém režimu, který měl simulovat proces přípravy e-kniha. Všechna výchozí nastavení zůstala nezměněna, s výjimkou sady jazyků, a tedy i provozních režimů. Jako testovací místo bylo použito PC s procesorem i5-3450 a 8 GB paměti. Výsledky jsou uvedeny v následující tabulce:

Jak vidíte, u PDF zrychlení dokonce překračuje slíbených 15 % – možná je to jen jeden ze speciálních případů, které se dobře hodí pro nejnovější optimalizace v rozpoznávacím algoritmu. Zároveň je třeba mít na paměti, že programy, obecně řečeno, odvedly jiné množství práce. Stačí se podívat na ilustrace výše pro tabulkové zpracování – těžko říct, která verze byla náročnější.

Pokud jde o počet chyb, byl pro obě verze prakticky stejný, i když bylo patrné, že někdy byly pochybnosti způsobeny různými fragmenty a symboly - to zřejmě svědčí o trénování algoritmů. V každém případě byla většina nejistě rozpoznaných znaků pomocí slovníků zcela správně identifikována a „hrubé“ chyby (nesprávná interpretace speciálních a dekorativních znaků, text v tabulce atd.) se shodovaly. Takže rozdíl lze považovat za zcela mizící.

Další otázkou je, jak moc na takovém zvýšení výkonu vůbec záleží? Zisk půl minuty na 138 stranách, které je potřeba ještě zkontrolovat a případně opravit, zřejmě za moc nestojí. Pokud se práce jako testovací úlohy mají provádět občas, pak se o výkon rozhodně nemusíte starat. Jiná věc je, pokud jde o offline zpracování velkých objemů dokumentů, které je k dispozici v Abbyy FineReader 12 Corporate. V tomto případě je úspora 15 % času již poměrně patrná.

souhrn

Přestože nový Abbyy FineReader 12 Professional nesliboval nic převratného, alespoň pár změn v něm zaslouží veškerou pochvalu. V prvé řadě jde o vylepšení technologie ADRT z hlediska rozpoznávání tabulek, diagramů a obecně logické struktury stránek, což v některých případech umožňuje dramaticky získat nejlepší skóre, a režim na pozadí zpracování, které otevírá nové možnosti pro interaktivní práci s velkými dokumenty.

Existuje také mnoho dalších změn, i když jsou méně významné. Pohyb směrem k podpoře dotykové ovládání dnes je to jistě oprávněné, ale zvolená cesta je zlá - stěží je možné poskytnout stejně pohodlnou práci s myší a prsty v jednom rozhraní. Nicméně, zatímco Windows-tablety se jen snaží prorazit na trhu, a vývojáři z Abbyy mají ještě čas.

Ceny za Abbyy FineReader 12 Professional:

krabicová verze: 4990 rublů;
verze ke stažení: 4490 rublů;
aktualizace: 2690 rub.

Jako obvykle odpověď na otázku „vyplatí se změnit stará verze na nový? záleží na situaci. V každém případě je třeba s tím počítat životní cyklus FineReader má docela dlouhou životnost a pokud pro vás bude některé z popsaných vylepšení hrát nějakou podstatnou roli, tak za 2-3 roky se náklady na aktualizaci jistě vrátí - když ne finančně, tak morálně. Řešení této otázky pro sebe nakonec pomůže.

Aby bylo možné použít program ABBYY FineReader, který je určen pro rozpoznávání textu z neupravitelných a grafických formátů. nejprve si jej musíte stáhnout a nainstalovat do počítače a poté se podívat na video níže, vše je podrobně popsáno o tomto programu.

Tento program je určen pro skenování textu a práce, jeho rozpoznávání.

Samozřejmě jej lze použít a k provedení tohoto použití můžete, aniž byste opustili samotný program Finereader, ve kterém pracujete, rozpoznat text souboru a dále jej transformovat z naskenované kopie dokumentu na klasický formát, Word programy. Pak se ukáže, že to budete používat.

Finereader je program pro skenování a OCR s exportem informací do oblíbených kancelářské balíky. Princip práce s ním lze ve zkratce popsat takto: vezmeme papírový list s vytištěným textem, naskenujeme jej skenerem, získáme určitý grafický soubor bitmapový formát. Poté, aniž bychom opustili program Finereader, rozpoznáme text souboru a dalším krokem je vytvoření dokumentu z naskenované kopie Formát Word. Předtím lze rozpoznaný text prohlížet a upravovat. Výsledný wordový dokument lze dále doplňovat a upravovat.

Abbyyfinereader je bezpochyby lídrem mezi těmito programy.

Má velmi široké možnosti pro rozpoznávání textu z neupravitelných a grafických formátů.

Program bude schopen rozpoznat text od takových základních formátů, jako jsou (neupravitelné pdf, digitální formáty jpeg soubory, jpg, Djvu, gif, png atd.).

ABBYY FineReader také dobře funguje s téměř všemi modely skenerů.

Hlavní funkce programu jsou:

Skenujte dokumenty do formátů: Microsoft Word, Microsoft Excel, Pdf, skenujte a ukládejte obrázky, PDF nebo obrázky do Microsoft Word, převádějte fotografie do Microsoft Word.

Pracovní oblast ABBYY Finereader:

Chcete-li přidat nový úkol, musíte kliknout na tlačítko **nový úkol**, které se nachází v levé horní části pracovní plochy programu.

Otevře okno nová úloha

V okně, které se otevře, vyberte úlohu, kterou chcete provést.

Řekněme, že máme fotografii dokumentu, který chceme převést do formátu Dokument společnosti Microsoft slovo. Chcete-li to provést, v okně nová úloha najít aktivní titulek Převést fotografii do aplikace Microsoft Word a klikněte na tento štítek. Otevře okno průzkumníka programu s náhledem :

V okně, které se otevře, vyberte fotografii textový soubor který je třeba rozpoznat a převést do formátu, který potřebujete.

Otevře okno s měřítkem procesu rozpoznávání:

Poté, co program zpracuje fotografii a pokusí se rozpoznat text.

Uvidíte následující:

Zde můžete vybrat oblast vaší fotografie pro rozpoznání textu.

Po výběru oblasti klikněte na tlačítko uznat která se nachází v horní menu programy. Program začne převádět vybranou fotografii na text. Po zpracování obrázku klikněte na šipku vedle tlačítka Uložit a vybrat si požadovaný formát pro vytvoření textového dokumentu:

Výkonný a funkční program ABBYY FineReader, je určen pro kvalitní skenování a přesné rozpoznávání (v závislosti na nastaveném rozlišení při skenování) různých papírových médií s tištěným textem (knihy, časopisy, noviny apod.), ale i obrázků v digitálním formátu.

Program podporuje různé jazyky rozpoznávání, lze ukládat do: Microsoft Word, PDF, obrázkových formátů a dalších formátů. Vzhledem k tomu, že program má intuitivní rozhraní, je pohodlné s ním pracovat.

Takže prvním krokem je nejprve nastavit nastavení a skenovat dokumentu, získáme obrázek, jehož text následuje za programem uznat. Po rozpoznání můžete text opravit (pokud jsou nějaké nepřesnosti) a uložit jej v požadovaném formátu.