Anonim

Jednou z věcí, která mě často frustrovala, je nemožnost snadno kopírovat text z obrázků a určitých souborů PDF (např. Těch, které mohly být vytvořeny ze skenovaných dokumentů). Naštěstí byla v průběhu času vyvinuta softwarová řešení pro řešení tohoto problému, což umožňuje značné časové úspory, které by jinak byly vynaloženy manuálním kopírováním a přepisováním textu. V dnešním tipu mluvím o bezplatném softwarovém nástroji Capture2Text, který používá algoritmus OCR (Optical Character Recognition), který vám umožní zachytit text z obrazových a PDF souborů.

Instalace a nastavení

Nejprve přejděte na stránku SourceForge projektu a stáhněte si nejnovější verzi Capture2Text. Software je dodáván jako archiv ZIP a v té době neobsahuje specializovaný instalátor. Po stažení rozbalte archiv a spusťte soubor Capture2Text.exe. Tím se spustí software a umístí se ikona na hlavním panelu:

Nejprve budete chtít nastavit předvolby softwaru, konkrétně klávesové zkratky (nebo klávesové zkratky), které se použijí ke spuštění a zastavení záznamu:

V mém případě jsem se rozhodl použít klávesy „Windows + q“ pro zahájení zachycení a „Enter“ pro zastavení. Tyto možnosti můžete upravit podle toho, co je pro vás nejlepší. Nezapomeňte, že klávesa „Windows + s“ se často používá pro snímání obrazovky (např. Programy, jako je Microsoft One Note).

Na další kartě lze nakonfigurovat možnosti OCR včetně vstupního jazyka (v současné době je podporováno sedm jazyků) a toho, zda použít předběžné zpracování OCR ke zvýšení přesnosti (vysoce doporučeno). Nakonec na kartě Výstup lze mimo jiné zvolit, zda se má zachycený text uložit do schránky nebo zda se má spustit samostatné vyskakovací okno.

Používání softwaru

Jakmile je software nainstalován a nakonfigurován, můžete jej začít používat pomocí kombinace klávesových zkratek start. Pomocí myši vyberte oblast na obrázku, která obsahuje text, který chcete zachytit. Chcete-li zastavit snímání, stačí stisknout klávesovou zkratku, kterou jste se rozhodli zastavit. Text bude potom zkopírován buď do schránky, výstupního vyskakovacího okna, nebo do obou. Příklad lze vidět níže.

Z mého rychlého testování nástroje pomocí obrázků jsem zjistil, že jeho přesnost je slušná. Je zřejmé, že existují omezení pro nástroje, jako je tento a OCR obecně. Například silně upravený text (velmi kurzívní, kurzívou nebo moderně) nemusí fungovat tak dobře, někdy dokonce vůbec. V některých případech to také pomůže mírně upravit rozměry snímacího pole nebo hrát s přiblížením na samotném obrázku a získat přesnější výsledek.

Při pořizování textu ze skenovaných dokumentů PDF je přesnost v pořádku, přičemž na zachyceném výstupu je obecně ještě několik nutných úprav (v závislosti na kvalitě počátečního skenování). Také jsem si všiml, že zpracování tohoto softwaru může trvat několik sekund déle, zejména když budete požádáni o převod velkého množství textu.

To je vše, co bylo řečeno, celkově si myslím, že tento nástroj odvádí dobrou práci, zejména protože je volně k dispozici - vyzývám vás, abyste jej vyzkoušeli.

Dodatek 11/16/2015:

Pro ty, kteří mají účty Google, je také možné využít možnosti OCR společnosti Google nahráním souboru na disk Google (další podrobnosti najdete zde). Kromě toho je pro uživatele prohlížeče Google Chrome k dispozici také plugin OCR s názvem Copyfish, který byste si také mohli vyzkoušet.

Jak zachytit text z obrázků pomocí softwaru OCR