Obsah

Úvod


1. Základy práce v AutoCAD Raster Design

2. Čištění skenovaných výkresů

3. Práce s černobílými obrázky

4. Hybridní obrázky

5. Práce s mapami a leteckými snímky

6. Úpravy tónování

7. Vektorizace

8. Rozpoznávání textu

8.1. Rozpoznávání tištěného textu

8.2. Rozpoznávání psaného textu

8.3. Rozpoznávání tabulek


--------------------------------------------
PDF verze a ukázková data


hosting: www.cadforum.cz
Výuka

AutoCAD Raster Design dodává firma CAD Studio a.s., Autorizovaný dealer firmy Autodesk

8. Rozpoznávání textu

V této kapitole bude ukázáno automatické rozpoznávání textu ve výkresech. Rozpoznávání textu se řadí do oblasti umělé inteligence. Program na rozpoznávání textu je dnes často dodáván jako součást nákupu skeneru nebo lze zakoupit jako samostatný program. Začlenění funkce rozpoznávání textu přímo do programu Raster Design má tu výhodu, že můžeme zpracovávat skenovaný výkres komplexně. To znamená nejen zpracování geometrických objektů ale je možné provést i převod a zpracování textových informací ve výkresu.

Je možné rozpoznávat tři druhy textů: tištěné texty, psaný text tiskacími písmeny a text umístěný do tabulky. Převod se provádí do jednořádkového nebo více řádkového textu – objekt MText.

Funkce rozpoznávání textu jsou dostupné z menu Image � Text recognition nebo prostřednictvím lišty nástrojů Text Recognition, kde jsou tři ikony pro tři základní druhy textů.

Obr. 8.1: Lišta Text Recognition

Před každým spuštěním rozpoznávání je třeba nastavit parametry rozpoznávání. Toto se provádí v dialogovém okně Text Recognition Setup (příkaz IRECSETUP). Zde se nastaví, zda se rozpoznává tištěný nebo psaný text, oblast výběru textu (pravoúhelník, polygon), jazyk, zda se má původní text smazat apod. Určitě je potěšující, že je k dispozici i český slovník pro rozpoznávání textu.

Poznámka: Nástroj rozpoznávání textu je optimalizován pro obrázky s rozlišením 300 dpi. Jestliže je rozlišení menší než 150 nebo větší než 400 dpi, můžou být výsledky rozpoznávání zhoršit. Obrázek s textem musí být jen bizonální. Nelze rozpoznávat barevné obrázky.

8.1. Rozpoznávání tištěného textu

Text v naskenovaném výkrese, který byl vytvořen tiskem bývá nejlépe rozpoznáván. Samozřejmě záleží na kvalitě předlohy, typu písma (patkové, nezlatkové) atd. Ve cvičných datech produktu jsou k dispozici data v adresáři \Tutorial9.

Rozpoznání českého tištěného textu

V tomto cvičení nejprve načteme obrázek, potom nastavíme parametry rozpoznávání, provedeme opravy rozpoznávání a nakonec vložíme text do výkresu.

  1. Otevřete v adresáři \Tutorial9 soubor TextRecCZ.dwg.

  2. Pro vložení neskenovaného obrázku s textem vyberte z menu Image Insert. (nebo příkaz IINSERT).

  3. Z adresáře \Tutorial9 vyberte soubor SouradniceWGS.tif.

  4. V dialogovém okně vložení vyberte dole v oblasti Options area Quick Insert a Zoom to Image.

Nastavení parametrů rozpoznávání

  1. Pro nastavení parametrů rozpoznávání v okně Text Recognition Setup vyberte z menu Image � Text Recognition � Recognize Setup (příkaz IRECSETUP).

    1. Nastavte následující parametry:

      • Text Format na Machine Printed.

      • Selection Shape na Rectangular.

      • Zaškrtněte Spelling.

      • Vyberte Czech v seznamu Spelling Language.

      • Zaškrtněte AutoCAD Custom dictionary.

      • Klepněte na Language Character Set a vyberte Czech.

      • V sekci Recognize, vyberte Upper case, Numbers a Punctuation (rozpoznává interpunkci), ostatní ponechte nezaškrtnuté.

    1. V sekci AutoCAD Output vyberte následující nastavení:

      • Output Type je MText.

      • AutoCAD Style pro typ písma je Standard.

      • Text Height je Automatic.

      • Removal Method na Rub. To znamená, že původní text bude v obrázku smazán.

  2. V sekci Verification Display zaškrtěte Bold, Italic a Enable Verifier. Na závěr stiskněte OK.

Rozpoznávání jednořádkového textu

  1. Vyberte menu Image Text RecognitionRecognize Text (příkaz IRECTEXT). Zakreslete pravoúhelník kolem textu “ZEMĚPISNÉ SOUŘADNICE WGS84” takto: vyberte levý horní roh, dále stiskněte Enter pro zadání úhlu 0 pro natočení textu a zadejte pravý dolní roh.

  2. Objeví se okno Verify Text, kde se v horní části View pane a v dolní části Edit pane objeví rozpoznaný text. Když se v dolním okně objeví nějaké nerozpoznané písmeno navíc, smažte jej. Písmena s diakritikou jsou zvýrazněna, neboť byl vybrán styl Standard, který je založen na anglickém fontu.

  3. Stiskněte OK a text se vloží do výkresu jako AutoCAD Mtext.

  4. Text v původním obrázku je smazán.

Rozpoznávání odstavce textu

  1. Načtěte z adresáře \Tutorial9 nový obrázek ze souboru PopisWGS.tif stejným postupem jako v kroku 1 až 4.

  2. Otevřete okno nastavení rozpoznávání Text Recognition Setup.

  3. Zaškrtněte v sekci Input Upper case, Low case, Numbers, Punctuation a Miscellaneous.

  4. V Output section nastavte Output Type na MText a nastavte AutoCAD Style na CeskyStyl.

  5. Zakreslete obdélník kolem textu stejně jako přepředchozím rozpoznávání: levý horní roh, úhel natočení 0 a pravý dolní roh.

  6. Otevře se Verify Text window a je zobrazen původní rastrový text a rozpoznaný text.

  7. Neznámé slovo "mapového", které je zvýrazněno zeleně,můžete zařadit do slovníku volbou Add to Dictionary.Příště toto slovo již bude rozpoznáno jako známe slovo.

20.V případě, že budou nabídnuty možnosti pro nahrazení nerozpoznaných slov stiskněte Replace. Žádný rozpoznávací program nemá 100% úspěšnost. Rozšiřování uživatelského slovníku při opakovaném rozpoznávání sníží počet nerozpoznaných slov.

21. Na závěr stiskněte OK. Text se vloží do výkresu jako AutoCAD Mtext. Text v původním obrázku je smazán. Při odpojení obrázku z výkresu můžete změnu obrázku uložit, nebo tuto změnu zrušit.

Tip: Vyzkoušejte si i rozpoznání při vypnuté volbě Rub pro Removal Method .

8.2. Rozpoznávání psaného textu

Obtížnější je rozpoznání textu, který není tištěný, ale psaný rukou. I tento text lze rozpoznávat. Je nutné, aby text byl psaný tiskacími písmeny. Úspěšnost rozpoznání je nižší než u tištěného textu amůže být značně proměnlivá podle kvality předlohy.

Rozpoznání českého psaného textu

V tomto cvičení budeme postupovat stejně jako v předchozím cvičení. Nejprve vložíme naskenovaný obrázek s textem. Dále nastavíme parametry rozpoznávání a po rozpoznávání provedeme opravy a následné vložení do výkresu.

  1. Otevřete v adresáři \Tutorial9 soubor TextRecCZ.dwg.

  2. Vložte soubor s obrázkem TextPsany.tif ( Image � Insert nebo příkaz IINSERT).

  3. V dialogu Text Recognition Setup nastavte:

    1. Text Format na Hand Printed.

    2. Selection Shape na Polygonal.

    3. Vyberte Spelling dictionary Czech.

    4. Vyberte Czech v seznamu Spelling Language.

    5. Vyberte AutoCAD Custom dictionary.

    6. Vyberte Language Character Set a vyberte English a Czech.

    7. V sekci Recognize zaškrtněte Upper case, Low case, Numbers, Punctuation a Miscellaneous.

  4. V sekci AutoCAD Output vyberte následovně:

    1. Output Type je MText.

    2. Text Height je Style Height.

    3. AutoCAD Style CeskyStyl.

    4. Removal Method je Rub.

  5. Ve Verification Display sekci odeberte zaškrtnutí u Italic, Underline a Enable Verifier.

  6. Spusťte rozpoznávání z menu Image � Text Recognition � Recognize Text.

  7. Zadejte úhel natočení textu zadáním dvou bodů myší nebo zadejte číslo 90.

  8. Nakreslete polygon kolem textu.

  9. Otevře se okno Verify Text .

  10. Vidíte, že nebyly rozpoznány mezery a některá písmena s diakritikou. Často dochází při rozpoznávání k záměně písmena S a čísla 5. Zde se to právě stalo. Také došlo k záměně velkého písmena C a malého písmena c.

  11. Opravte text a a stiskem OK se vloží text do výkresu

8.3. Rozpoznávání tabulek

Poslední možností, kterou má rozpoznávací motor Raster Design je rozpoznávání textu uspořádaného ve formě tabulky. Vznikne objekt tabulka, který lze následně upravovat.

Rozpoznání textu v tabulce

  1. Stejným postupem, jako v předchozích dvou příkladech otevřete z adresáře \Tutorial9 soubor textrec_02.dwg a importujte text_rec_table.tif.

  2. V Insert Options vyberte Quick Insert a Zoom to Image. Stiskněte Open. Obrázek je načten.

  3. V dialogu Text Recognition Setup (příkaz IRECSETUP) nastavte:

  4. V sekci Input použijte následující nastavení:

    1. Text Format na Machine Printed.

    2. Selection Shape na Rectangular.

    3. Vyberte Spelling dictionary Czech.

    4. Vyberte Czech v seznamu Spelling Language.

    5. Vyberte AutoCAD Custom dictionary.

    6. Vyberte Language Character Set a vyberte English a Czech.

    7. V sekci Recognize zaškrtněte Upper case, Numbers, Punctuation a Miscellaneous.

  5. V sekci AutoCAD Output vyberte následovně:

    1. Output Type je Text.

    2. Text Height je Style Height.

    3. AutoCAD Style CeskyStyl.

    4. AutoCAD Style je Table Text.

    5. Removal Method je Rub.

  6. V sekci Verification Display section odeberte všechna zatržení a stiskněte OK.

  7. Vyberte menu Image � Text Recognition � Recognize Table (IRECTABLE).

  8. Zakreslete obdélník zadáním horního levého rohu, úhlu 0 a zadáním dolního pravého rohu.

  9. Otevřete se okno Verify Table. V horním okně je rozpoznávaná tabulka a v dolním okně je výsledek rozpoznání. Všimněte si, že v prvním sloupci na poslední řádce se nerozpoznalo číslo 8 a chybně je rozpoznáno jako $. Tuto chybu ručně opravíme. Uberte nadbytečné mezery ve slově INCH.

  10. Po stisku OK se tabulka vloží do textu. Vložen je text, který ale nemá formát a ohraničení tabulky. Pro následnou úpravu textu z původní tabulky lze použít standardní nástroje editace textu. Pokud potřebujeme z textu tabulky vytvořit nadefinujte novou tabulku standardním nástrojem AutoCADu.