Digitální spisovatel

Digitální spisovatel

Generování českého textu (Python)

Generování textu

je založeno na principu vytvoření slovníku z libovolného textu, podle kterého se program naučí potřebné slovní spojení (text může být i v libovolném jazyce) hlavní zaměření je Čeština. Slovník je pak uspořádán podle nejčastěji se vyskytujících slovních spojení.

Zadáním textu

O 3 až 4 slovech se následně ve slovníku vyhledá nejčastěji používané slovní spojení.

Když ve slovníku nenajde shodu

namátkově vybere z před-definovaných slovních spojení k pokračování textu (např.: a, i, o, u atd…) toto se opakuje dokud nenajde opět vhodné slovní spojení.

Text je vždy generován ve stylu předloženého textu k rychlému pochopení (naučení) toho co se má generovat. Např.: Když bude ukázkový text bible a náboženské texty pak i vygenerovaný text bude mít charakter náboženského textu, který ovšem doteď nebyl napsán.

Maximální délka textu může být 20 000 slov.

Kvalita celého textu je přímoúměrná textu, který je poskytnut programu k naučení. Špatný pravopis, nářečí, místně používané slova jako dobrej ochotněj včetně slengu přispívají k horšímu výsledku. V textu také nejsou vhodná rozdílná jména. Ideální je když text místo jmen osob jsou použité správně skloňované názvy muž, žena, slečna, dívka, dědeček a podobně.

Při kvalitním textu pro učení získáte až zarážející a místy i humorné čtení. Někrerá slovní spojení opravdu pobaví více než stále se opakující humor v dnešní literatuře.

Největší přednost tohoto kódu

je rychlost. Učení z předloženého textu o kapacitě textového souboru 200 MB (představuje cca 3 000 000 vět nebo 48 000 000 slov trvá jen 4 minuty. Následně vygenerování samotného textu o 20 000 slovech trvá asi 1 minutu.