• Pochopení moderních systémů rozpoznávání řeči v Linuxu. Hlasové rozpoznávání. O technologii a jejím významu pro obchodníky Programování rozpoznávání řeči pro počítač

    Žádný program nemůže zcela nahradit ruční práci s přepisem nahrané řeči. Existují však řešení, která mohou výrazně urychlit a usnadnit překlad řeči do textu, tedy zjednodušit přepis.

    Co je transkripce

    Přepis je automatický nebo ruční překlad řeči do textu, přesněji řečeno záznam zvukového nebo video souboru v textové podobě.

    Na internetu existují placené placené úkoly, kdy je interpretovi zaplacena určitá částka za přepis textu. V tomto případě se přepis provádí ručně.

    Přepis však můžete provést automaticky, pomocí speciálního programu, který umí text „poslechnout“ a zároveň jej „vytisknout“, převést do textového souboru vhodného pro další použití.

    Užitečný je převod řeči do textu ručně nebo pomocí speciálního programu

    • studenti překládat nahrané audio nebo video přednášky do textu,
    • blogeři vedoucí webové stránky a blogy,
    • spisovatelé, novináři psát knihy a texty,
    • informační podnikatelé, kteří potřebují text po svém webináři, projevu atd.,
    • osoby na volné noze, kteří ručně překládají řeč do textu, aby si usnadnili a urychlili práci,
    • lidé, pro které je obtížné psát - mohou nadiktovat dopis a poslat ho příbuzným nebo přátelům,
    • jiné možnosti.

    O problémech automatického překladu řeči do textu

    Při převodu řeči do textu pomocí programu existují dva hlavní problémy: kvalita nahrané řeči a přítomnost pozadí v nahrávce ve formě hluku, hudby nebo jiných cizích zvuků.

    Řeč každého je jiná.

    • tak rychle, že slova polykají, nebo naopak velmi pomalu;
    • s jasnou dikcí, jako profesionální řečníci, nebo tak nevýrazný, že je těžké cokoliv rozeznat;
    • s výbornou výslovností nebo naopak s výrazným přízvukem, například když mluví cizinec.

    V jakých případech poskytne program automatického přepisu nejlepší výsledek převodu řeči do textu? Program udělá víceméně kvalitní překlad, když člověk na nahrávce mluví s čistou dikcí, s běžným tempem řeči, bez přízvuku. Zároveň v nahrávce řeči nejsou žádné cizí zvuky ve formě hluku, hudby, rozhovorů jiných lidí. Pak můžete doufat v dobrý automatický překlad, který nevyžaduje ruční opravy nebo s minimálními změnami.

    V jiných případech, kdy je řeč nevýrazná a existují cizí zvuky, bude překlad pomocí programu nebo aplikace mnohem horší. Možná některý program nebo služba přepíše takovou řeč lépe než jiné programy a aplikace, ale neměli byste očekávat zázrak.

    V některých případech se stále vyplatí kontaktovat nezávislou burzu, kde překlad ručně provede živá osoba. Ani zde však nelze zaručit vysokou kvalitu, protože freelancer může používat programy pro automatický přepis a být líný na úpravy výsledného textu.

    Popíšeme si nejúčinnější nástroje dostupné na počítači, mobilní aplikace a online služby pro převod řeči do textu.

    1 Stránka speechpad.ru

    Jedná se o online službu, která umožňuje překládat řeč do textu prostřednictvím prohlížeče Google Chrome. Služba pracuje s mikrofonem a s hotovými soubory. Kvalita bude samozřejmě mnohem vyšší, pokud použijete externí mikrofon a budete si diktovat sami. Služba však odvádí dobrou práci i s videi na YouTube.

    Klikněte na „Povolit nahrávání“, odpovězte na otázku „Použití mikrofonu“ – za tímto účelem klikněte na „Povolit“.

    Dlouhý návod, jak službu používat, lze sbalit kliknutím na tlačítko 1 na obr. 3. Inzerce se můžete zbavit tím, že projdete jednoduchou registrací.

    Rýže. 3. Servisní řečový panel

    Hotový výsledek lze snadno upravit. Chcete-li to provést, musíte buď ručně opravit zvýrazněné slovo, nebo jej znovu nadiktovat. Výsledky práce se ukládají na váš osobní účet, lze je také stáhnout do počítače.

    Seznam výukových videí o práci s řečovým blokem:

    Videa můžete přepisovat z Youtube nebo ze svého počítače, budete však potřebovat mixér, další podrobnosti:

    Přepis zvuku Video

    Služba funguje v sedmi jazycích. Je tam malé mínus. Spočívá v tom, že pokud potřebujete přepsat hotový zvukový soubor, pak je jeho zvuk distribuován do reproduktorů, což vytváří další rušení ve formě ozvěny.

    2 Servisní diktát.io

    Skvělá online služba, která vám umožní překládat řeč do textu zdarma a snadno.

    Rýže. 4. Servisní diktát.io

    1 na Obr. 4 - Ruský jazyk lze vybrat na konci stránky. V prohlížeči Google Chrome je jazyk vybrán, ale v Mozille z nějakého důvodu taková možnost neexistuje.

    Je pozoruhodné, že je implementována možnost automatického ukládání hotového výsledku. Tím zabráníte náhodnému smazání v důsledku zavření karty nebo prohlížeče. Tato služba nerozpoznává hotové soubory. Pracuje s mikrofonem. Při diktování musíte pojmenovat interpunkční znaménka.

    Text je rozpoznán zcela správně, nejsou zde žádné pravopisné chyby. Interpunkční znaménka můžete vkládat sami z klávesnice. Hotový výsledek lze uložit do počítače.

    3 RealSpeaker

    Tento program umožňuje snadno překládat lidskou řeč do textu. Je navržen pro práci na různých systémech: Windows, Android, Linux, Mac. S jeho pomocí můžete převést řeč, která zní, do mikrofonu (může být například zabudována do notebooku), stejně jako zaznamenaná ve zvukových souborech.

    Dokáže vnímat 13 jazyků světa. K dispozici je beta verze programu, která funguje jako online služba:

    Musíte následovat výše uvedený odkaz, vybrat ruský jazyk, nahrát svůj zvukový nebo video soubor do online služby a zaplatit za jeho přepis. Po přepisu můžete přijatý text zkopírovat. Čím větší je soubor pro přepis, tím více času zabere jeho zpracování, další podrobnosti:

    V roce 2017 byla možnost bezplatného přepisu pomocí RealSpeaker, od roku 2018 žádná taková možnost není. Je pravděpodobné, že aby přepisovaný soubor nebyl dostupný všem uživatelům ke stažení, je nutné zaškrtnout políčko vedle možnosti „Nechat soubor selhat do 24 hodin“.

    Stránka má online chat. Tlačítko pro zahájení chatu se nachází v pravém dolním rohu webu.

    4 Poznámky k řeči

    Alternativa k předchozí aplikaci pro mobilní zařízení se systémem Android. K dispozici zdarma v obchodě s aplikacemi:

    Text se upraví automaticky, umístí se do něj interpunkční znaménka. Skvělé pro diktování poznámek nebo vytváření seznamů. Ve výsledku se text ukáže jako velmi slušná kvalita. Existuje placená prémiová verze.

    5 Dračí diktát

    Jedná se o aplikaci, která je zdarma distribuována pro mobilní zařízení od společnosti Apple.

    Program může pracovat s 15 jazyky. Umožňuje upravit výsledek, vybrat požadovaná slova ze seznamu. Je nutné jasně vyslovovat všechny hlásky, nedělat zbytečné pauzy a vyhýbat se intonaci. Někdy jsou v koncích slov chyby.

    Aplikaci Dragon Dictation využívají majitelé jablečných vychytávek například k diktování nákupního seznamu v obchodě při pohybu po bytě. Když se tam dostanou, mohou se podívat na text v poznámce, aniž by museli poslouchat.

    Ať už ve své praxi používáte jakýkoli program, buďte připraveni zkontrolovat výsledek a provést určité úpravy.

    Jedině tak získáte bezchybný text bez chyb.

    Přepis zvuku a videa do textu na burzách na volné noze

    Pokud jde o ruční překlad, můžete si na burze objednat přepis řeči do textu. Na volné noze někteří uživatelé (zákazníci) zadají objednávku, vyberou si zhotovitele a zaplatí za práci. A další uživatelé (freelanceři) přijímají zakázky, provádějí potřebnou práci a dostávají za ni zaplaceno.

    Jak můžete zadat objednávku na burze na volné noze? Nejprve se musíte zaregistrovat na webu burzy, tedy zaregistrovat se tam. Poté bude možné zadat objednávku – úkol na přepis.

    Pro svou objednávku na burze si můžete vybrat interpreta – člověka, který přepis provede. K tomu je nutné, aby alespoň jeden z potenciálních účinkujících souhlasil s převzetím navrhované práce. Pokud objednávku nikdo nepřevzal, musíte změnit její parametry, například zvýšit cenu za práci.


    Platba za provedenou práci se neprovádí přímo na volné noze, ale prostřednictvím burzy na volné noze. Když zadáte objednávku, obvykle musíte na účet dobít částku potřebnou k dokončení přepisu. Kromě toho může být za zprostředkování směnná provize ve formě pevné částky nebo pevného procenta z částky objednávky. Platba za dílo se provádí po jeho ověření a schválení objednatelem. Nejčastěji je částka zaslána zhotoviteli současně se schválením jeho díla objednatelem.

    Před zadáním objednávky stojí za to přečíst si pravidla burzy týkající se kontroly dokončeného úkolu, jeho zaplacení a také vkládání a výběru peněz na burzu. Výběr peněz je nutný k tomu, aby se zbývající peníze, plánované na zaplacení dalších objednávek, mohly vrátit zpět zákazníkovi a nezůstaly navždy na burze.

    Níže nabízím dvě známé burzy na volné noze, kde si můžete zadat objednávku na překlad řeči do textu s pomocí nezávislého pracovníka: weblancer.net a freelance.ru.

    Dvě burzy na volné noze

    Přepis zvuku a videa do textu (přepis) na volné noze weblancer.net:

    Rýže. 5. (kliknutím zvětšíte)

    Burza na volné noze weblancer.net

    Další burza, kde si můžete objednat přepis audio / video nahrávek - freelance.ru

    Burza na volné noze freelance.ru

    Pokud píšete na klávesnici příliš pomalu a jste líní naučit se metodu psaní deseti prsty, můžete zkusit využít moderní programy a služby pro hlasový vstup.

    Klávesnice je bezesporu poměrně pohodlný nástroj pro správu počítače. Když však dojde na psaní dlouhého textu, rozumíme všem jeho (a upřímně řečeno i našim :)) nedokonalostem... Pořád na něm musíte umět psát rychle!

    Před pár lety, když jsem si chtěl usnadnit práci při psaní článků, rozhodl jsem se najít program, který by mi umožnil převést hlas na text. Říkal jsem si, jak by bylo hezké, kdybych všechno, co potřebuji, řekl do mikrofonu a počítač psal místo mě :)

    Jaké bylo moje zklamání, když jsem si uvědomil, že v té době neexistovala pro tento případ žádná skutečně fungující (a tím spíše bezplatná) řešení. Je pravda, že došlo k domácímu vývoji, jako je "Gorynych" a "Dictograph". Rozuměli ruskému jazyku, ale bohužel kvalita rozpoznávání řeči byla dost nízká, vyžadovali dlouhé nastavení s vytvořením slovníku pro svůj hlas a byli poměrně drahí...

    Pak se zrodil Android a situace se trochu pohnula ze země. V tomto systému se hlasový vstup objevil jako vestavěná (a docela pohodlná) alternativa vstupu z virtuální klávesnice na obrazovce. A nedávno jsem byl v jednom z komentářů dotázán, zda existuje možnost hlasového vstupu pro Windows? Odpověděl jsem, že ještě ne, ale rozhodl jsem se podívat a ukázalo se, že možná ne úplně kompletní, ale taková možnost existuje! Výsledkem mého výzkumu bude dnešní článek.

    Problém s rozpoznáváním řeči

    Před zahájením analýzy aktuálně existujících řešení pro hlasový vstup ve Windows bych rád osvětlil podstatu problému rozpoznávání řeči počítačem. Pro přesnější pochopení procesu doporučuji podívat se na následující schéma:

    Jak vidíte, převod řeči na text probíhá v několika fázích:

    1. Digitalizace hlasu. V této fázi závisí kvalita na čistotě dikce, kvalitě mikrofonu a zvukové karty.
    2. Porovnání hesla se záznamy ve slovníku. Zde funguje zásada „čím více – tím lépe“: čím více zaznamenaných slov slovník obsahuje, tím vyšší je šance, že vaše slova budou správně rozpoznána.
    3. Textový výstup. Systém se automaticky, veden pauzami, snaží z řečového proudu extrahovat jednotlivé lexémy, které odpovídají šablonovým lexémům ze slovníku, a poté zobrazí nalezené shody ve formě textu.

    Hlavní problém, jak asi tušíte, spočívá ve dvou hlavních nuancích: v kvalitě digitalizovaného segmentu řeči a objemu slovníku se šablonami. První problém lze minimalizovat i s levným mikrofonem a běžnou zvukovou kartou. Stačí mluvit pomalu a jasně.

    S druhým problémem bohužel není vše tak jednoduché... Počítač na rozdíl od člověka nedokáže správně rozpoznat stejnou frázi, kterou mluví například žena a muž. K tomu musí její databáze obsahovat obě verze hlasového hraní v různých hlasech!

    V tom spočívá hlavní trik. Vytvoření slovníku pro jednu osobu v zásadě není tak obtížné, ale vzhledem k tomu, že každé slovo musí být napsáno v několika verzích, ukazuje se, že je to velmi dlouhé a pracné. Většina dnešních programů pro rozpoznávání řeči je proto buď příliš drahá, nebo nemá vlastní slovníky, což dává uživateli možnost si je vytvořit sám.

    Ne nadarmo jsem se o Androidu zmínil o něco výše. Faktem je, že Google, který jej vyvíjí, vytvořil také jediný dnes (a vícejazyčný!) veřejně dostupný globální online slovník pro rozpoznávání řeči, tzv. Google Voice API. Yandex také vytváří podobný slovník pro ruský jazyk, ale zatím je bohužel stále nevhodný pro použití v reálných podmínkách. Proto téměř všechna bezplatná řešení, která budeme zvažovat níže, pracují konkrétně se slovníky Google. V souladu s tím mají všechny stejnou kvalitu rozpoznávání a nuance spočívají pouze v dalších funkcích...

    Programy hlasového vstupu

    Pod Windows není tolik plnohodnotných programů pro hlasový vstup. Ano, a ti, kteří rozumí rusky, jsou většinou placeni... Například cena oblíbeného vlastního hlasového-textového systému RealSpeaker začíná na 2 587 rublech a profesionální komplex Caesar-R začíná na 35 900 rublech!

    Mezi vším tím drahým softwarem je ale jeden program, který nestojí ani korunu, ale zároveň poskytuje funkčnost, která je pro většinu uživatelů více než dostatečná. Říká se tomu MSpeech:

    Hlavní okno programu má nejjednodušší možné rozhraní - indikátor úrovně zvuku a pouze tři tlačítka: spustit nahrávání, zastavit nahrávání a otevřít okno nastavení. MSpeech funguje také docela jednoduše. Je třeba stisknout tlačítko záznamu, umístit kurzor do okna, ve kterém se má text zobrazit, a začít diktovat. Pro větší pohodlí je lepší nahrávat a zastavit pomocí horkých kláves, které lze nastavit v Nastavení:

    Kromě horkých kláves možná budete muset změnit typ přenosu textu do oken potřebných programů. Standardně je výstup nastaven na aktivní okno, lze však určit přenos do neaktivních polí nebo do polí konkrétního programu. Z dalších funkcí stojí za zmínku skupina nastavení "Příkazy", která umožňuje implementovat hlasové ovládání počítače pomocí vámi zadaných frází.

    Obecně je MSpeech poměrně šikovný program, který vám umožňuje psát text hlasem v jakémkoli okně Windows. Jedinou nuancí při jeho použití je, že počítač musí být připojen k internetu, aby měl přístup ke slovníkům Google.

    Hlasový vstup online

    Pokud si do počítače nechcete instalovat žádné programy, ale chcete zkusit zadávat text hlasem, můžete využít některou z mnoha online služeb, které fungují na bázi stejných slovníků Google.

    A samozřejmě první věc, kterou je třeba zmínit, je „nativní“ služba Google s názvem Web Speech API:

    Tato služba vám umožňuje překládat do textu neomezené segmenty řeči ve více než 50 jazycích! Stačí si vybrat jazyk, kterým mluvíte, kliknout na ikonu mikrofonu v pravém horním rohu formuláře, v případě potřeby potvrdit oprávnění webu k přístupu k mikrofonu a začít mluvit.

    Pokud nepoužíváte žádnou vysoce odbornou terminologii a mluvíte srozumitelně, můžete dosáhnout velmi dobrého výsledku. Kromě slov si služba „rozumí“ i s interpunkčními znaménky: řeknete-li „tečka“ nebo „čárka“, objeví se ve výstupním formuláři požadovaný znak.

    Na konci záznamu se rozpoznaný text automaticky zvýrazní a můžete jej zkopírovat do schránky nebo poslat poštou.

    Z nedostatků stojí za zmínku, že služba může fungovat pouze v prohlížeči Google Chrome starším než verze 25, stejně jako nedostatek vícejazyčného rozpoznávání.

    Mimochodem, na našem webu nahoře najdete plně rusifikovanou verzi stejné formy rozpoznávání řeči. Užívej si zdraví ;)

    Na základě služby Google existuje poměrně dost podobných online zdrojů pro rozpoznávání řeči. Jedna ze stránek, které nás zajímají, je Dictation.io:

    Na rozdíl od Web Speech API má Dictation.io stylovější design připomínající poznámkový blok. Jeho hlavní výhodou oproti službě Google je to, že umožňuje zastavit nahrávání a následně jej znovu spustit a zároveň se dříve zadaný text uloží, dokud sami nestisknete tlačítko „Vymazat“.

    Stejně jako služba Google Dictation.io „umí“ dávat tečky, čárky, ale i vykřičník a otazník, ale ne vždy začíná novou větu velkým písmenem.

    Pokud hledáte službu s maximální funkčností, pak pravděpodobně jedna z nejlepších v tomto ohledu bude:

    Hlavní výhody služby:

    • přítomnost rozhraní v ruském jazyce;
    • možnost zobrazení a výběru možností rozpoznávání;
    • přítomnost hlasových pokynů;
    • automatické zastavení nahrávání po dlouhé pauze;
    • vestavěný textový editor s funkcemi kopírování textu do schránky, vytištění na tiskárně, odeslání poštou nebo na Twitter a překladu do jiných jazyků.

    Jedinou nevýhodou služby (kromě již popsaných obecných nedostatků Web Speech API) je operační algoritmus, který není pro tyto služby zcela známý. Po stisknutí tlačítka záznamu a nadiktování textu je potřeba jej zaškrtnout, vybrat možnost, která nejlépe odpovídá tomu, co jste chtěli říci, a poté přenést do textového editoru níže. Poté lze postup opakovat.

    Zásuvné moduly Chrome

    Kromě plnohodnotných programů a online služeb existuje ještě jeden způsob, jak rozpoznat řeč na text. Tato metoda je implementována prostřednictvím zásuvných modulů pro prohlížeč Google Chrome.

    Hlavní výhodou používání pluginů je, že s jejich pomocí můžete zadávat text hlasem nejen ve speciálním formuláři na webu služby, ale také do libovolného vstupního pole na jakémkoli webovém zdroji! Pluginy ve skutečnosti zaujímají přechodnou mezeru mezi službami a plnohodnotnými programy pro hlasový vstup.

    Jedním z nejlepších rozšíření pro překlad řeči na text je SpeechPad:

    Nebudu lhát, když řeknu, že SpeechPad je jednou z nejlepších služeb pro překlad řeči do textu z ruského jazyka. Na oficiálních stránkách najdete poměrně výkonný (i když trochu staromódní) online poznámkový blok s mnoha pokročilými funkcemi, včetně:

    • podpora hlasových příkazů pro ovládání počítače;
    • vylepšená podpora interpunkce;
    • funkce ztlumení na PC;
    • integrace s Windows (i když na placené bázi);
    • schopnost rozpoznat text z video nebo audio nahrávky (funkce "Přepis");
    • překlad rozpoznaného textu do libovolného jazyka;
    • uložení textu do textového souboru dostupného ke stažení.

    Pokud jde o plugin, poskytuje nám nejvíce zjednodušenou funkcionalitu služby. Umístěte kurzor do vstupního pole, které potřebujete, vyvolejte kontextové menu a klikněte na položku „SpeechPad“. Nyní potvrďte přístup k mikrofonu a když vstupní pole zrůžoví, nadiktujte požadovaný text.

    Poté, co přestanete mluvit (pauza na více než 2 sekundy), plugin zastaví nahrávání a zobrazí vše, co jste v poli řekli. Pokud chcete, můžete přejít do nastavení pluginu (klikněte pravým tlačítkem na ikonu pluginu v horní části) a změnit výchozí nastavení:

    Kupodivu, ale v celém online obchodě Google Extensions jsem už nenarazil na jediný záslužný plugin, který by umožňoval hlasový vstup do libovolného textového pole. Jediným podobným rozšířením byl anglický . Do všech vstupních polí na webové stránce přidá ikonu mikrofonu, ale ne vždy ji umístí správně, takže může skončit mimo obrazovku...

    Titulek telefonu pro neslyšící a nedoslýchavé

    Proměňte svou obrazovku v úžasné záhlaví telefonu. Je to plně automatické, vaše konverzace nepíší žádní lidé, kteří slyší na stroji. Myslíte si, že prarodiče špatně slyší rodinu a přátele na telefonu? Zapněte jim Speechlogger a přestaňte křičet do telefonu. Jednoduše připojte zvukový výstup telefonu ke zvukovému vstupu počítače a spusťte Speechlogger. Je také užitečné při interakci tváří v tvář.

    Automatický přepis

    Nahráli jste rozhovor? Ušetřete čas tím, že jej přepíšete z automatické řeči Google na text, který do vašeho prohlížeče přinese Speechlogger. Přehrajte si nahraný rozhovor do mikrofonu (nebo linky) vašeho počítače a nechte přepis provést řečový záznamník. Speechlogger ukládá přepis textu spolu s datem, časem a vašimi komentáři. Umožňuje také upravovat text. Stejným způsobem lze přepisovat telefonní hovory. Můžete také nahrávat zvukové soubory přímo z počítače, jak je popsáno níže.

    Automatický tlumočník a překladatel

    Setkání se zahraničními hosty? Vezměte si s sebou notebook (nebo dva) se záznamníkem řeči a mikrofonem. Každá strana uvidí mluvená slova druhé strany přeložená do jejich vlastního jazyka v reálném čase. Je také užitečné telefonovat v cizím jazyce, abyste se ujistili, že druhé straně plně rozumíte. Připojte zvukový výstup telefonu k linkovému vstupu počítače a spusťte Speechlogger.

    Učte se cizí jazyky a zdokonalte se ve výslovnosti

    Speechlogger je skvělý nástroj pro výuku jazyků a lze jej použít mnoha způsoby. Můžete jej použít k učení slovní zásoby tím, že budete mluvit svým rodným jazykem a necháte software přeložit. Můžete se naučit a procvičovat správnou výslovnost tím, že budete mluvit cizím jazykem a uvidíte, zda Speechlogger rozumí nebo ne. Pokud je text přepsán černým písmem, znamená to, že jste jej vyslovili dobře.

    Generování filmových titulků

    Speechlogger může automaticky nahrávat filmy nebo jiné zvukové soubory. Poté vezměte soubor a automaticky jej přeložte do libovolného jazyka, abyste vytvořili mezinárodní titulky.

    Místo psaní diktujte

    Psaní dopisu? Dokumentace? seznamy? Souhrn? Cokoli potřebujete napsat, zkuste to místo toho nadiktovat Speechloggeru. Speechlogger jej automaticky uloží a umožní vám jej exportovat do dokumentu.

    Zábavná hra :)

    Dokážete napodobit čínský mluvčí? Francouzština? A co ruština? Zkuste napodobit cizí jazyk a uvidíte, co jste právě řekli pomocí Speechloggeru. Použijte simultánní překlad Speechloggeru, abyste pochopili, co jste právě řekli. Získejte úžasné výsledky – je to velká zábava!

    V našem moderním světě plném událostí je rychlost práce s informacemi jedním ze základních kamenů úspěchu. Jak rychle přijímáme, vytváříme a zpracováváme informace, závisí na naší pracovní produktivitě a produktivitě, a tedy na našem bezprostředním materiálním bohatství. Mezi nástroji, které mohou zvýšit naše pracovní možnosti, zaujímají důležité místo programy pro převod řeči do textu, které dokážou výrazně zvýšit rychlost psaní potřebných textů. V tomto článku vám řeknu, jaké jsou oblíbené programy pro překlad zvukového hlasu do textu a jaké jsou jejich funkce.

    Aplikace pro překládání zvuku z hlasu do textu – systémové požadavky

    Většina v současné době existujících programů pro převod hlasu do textu je placené povahy s řadou požadavků na mikrofon (v případě, že je program určen pro počítač). Důrazně se nedoporučuje pracovat s mikrofonem zabudovaným do webové kamery a umístěným ve standardním pouzdře na notebook (kvalita rozpoznávání řeči z takových zařízení je na poměrně nízké úrovni). Navíc je docela důležité mít tiché prostředí, bez zbytečného hluku, který může přímo ovlivnit úroveň rozpoznání vaší řeči.

    Většina těchto programů je zároveň schopna nejen převádět řeč na text na obrazovce počítače, ale také pomocí hlasových příkazů ovládat váš počítač (spouštět programy a zavírat je, přijímat a odesílat e-maily, otevírat a zavírat webové stránky , a tak dále).

    Program pro převod řeči na text

    Přejděme k přímému popisu programů, které mohou pomoci při převodu řeči do textu.

    Program "Laitis"

    Bezplatný ruský program pro rozpoznávání hlasu "Laitis" má dobrou kvalitu porozumění řeči a podle jeho tvůrců je schopen téměř úplně nahradit uživatelovu známou klávesnici. Program také dobře funguje s hlasovými příkazy, což vám umožňuje provádět mnoho akcí pro správu počítače s jejich pomocí.

    Pro svůj provoz program vyžaduje povinnou dostupnost vysokorychlostního internetu na PC (program využívá síťové služby rozpoznávání hlasu od Google a Yandex). Možnosti programu vám také umožňují ovládat prohlížeč pomocí hlasových příkazů, k čemuž je třeba do webového navigátoru nainstalovat speciální rozšíření od Laitis (Chrome, Mozilla, Opera).

    "Dragon Professional" - přepis audionahrávek do textu

    V době psaní tohoto článku šlo o digitální produkt v angličtině « Dragon Professional Individual „je jedním ze světových lídrů v kvalitě uznávaných textů. Program rozumí sedmi jazykům (zatím funguje pouze mobilní aplikace Dragon Anywhere se zapnutou ruštinou a), má vysoce kvalitní rozpoznávání hlasu a umí provádět řadu hlasových příkazů. Tento produkt má zároveň výhradně placený charakter (cena za hlavní program je 300 amerických dolarů a za „domácí“ verzi produktu Dragon Home bude muset kupující zaplatit 75 dolarů).

    Pro svůj provoz vyžaduje tento produkt od Nuance Communications vytvoření vlastního profilu, který je navržen tak, aby přizpůsobil možnosti programu specifikům vašeho hlasu. Kromě přímého diktování textu můžete program naučit provádět řadu příkazů, čímž se vaše interakce s počítačem stane ještě shodnější a pohodlnější.

    "RealSpeaker" - ultra-přesný rozpoznávač řeči

    Program pro transformaci hlasu na text „ RealSpeaker“ vám kromě funkcí standardních pro programy tohoto druhu umožňuje využívat možnosti webové kamery vašeho PC. Nyní program nejen čte zvukovou složku zvuku, ale také zachycuje pohyb koutků rtů mluvčího, čímž správněji rozpoznává slova, která vyslovuje.


    „RealSpeaker“ čte nejen zvuk, ale také vizuální složku řečového procesu

    Aplikace podporuje více než deset jazyků (včetně ruštiny), umožňuje rozpoznávat řeč s ohledem na akcenty a dialekty, umožňuje přepisovat zvuk a video, poskytuje přístup ke cloudu a mnoho dalšího. Program je shareware, za placenou verzi budete muset zaplatit docela reálné peníze.

    "Voco" - program rychle přeloží hlas do textového dokumentu

    Dalším převodníkem hlasu na text je placený digitální produkt Voco, jehož cena „domácí“ verze je nyní asi 1 700 rublů. Pokročilejší a dražší verze tohoto programu - "Voco.Professional" a "Voco.Enterprise" mají řadu dalších funkcí, z nichž jednou je rozpoznávání řeči ze zvukových nahrávek dostupných uživateli.

    Mezi funkcemi "Voco" poznamenávám možnost doplnění slovní zásoby programu (nyní slovník programu obsahuje více než 85 tisíc slov), jakož i jeho offline provoz ze sítě, což vám umožňuje nezáviset na vaše internetové připojení.


    Mezi výhody "Voco" patří vysoká schopnost učení programu

    Aplikace se zapíná zcela jednoduše – stačí dvakrát kliknout na klávesu „Ctrl“. Chcete-li aktivovat hlasový vstup v Gboardu, stačí stisknout a podržet mezerník

    Aplikace je zcela zdarma, podporuje několik desítek jazyků, včetně ruštiny.

    Závěr

    Výše jsem uvedl programy pro převod vašeho zvukového záznamu do textu, popsal jejich obecnou funkčnost a charakteristické vlastnosti. Většina těchto produktů má obvykle placenou povahu, zatímco rozsah a kvalita ruskojazyčných programů je kvalitativně horší než jejich protějšky v angličtině. Při práci s takovými aplikacemi doporučuji věnovat zvláštní pozornost vašemu mikrofonu a jeho nastavení – to je důležité v procesu rozpoznávání řeči, protože špatný mikrofon může negovat i ten nejkvalitnější software typu, o kterém jsem uvažoval.


    Věděli jste, že technologie rozpoznávání hlasu existuje již 50 let? Vědci tento problém řeší už půl století a teprve v posledních desetiletích se k jeho řešení připojily IT firmy. Výsledkem posledního roku práce byla nová úroveň přesnosti rozpoznávání a masivní využití technologií v každodenním i profesním životě.

    Technologie v životě

    Vyhledávače používáme každý den. Hledáme, kde si dát oběd, jak se dostat na správné místo, nebo se snažíme najít význam neznámého pojmu. Technologie rozpoznávání hlasu, kterou používá například Google nebo Yandex.Navigator, nám pomáhá strávit hledáním minimum času. Je to jednoduché a pohodlné.

    V profesionálním prostředí technologie pomáhá několikrát zjednodušit práci. Například v medicíně je řeč lékaře převedena na text anamnézy a receptu ihned při schůzce. To šetří čas při zadávání informací o pacientovi do dokumentů. Systém zabudovaný v palubním počítači vozu reaguje na požadavky řidiče, pomáhá například najít nejbližší čerpací stanici. Pro osoby se zdravotním postižením je důležité zavést do softwaru domácích spotřebičů systémy pro jejich ovládání hlasem.

    Vývoj systémů rozpoznávání hlasu

    Myšlenka rozpoznávání řeči vypadala vždy slibně. Ale už ve fázi rozpoznávání čísel a nejjednodušších slov se výzkumníci potýkali s problémem. Podstata rozpoznávání byla redukována na konstrukci akustického modelu, kdy byla řeč prezentována jako statistický model, který byl porovnáván s hotovými šablonami. Pokud model odpovídal šabloně, pak systém rozhodl, že příkaz nebo číslo byly rozpoznány. Růst slovníků, které systém mohl rozpoznat, vyžadoval zvýšení výkonu výpočetních systémů.

    GGrafy růstu výkonu počítače a snížení chyb rozpoznávání v anglických systémech rozpoznávání hlasu
    Prameny:
    Bylina Sutter. Oběd zdarma je u konce: zásadní obrat směrem k souběžnosti v softwaru
    https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



    Dnes byly rozpoznávací algoritmy doplněny o jazykové modely, které popisují strukturu jazyka, například typickou posloupnost slov. Systém je trénován na reálném řečovém materiálu.

    Novou etapou ve vývoji technologií bylo využití neuronových sítí. Systém rozpoznávání je navržen tak, aby každé nové rozpoznání ovlivnilo přesnost rozpoznávání v budoucnu. Systém se stává naučitelným.


    Kvalita systémů rozpoznávání hlasu

    Stav věcí ve vývoji techniky dnes vyjadřuje cíl: od rozpoznávání řeči k porozumění. Pro tento účel byl zvolen i klíčový ukazatel – procento chyb v rozpoznání. Stojí za zmínku, že takový indikátor se také používá při rozpoznávání řeči jedné osoby druhou. Některá slova vynecháváme s ohledem na další faktory, jako je kontext. To nám umožňuje rozumět řeči i bez pochopení významů jednotlivých slov. U člověka je chybovost rozpoznávání 5,1 %.

    Další obtíže při výuce systému rozpoznávání řeči k porozumění jazyku budou emoce, neočekávaná změna tématu konverzace, používání slangu a individuální vlastnosti mluvčího: rychlost řeči, zabarvení, výslovnost zvuků.


    Hráči na světovém trhu

    Na trhu platforem pro rozpoznávání hlasu je dobře známo několik globálních hráčů. Jsou to Apple, Google, Microsoft, IBM. Tyto společnosti mají dostatečné zdroje pro výzkum a rozsáhlou základnu pro školení vlastních systémů. Například Google používá k učení miliony vyhledávacích dotazů, na které se uživatelé rádi ptají. Na jedné straně to zvyšuje přesnost rozpoznávání a na druhé straně to přináší omezení: systém rozpoznává řeč v segmentech po 15 sekundách a počítá s „širokoprofilovou otázkou“. Chyba rozpoznání systému Google – 4,9 %. Pro IBM je toto číslo 5,5 % a pro Microsoft - 6,3 % na konci roku 2016.

    Platformu pro použití v profesionálních oblastech vyvíjí americká společnost Nuance. Mezi oblasti použití: lékařství, právo, finance, žurnalistika, stavebnictví, bezpečnost, automobilový průmysl.

    V Rusku je Center for Speech Technologies největším výrobcem profesionálních nástrojů pro rozpoznávání hlasu a syntézu řeči. Řešení společnosti jsou implementována v 67 zemích světa. Hlavní oblasti práce: hlasová biometrie - identifikace hlasem; hlasové samoobslužné systémy - IVR, používané v call centrech; řečové syntetizéry. V USA ruská společnost působí pod značkou SpeechPro a provádí výzkum v oblasti rozpoznávání anglické řeči. Výsledky uznání jsou zahrnuty do TOP-5 výsledků z hlediska chyb.


    Hodnota rozpoznávání hlasu v marketingu

    Cílem marketingu je studovat potřeby trhu a organizovat podnikání v souladu s nimi za účelem zvýšení ziskovosti a efektivity. Hlas je pro obchodníky zajímavý ve dvou případech: pokud mluví klient a pokud mluví zaměstnanec. Předmětem studia pro obchodníky a rozsahem technologie jsou proto telefonní hovory.

    Dnes je analýza telefonních hovorů málo rozvinutá. Hovory je potřeba nejen nahrávat, ale také poslouchat, vyhodnocovat a teprve poté analyzovat. Pokud není složité zorganizovat nahrávku – může to být libovolná virtuální pobočková ústředna nebo služba sledování hovorů – pak je organizování poslechu hovorů složitější. Tento úkol řeší buď jednotlivec ve firmě, nebo vedoucí call centra. Poslech hovorů je také outsourcován. V každém případě je chyba v odhadu volání problémem, který zpochybňuje výsledky analýz a rozhodnutí přijatá na jejich základě.