Belirtilen eylemleri sesle gerçekleştiren bir program. Bir bilgisayarın ve telefonun sesle kontrolü - programlar ve hizmetler

Bilgisayarınızı sesinizle kontrol etmeyi denemek ister misiniz? Type, bu amaç için mükemmel bir programdır. Bilgisayarınızı tamamen kendinize göre özelleştirebilecek, kullanmadan yönetebileceksiniz. çevre birimleri. Type'ta komut sayısında herhangi bir kısıtlama yoktur. Yardımcı programla çalışmak şu şekildedir: bir dosya seçersiniz, onunla ne yapılması gerektiğini belirtirsiniz ve yazarsınız ses komutu. Yardımcı program bir sesli komut duyduğunda, hemen istenen eylem. Ve önemli değil, bu komut tarayıcıda belirli bir siteyi açmalı, bir çalma listesi veya şarkı çalmalı veya bir program başlatmalıdır. Her şey size bağlı, olanaklar sınırsız. Type'ta ses tanıma yüksek düzeyde uygulanır.

Örneğin, bir tarayıcıda bir bağlantı açmanız gerekir. İÇİNDE üst menü"ekle" işlevini seçin. Bir dosya veya program seçmeniz gereken bir pencere göreceksiniz. "Gelişmiş" düğmesine tıklayarak, dosyanın kendisini seçebilir, bunun için bir komut yazabilir (örneğin, "krom aç") ve kaydedebilirsiniz. Bir sonraki adım ekibi test etmektir. Programda "konuşmaya başla" seçeneğine tıklayın ve komutu söyleyin. Arayüz dostudur ve tamamen özelleştirilebilir. Mevcut bir komutu unutursanız, onu görüntüleyebilir ve gerekirse düzenleyebilirsiniz.

Bir adam, bir bilgisayar faresini sesinizle kontrol etmenizi sağlayacak bir program yazmamı istedi. O zaman, başını bile çeviremeyen, ancak yalnızca konuşabilen, neredeyse tamamen felçli bir kişinin, kendisinin ve başkalarının yaşamasına yardımcı olarak güçlü faaliyetler geliştirebileceğini hayal bile edemezdim. aktif yaşam, yeni bilgi ve beceriler kazanın, çalışın ve para kazanın, dünyadaki diğer insanlarla iletişim kurun, sosyal proje yarışmasına katılın.

Burada yazarı ve / veya ideolojik ilham kaynağının bu kişi olduğu sitelere birkaç bağlantı vereyim - Beyaz Rusya'nın Borisov şehrinden Alexander Makarchuk:

Alexander, bilgisayarda çalışmak için Ulusal Bilim Vakfı (NSF) tarafından finanse edilen Washington Üniversitesi'ndeki öğrencilerin gelişimi olan "Vokal Joystick" programını kullandı. Bakınız melodi.ee.washington.edu/vj

Dayanamadım

Bu arada, üniversitenin web sitesindeki (http://www.washington.edu/) makalelerin %90'ı parayla ilgili. hakkında bir şey bulmak zor bilimsel çalışma. Örneğin, ilk sayfadan alıntılar: “Üniversite mezunu olan Tom, mantar yerdi ve kirasını zar zor öderdi. Şimdi bir bilişim şirketinin üst düzey yöneticisi ve üniversiteye borç veriyor”, “Büyük Veri evsizlere yardım ediyor”, “Şirket yeni bir akademik bina için 5 milyon dolar ödeme taahhüdünde bulundu.”

Bu sadece benim gözlerimi mi acıtıyor?

Program 2005-2009'da yapıldı ve Windows XP'de iyi çalıştı. Daha fazlası taze sürümler Windows programı donabilir ki bu, sandalyeden kalkıp yeniden çalıştıramayan bir kişi için kabul edilemez. Bu nedenle, programın yeniden yapılması gerekiyordu.

Kaynak kodları yoktur, yalnızca dayandığı teknolojileri ortaya çıkaran ayrı yayınlar vardır (MFCC, MLP - bunu ikinci bölümde okuyun).

Görselde ve benzerlikte yazıyordu. yeni program(üç ay için).

Aslında, nasıl çalıştığını görebilirsiniz:

Programı indirin ve/veya izleyin kaynak kodları Olabilmek .

Programı kurmak için herhangi bir özel işlem yapmanıza gerek yok, sadece üzerine tıklayın ve çalıştırın. Tek şey, bazı durumlarda yönetici olarak çalıştırılmasının gerekli olmasıdır (örneğin, sanal klavye"Comfort Keys Pro"):

Belki de burada ve daha önce bilgisayarı eller olmadan kontrol edebilmek için yaptığım diğer şeylerden bahsetmeye değer.

Başınızı döndürme yeteneğiniz varsa, başa takılan bir jiroskop eViacam'a iyi bir alternatif olabilir. Hızlı ve doğru imleç konumlandırma ve aydınlatma bağımsızlığı elde edeceksiniz.

Yalnızca göz bebeklerini hareket ettirebiliyorsanız, bakış izleyiciyi ve bunun için programı kullanabilirsiniz (gözlük takıyorsanız zor olabilir).

Bölüm II. O nasıl çalışır?

"Vocal Joystick" programı hakkında yayınlanan materyallerden, aşağıdaki gibi çalıştığı biliniyordu:

Ses akışını 10 milisaniyelik bir örtüşmeyle 25 milisaniyelik karelere dilimleme
Her çerçeve için 13 cepstral katsayı (MFCC) elde etme
Ezberlenen 6 sesten (4 ünlü ve 2 ünsüz) birinin çok katmanlı bir algılayıcı (MLP) kullanılarak telaffuz edildiğinin kontrol edilmesi
Bulunan sesleri hareket/fare tıklamalarına dönüştürme

İlk görev, yalnızca, onu gerçek zamanlı olarak çözmek için, bir mikrofondan veri okumak, sesi işlemek, ses çalmak için programa üç ek iş parçacığının dahil edilmesi gerektiği için dikkat çekicidir. ses kartı eşzamansız olarak gerçekleşir.

Son görev, SendInput işlevi kullanılarak basitçe uygulanır.

Bana öyle geliyor ki ikinci ve üçüncü görevler en büyük ilgiyi çekiyor. Bu yüzden.

Görev numarası 2. 13 cepstral katsayı elde etme

Birisi konunun içinde değilse - bilgisayar tarafından sesleri tanımanın ana sorunu şudur: iki sesi karşılaştırmak zordur, çünkü ikisi ana hatlarıyla benzemez ses dalgaları insan algısına benzer gelebilir.

Ve konuşma tanıma ile uğraşanlar arasında, bir ses dalgasını açık bir şekilde sınıflandıracak bir dizi özellik olan bir "filozof taşı" arayışı var.

Halkın kullanımına açık olan ve ders kitaplarında açıklanan bu özelliklerden en yaygın kullanılanı, sözde mel-frekans cepstral katsayılarıdır (MFCC).

Tarihleri öyledir ki, başlangıçta tamamen farklı bir amaç için tasarlanmışlardı, yani sinyaldeki yankıyı bastırmak (bu konuyla ilgili bilgilendirici bir makale, saygıdeğer Oppenheim ve Schafer tarafından yazılmıştır, bu asil adamların evlerinde sevinç olabilir) Bkz. A. V. Oppenheim ve R. W. Schafer, “ From Frequency to Quefrency: A History of the Cepstrum).

Ancak kişi, en iyi bildiğini kullanmaya meyilli olacak şekilde düzenlenmiştir. Ve konuşma sinyalleriyle uğraşanlar, sinyalin MFCC biçiminde hazır, kompakt bir temsilini kullanma fikrini buldular. Genel olarak işe yaradığı ortaya çıktı. (Havalandırma sistemleri konusunda uzman bir tanıdığım, kendisine yazlık nasıl yapılır diye sorduğumda, havalandırma kanalları kullanmayı önerdi. Sırf diğer yapı malzemelerinden daha iyi bildiği için).

MFCC'ler sesler için iyi bir sınıflandırıcı mıdır? Söylemezdim. Benim tarafımdan farklı mikrofonlara telaffuz edilen aynı ses, MFCC katsayılarının uzayının farklı bölgelerine düşer ve ideal bir sınıflandırıcı bunları yan yana çizer. Bu nedenle, özellikle mikrofonu değiştirirken programı yeniden eğitmeniz gerekir.

Bu, 13-boyutlu MFCC uzayının 3-boyuta izdüşümlerinden sadece bir tanesi, ama aynı zamanda ne demek istediğimi de gösteriyor - kırmızı, mor ve mavi noktalar farklı mikrofonlar: (Plantronix, yerleşik mikrofon dizisi, Jabra), ancak ses tek başına telaffuz edildi.

Bununla birlikte, daha iyisini sunamayacağım için standart yöntemi de kullanacağım - MFCC katsayılarını hesaplamak.

Uygulamada hata yapmamak için programın ilk sürümlerinde kuyudan gelen kod ünlü program CMU Sphinx, daha doğrusu, cep sfenks adı verilen C uygulaması, Carnegie Mellon Üniversitesi'nde geliştirildi (ikisiyle de barış olsun! (c) Hottabych).

Pocketsphinx kaynak kodları açıktır, ancak bu kötü bir şanstır - bunları kullanırsanız, programınıza (hem kaynak kodlarında hem de çalıştırılabilir modülde), diğer şeylerin yanı sıra aşağıdakileri içeren bir metin yazmalısınız:

* Bu çalışma kısmen Defence Advanced * Research Projects Agency ve Amerika Birleşik Devletleri Ulusal Bilim Vakfı * ve CMU Sphinx Speech Consortium tarafından finanse edilerek desteklenmiştir.
Bana kabul edilemez göründü ve kodu yeniden yazmak zorunda kaldım. Bu, programın hızını etkiledi (bu arada, kodun "okunabilirliği" biraz zarar görmüş olsa da, daha iyisi için). Büyük ölçüde "Intel Performance Primitives" kitaplıklarının kullanımı nedeniyle, ancak MEL filtresi gibi bir şeyi de optimize etti. Bununla birlikte, test verileri üzerinde yapılan bir kontrol, ortaya çıkan MFCC katsayılarının, örneğin sphinx_fe yardımcı programı kullanılarak elde edilenlere tamamen benzer olduğunu göstermiştir.

Sphinxbase programlarında, MFCC katsayılarının hesaplanması aşağıdaki adımlarla gerçekleştirilir:

Adım	sfenks tabanı işlevi	Operasyonun özü
1	fe_pre_emphasis	Önceki sayımın çoğu, geçerli sayıdan çıkarılır (örneğin, değerinin 0,97'si). Düşük frekansları reddeden ilkel bir filtre.
2	fe_hamming_window	Hamming penceresi - çerçevenin başında ve sonunda zayıflama sağlar
3	fe_fft_real	Hızlı Fourier Dönüşümü
4	fe_spec2magnitude	Sıradan spektrumdan, fazı kaybederek güç spektrumunu elde ederiz.
5	fe_mel_spec	Spektrumun frekanslarını [örneğin, 256 parça] MEL ölçeğini ve ağırlıklandırma faktörlerini kullanarak 40 grup halinde gruplayın
6	fe_mel_cep	Logaritmayı alın ve önceki adımdaki 40 değere DCT2 dönüşümünü uygulayın. İlk 13 sonuç değerini bırakıyoruz. Elde edilen katsayıları böldüğümüz sabitte ve sıfır katsayısı için özel bir sabitte farklılık gösteren DCT2'nin (HTK, eski, klasik) birkaç çeşidi vardır. Herhangi bir seçeneği seçebilirsiniz, özü değiştirmeyecektir.

Bu adımlar ayrıca fe_track_snr, fe_vad_hangover gibi sinyali gürültüden ve sessizlikten ayırmanıza izin veren işlevleri içerir, ancak bunlara ihtiyacımız yoktur ve bunlar bizi rahatsız etmez.

MFCC katsayılarını elde etme adımları için aşağıdaki ikameler yapılmıştır:

Görev numarası 3. Ezberlenen 6 sesten birinin telaffuz edildiğinin kontrol edilmesi

Orijinal Vocal Joystick programı, sınıflandırma için çok katmanlı bir algılayıcı (MLP) kullandı - yeni moda ziller ve ıslıklar olmadan bir sinir ağı.

Uygulamanın ne kadar haklı olduğunu görelim sinir ağı Burada.

Yapay sinir ağlarında nöronların ne yaptığını hatırlayın.

Bir nöronun N girdisi varsa, nöron N-boyutlu uzayı ikiye böler. Bir hiper düzlemle ters vuruş yapar. Aynı zamanda, alanın bir yarısında çalışır (olumlu cevap verir), diğer yarısında çalışmaz.

[Neredeyse] en basit seçeneğe bakalım - iki girişli bir nöron. Elbette iki boyutlu uzayı ikiye bölecek.

Nöronun W1 ve W2 ağırlık katsayıları ile çarptığı ve serbest terim C'yi eklediği X1 ve X2 değerlerinin girilmesine izin verin.

Toplamda, nöronun çıkışında (bunu Y olarak gösterelim) şunu elde ederiz:

Y=X1*W1+X2*W2+C

(Sigmoid fonksiyonlarla ilgili incelikleri şimdilik geçelim)

Y > 0 olduğunda nöronun ateşlendiğini düşünüyoruz. 0=X1*W1+X2*W2+C denklemiyle verilen düz çizgi, uzayı Y>0 olan bir parçaya ve Y olan bir parçaya böler.<0.

Söylenenleri somut rakamlarla örnekleyelim.

W1=1, W2=1, C=-5 olsun;

Şimdi, göreceli olarak konuşursak, uzayın belirli bir alanında çalışacak ve diğer tüm yerlerde çalışmayan bir sinir ağını nasıl düzenleyebileceğimizi görelim.

Şekilden de görülebileceği gibi, iki boyutlu uzayda bir alanın ana hatlarını çizmek için en az 3 çizgiye, yani bunlara bağlı 3 nörona ihtiyacımız var.

Bu üç nöronu başka bir katmanla birleştirerek çok katmanlı bir sinir ağı (MLP) elde edeceğiz.

Ve sinir ağının uzayın iki alanında çalışmasına ihtiyacımız varsa, o zaman en az üç nöron daha gerekli olacaktır (şekillerde 4,5,6):

Ve burada üçüncü katman olmadan yapamazsınız:

Üçüncü katman ise neredeyse Derin Öğrenme…

Şimdi yardım için başka bir örneğe dönelim. Sinir ağımız kırmızı noktalara pozitif, mavi noktalara negatif cevap versin.

Düz çizgilerle kırmızıyı maviden kesmem istenseydi, bunu şöyle yapardım:

Ancak bir sinir ağı, kaç tane doğrudan (nörona) ihtiyaç duyacağını önceden bilmez. Bu parametre, ağı eğitmeden önce ayarlanmalıdır. Ve kişi bunu ... sezgi veya deneme yanılma temelinde yapar.

İlk katmanda çok az nöron seçersek (örneğin üç), o zaman böyle bir dilimleme elde edebiliriz, bu da çok fazla hata verir (hatalı alan gölgelenir):

Ancak nöron sayısı yeterli olsa bile, eğitim sonucunda ağ "yakınlaşmayabilir", yani hata oranı yüksek olduğunda optimalden uzak bir kararlı duruma ulaşabilir. Burada olduğu gibi, üst travers iki tümseğe uzanıyor ve onları hiçbir yerde bırakmayacak. Ve altında hata üreten geniş bir alan var:

Yine, bu tür durumların olasılığı, eğitimin ilk koşullarına ve eğitim sırasına, yani rastgele faktörlere bağlıdır:

- Ne dersiniz, o çark olursa Moskova'ya ulaşır mı, ulaşmaz mı?
- Ne dersiniz, sinir ağı yakınsayacak mı, yaklaşmayacak mı?

Sinir ağlarıyla ilgili başka bir hoş olmayan an daha var. Onların "unutkanlığı".

Ağı yalnızca mavi noktalarla beslemeye başlar ve kırmızı noktaları beslemeyi bırakırsanız, o zaman sınırlarını oraya kaydırarak kırmızı alanın bir parçasını kolayca kendisi için alabilir:

Sinir ağlarının bu kadar çok kusuru varsa ve bir kişi sınırları bir sinir ağından çok daha verimli bir şekilde çizebiliyorsa, o zaman neden onları kullanalım?

Ve küçük ama çok önemli bir detay var.

2B uzayda kırmızı kalbi mavi arka plandan çizgi parçalarıyla çok iyi ayırabilirim.

Uçaklarla Venüs heykelini onu çevreleyen üç boyutlu uzaydan oldukça iyi ayırabilirim.

Ama dört boyutlu uzayda hiçbir şey yapamam, üzgünüm. Ve 13 boyutlu olarak - daha da fazlası.

Ancak bir sinir ağı için uzayın boyutu bir engel değildir. Düşük boyutlu alanlarda ona güldüm ama sıradanlığın dışına çıktığım anda beni kolayca yendi.

Bununla birlikte, soru hala açık - sinir ağlarının yukarıdaki dezavantajları göz önüne alındığında, bu özel görevde bir sinir ağı kullanımının ne kadar haklı olduğu.

Bir an için MFCC'lerimizin 13 boyutlu uzayda olduğunu unutalım ve iki boyutlu yani bir düzlem üzerindeki noktalar olduğunu hayal edelim. Bu durumda insan bir sesi diğerinden nasıl ayırabilir?

Ses 1'in MFCC noktalarının standart bir R1 sapmasına sahip olmasına izin verin, bu [kabaca] ortalamadan çok uzak olmayan noktaların, en karakteristik noktaların R1 yarıçaplı bir daire içinde olduğu anlamına gelir. Aynı şekilde 2. ses için güvendiğimiz noktalar da R2 yarıçaplı çemberin içindedir.

Dikkat, soru şu: 1. sesi 2. sesten en iyi şekilde ayıran düz bir çizgi nereye çizilir?

Cevap kendini gösteriyor: dairelerin sınırları arasında ortada. Herhangi bir itiraz var mı? İtiraz yok.
Düzeltme: Programda bu sınır dairelerin merkezlerini birleştiren parçayı R1:R2 oranında böler, yani daha doğru olur.

Ve son olarak, uzayda bir yerde, MFCC uzayında tam sessizliği temsil eden bir nokta olduğunu unutmayalım. Hayır, göründüğü gibi 13 sıfır değil. Bu, standart sapmaya sahip olamayacak bir noktadır. Ve onu üç sesimizden keseceğimiz düz çizgiler, doğrudan dairelerin sınırları boyunca çizilebilir:

Aşağıdaki şekilde, her ses uzayın kendi rengindeki bir parçasına karşılık gelir ve uzaydaki şu veya bu noktanın hangi sese ait olduğunu (veya hiçbirine ait olmadığını) her zaman söyleyebiliriz:

Peki, tamam, şimdi uzayın 13 boyutlu olduğunu ve kağıda çizmek güzel olanın şimdi insan beynine sığmayan bir şey olduğunu hatırlayalım.

Evet, öyle değil. Neyse ki, herhangi bir boyuttaki bir uzayda, nokta, çizgi, [hiper]düzlem, [hiper]küre gibi kavramlar kalır.

Aynı eylemleri 13-boyutlu uzayda tekrarlıyoruz: dağılımı buluyoruz, [hiper]kürelerin yarıçaplarını belirliyoruz, merkezlerini düz bir çizgiyle birleştiriyoruz, onu bir [hiper]düzlemle küreden eşit uzaklıkta bir noktada kesiyoruz. [hiper]kürelerin sınırları.

Hiçbir sinir ağı bir sesi diğerinden daha doğru şekilde ayıramaz.

Ancak burada bir rezervasyon yapılmalıdır. Tüm bunlar, sesle ilgili bilgi, ortalamadan her yöne eşit olarak sapan, yani hipersfere iyi uyan bir noktalar bulutuysa doğrudur. Bu bulut, örneğin 13 boyutlu kavisli bir sosis gibi karmaşık bir şekle sahip bir figür olsaydı, yukarıdaki tüm akıl yürütmeler doğru olmazdı. Ve belki de doğru eğitimle sinir ağı gücünü burada gösterebilir.

Ama riske atamazdım. Ve örneğin, normal dağılım kümelerini (GMM) uygulardım (bu arada, CMU Sphinx'te yapılır). Hangi belirli algoritmanın sonuca yol açtığını anladığınızda her zaman daha keyiflidir. Bir sinir ağı gibi değil: Oracle, saatlerce eğitim verisi oluşturmaya dayalı olarak, istenen sesin 3 numaralı ses olduğuna karar vermenizi söyler. (Bir sinir ağına araba sürmeyi emanet etmeye çalıştıklarında özellikle beni rahatsız ediyor. O halde, standart olmayan bir durumda, arabanın neden sağa değil de sola döndüğünü nasıl anlayabilirim? Yüce Nöron emretti?).

Ancak normal dağılım kümeleri zaten ayrı bir büyük konudur ve bu makalenin kapsamı dışındadır.

Umarım makale faydalı olmuştur ve / veya beyin kıvrımlarınızı gıcırdatmıştır.

Rusça bir bilgisayarın sesle kontrol edilmesine yönelik programlar arasında lider, Gorynych 5.0 programıdır. Diğer açılardan İngilizce de bu programa tabidir. Gorynych'in yardımıyla bilgisayara çeşitli sesli komutlar ayarlayabilirsiniz: programı başlatın, pencereyi kapatın, yeni bir belge oluşturun, bilgisayarı yeniden başlatın veya kapatın. Aslında, sesle kontrol ile Windows sistemindeki kullanıcı işlemlerinin çoğunu klavye ve fare yardımı olmadan kontrol edersiniz. Programın ses kontrolü, klavye ve fare kullanmadan bilgisayarınızda metin yazmanıza olanak tanır. Ancak burada birkaç nüans var. Gorynych programının avantajlarından biri, yalnızca efendilerinin sözlerine uymaktır. Ve bunun için önce yazılım komut tabanını yapılandırmanız gerekir. Gorynych'e Rus dilini kendi sesinle öğretmelisin. Bir mikrofon yardımıyla, tam olarak sesinizden kaydedilen kendi kelime dağarcığınızı oluşturursunuz. Bilgisayar sesli komutları kullanıcı tanımlı olabilir, ancak bir dizi belge için veritabanını kelime hazinesi açısından zengin hale getirmeye çalışın. Bu nedenle, sesli arama için Google'ın çevrimiçi serisi hala en iyi çözümdür.

Rusça dilini destekleyen bir bilgisayarda sesle yazmak için kullanışlı programlar.

Gorynych, bir bilgisayarı Rusça sesle kontrol etmek için diğer programlardan daha iyidir ve Google Web Speech çevrimiçi uygulamasında sesle yazma yapılması önerilir. Yalnızca Chrome tarayıcılarda kullanılabilir. Web Speech 32 dili destekler (Japonca ve Çince karakterler dahil). Kulağı kullanarak metin yazdırmak için yalnızca İnternet'e, Chrome tarayıcıya ve bir mikrofona ihtiyacınız vardır. Program, Rus dilini mükemmel bir şekilde anlar ve sözlü konuşmayı basılı metne çevirerek sonucu tam kelimelerle verir. Artık bir bilgisayar tarafından sesli ve hatta görüntülü konuşma tanıma için ücretli bir uygulamanın geliştirilmesi çoktan sona erdi. RealSpeaker programı, yalnızca sesi değil, kullanıcının yüz ifadelerini de tanıyabilir. Programın bir bilgisayar kullanıcısının "dudaklarını okuyacağı" normal bir web kamerası kullanmak için uygundur. Bu yaklaşım, yalnızca konuşmayı değil yüz ifadelerini de metin komutlarına dönüştürerek sesle kontrolde verimliliği artırır. RealSpeaker bugün bile Rusça ve 10 popüler dili daha destekliyor. Program, Windows7 / 8 platformları için tasarlanmıştır.Kurulumdan sonra program yapılandırılmalıdır. Başınızı dik tutmanız gerekir, web kamerası ile sık sık yüz temasının kesilmesi istenmez. Web kamerasından uzaklık tercihen 40 cm'yi geçmemelidir Rusça ile genişletilebilen bir sözlük vardır. Ancak genel olarak Gorynych ile karşılaştırıldığında RealSpeaker sesi metne dönüştürmek için daha uygundur.

Bilgisayarların ses kontrolü üzerine çalışmalar yapılarak birçok program oluşturulmuştur.

Bilgisayar kullanarak konuşma tanıma programcıları-geliştiricileri, Windows 95 günlerinden beri çalışmalarını ses kontrolüne adadılar. Bu süre zarfında, bir bilgisayarın Rusça sesle kontrolü ve konuşmayı metne dönüştürme için birçok program oluşturuldu. Daha popüler programlardan bazıları şunlardır:

Diktograf 5;
Sürekli mobil;
KOMBAT Vokatif Rusça ASR Motoru.

İngilizce konuşma için popüler programlar şunlardı:

MedSpeak;
Sakrament ASR Motoru;
Ses Yoluyla;
Ses_PE;
parlak;
ses tipi;
ayin;
VoiceXpress Pro;
iVoice;
Philips FreeSpeech 98;
SR-TTSC.

Bugüne kadar, programlar bu alanda liderdir:

Gorynych 5;
Web Konuşması;
Gerçek Konuşmacı;
Dragon (yalnızca İngilizce).

Bu dört program, bilgisayardaki konuşmadan komuta ve metin dönüştürmede en uygun sonucu verir. Aralarından seçim yapabileceğiniz pek bir şey olmadığını söyleyebiliriz. Konuşmanın bilgisayar komutlarına ve metne dönüştürülmesi sorunu hala geçerlidir. Bu, programcılar-geliştiriciler için hala ücretsiz bir niş. Bu sektörde yaratılan çok az sayıda değerli ürün var.

Çoğu zaman, kişisel bir bilgisayarda çalışırken büyük metinler yazmamız gerekir. Doğrudan monitörün önünde otururken, bazı ev işlerini yapabilmemize rağmen çok zaman kaybediyoruz.

Geçen yüzyıl

Bir bilgisayarın ses kontrolünün ne olduğunu bulalım. Biraz benzetme yapalım. Daha önce ve şimdi bile, çalışırken "ellerinizi bilgisayardan kurtarmanın" çok yaygın bir yolu, başka bir çalışanı - bir stenograf veya sekreter - işe almaktı. Bununla birlikte, çok az kişi, bir bilgisayarın Rusça olarak ses kontrolüne izin veren bir kişisel bilgisayara bir dizi program ve yardımcı program yükleyerek gereksiz harcamalardan kaçınmanın mümkün olduğunu bilir.

"Gorynych" ve WebSpeach gibi yazılım ürünlerinin ortaya çıkmasıyla, diploma, sipariş veya diğer belgeler gibi herhangi bir işi ne kadar uzun süre oturup yazdırmanız gerektiğini unutabilirsiniz. Bilgisayar teknolojisinin gelişmesiyle birlikte özel bir konuşma tanıma programı kullanma seçeneği ortaya çıkmıştır.

Yerleşik yardımcı programlar

Bir Windows 8 bilgisayarının ses kontrolü, yerleşik Windows Konuşma Tanıma yardımcı programı kullanılarak gerçekleştirilir. Maalesef şu anda Rusça bilgisayar yönetimi mümkün değil. Microsoft, görünüşe göre en yaygın dillere odaklanmaya çalışıyor, ancak yakında Rusça desteğinin piyasaya sürülmesi olası.

Hala demir yoldaşınızı İngilizce kullanarak kontrol etmeye çalışmak istiyorsanız, aşağıdaki talimatları izleyin.

"Dil" alt öğesindeki kontrol paneline gidin. Sistem dilini İngilizce olarak ayarlamanız gerekir. Eğer sahip değilseniz, uygun dil paketini indirmeniz gerekecektir.
Dili indirip kurduktan sonra, "döşeme" ile başlangıç ekranına gidin.
Arama kutusuna Windows Konuşma Tanıma yazın ve Enter'a basın. Bu, ses tanıma programını başlatır.
İlk başlatmada, mikrofonunuzu kurmanız istenecektir. Çeşitinizi seçin ve birkaç kelime söyleyin.
Daha sonra size 20 dakikalık bir eğitim kursu sunulacaktır. İngilizce olarak düzenlenmektedir, bu nedenle dili anlamıyorsanız güvenle atlayabilirsiniz. Programın arayüzü kesinlikle açıktır, böylece bir çocuk bile onunla başa çıkabilir.
Bilgisayarınızın ses kontrolünü etkinleştirmek için "Dinlemeye başla" parolasını söylemeniz gerekecektir. "Dinlemeye başla" anlamına gelir. Artık ihtiyacınız olan programı çalıştırabilir ve metni dikte etmeye başlayabilirsiniz.

Genel olarak, bu yardımcı programın olanakları tükenmez. Temel komutları kullanmanın yanı sıra kendi komutlarınızı da oluşturabilirsiniz.

Gelişim

Rusça ve İngilizce konuşmanın tanınması için birçok uygulama oluşturulmuştur:

"Diktograf 5";
"Sürekli mobil";
Ses_PE;
parlak;
ses tipi;
ayin.

Ancak en popüler olanları:

"Gorynych";
Web Konuşması;
Gerçek Konuşmacı;
Konuşma.

Onlara daha yakından bakalım.

"Gorynych"

Adından da anlayabileceğiniz gibi, uygulama Rus programcılardan oluşan bir ekip tarafından oluşturuldu ve Gorynych adlı bir Rus masal karakterinin adını aldı. İçindeki bilgisayarın ses kontrolü Rusça yapılır, ancak İngilizce desteği de vardır. "Gorynych", kişisel bir bilgisayarı kullanıcı modunda yönetmenize, yani fare ve klavyeyle gerçekleştirebileceğiniz tüm olası eylemleri gerçekleştirmenize olanak tanır: pencerelerle, uygulamalarla, kişisel bilgisayarda çalışan işlemlerle çalışın. Dahası, "Gorynych" yalnızca bir sahibinin konuşmasını tanır, ancak her zaman değil.

Ancak, oldukça büyük bir dezavantaj var. Gerçek şu ki, tüm komut tabanını manuel olarak girmeniz gerekiyor. Yani, en azından bilgisayarda sesinizle bir şeyler yapmadan önce, sesiniz tarafından kaydedilen komutlarla bütün bir veritabanı oluşturmanız gerekir. Bunu yapsanız bile, aniden kısılırsanız veya sesinizin tınısı en azından biraz değişirse, Gorynych sizi anlamayı tamamen reddedecektir.

Başka bir tuzak da, metinleri bir bilgisayara dikte etmek istiyorsanız, önce "Gorynych" için dikte ettiğiniz şeyi anlaması için iyi bir kelime dağarcığı olan büyük bir sözlük oluşturmanız gerekecek.

Konuşma

Kişisel bir bilgisayara yüklenen üçüncü taraf uygulamaları, bunun sağlanmasına yardımcı olabilir. Bunlardan biri Speechka. Tıpkı Google teknolojileri temel alınarak oluşturulan bir Rus ürünü olan "Gorynych" gibi, "Match" de kullanıcının belirli bir komut dizisini kullanarak bilgisayarı sesle kontrol etmesine olanak tanır. Speechka herhangi bir konuşmayı oldukça iyi tanır ve bunun için ses dosyası kaydetmeye gerek yoktur. Klavyeden bir kelime girmek ve onu herhangi bir eylemle ilişkilendirmek yeterlidir. Basitçe söylemek gerekirse, değerli bir üründür, ancak pencereleri kapatma veya programları başlatma gibi özellikler nispeten yakın zamanda eklendiğinden geliştirme aşamasındadır.

Yazıyor

Bir bilgisayarın ses kontrolünün ne olduğunu anladıktan sonra, yazma problemini ele alalım. Daha önce de belirtildiği gibi, tüm uygulamalar üretilmesine izin vermez. Çoğu durumda, bu, önce tam bir sözlük oluşturmanızı gerektirir ve bir Windows 8 kullanıcısıysanız, o zaman hala Rusça konuşmayı destekleme sorunu vardır. Bu sorunu çözmek için Google tarafından oluşturulmuş bir sesli arama servisi var.

Yalnızca Chrome tarayıcılarda kullanılabilen Google Web Speech uygulaması, Rusça da dahil olmak üzere dünyanın önde gelen 32 dilini tanır. Metni sesle girmek için uygun bir tarayıcıya, İnternet erişimine ve bir mikrofona ihtiyacınız vardır. Gelişmeler yeterince ilerledi, bu nedenle bu yardımcı program, okuryazar Rusça konuşmayı tüm kelimelerle algılayabiliyor ve bunu basılı metne çevirebiliyor.

Kişisel bir bilgisayarda konuşma tanıma ve dikte için başka bir program da RealSpeaker'dır. En son yüz tanıma teknolojisini kullanır. Kesinlikle herhangi bir web kamerası kullanımı için uygundur. İşlem sırasında ortaya çıkan tek rahatsızlık, konuşmacının yüzünün kameranın tam karşısında, 40 santimetreden fazla olmayan bir mesafede olması gerektiğidir. Bu programda, kullanıcının istenirse genişletebileceği bir Rus dili sözlüğü vardır. Genel olarak, bu program "Gorynych" den çok daha uygundur.

Sonuç

Sesinizle bir bilgisayarı kontrol etmeyi düşünüyorsanız, inanın bu henüz Rusya için değil. Bugün yeterli tanıma programları yalnızca İngilizce olarak mevcuttur ve otomatik sesle yazma o kadar çok hata içerecektir ki, tüm yazım hatalarını düzeltmektense sıfırdan metin yazmak daha kolay olacaktır. Tabii ki, İngilizce öğrenmeye ve bunun üzerindeki bir bilgisayarı yönetmeye çalışabilirsiniz, ancak mükemmel bir diksiyon ve telaffuza ihtiyacınız olacak.

Bugün konuşmamız hakkında konuşacağız. İster misiniz bilgisayarı sesle kontrol etme, parmakların yardımı olmadan? Ve dedikleri gibi, düşünce gücüyle! Doğru, bilgisayarı düşünce gücüyle kontrol etmeyeceğiz ama sesin gücüyle oldukça gerçek.

Tip programı- Bu, bir bilgisayarı sesle kontrol etmek için en iyi yazılımlardan biridir. Bu programa yapılan yorumlardaki sitelerde görüşler birleşiyor.

Doğru, eksiklikleri var. Ama bunun hakkında daha sonra. Bu arada, ilgileniyorsanız, incelememi okuyun.

Programı buradan indirebilirsiniz: http://freesoft.ru/type

Bu nasıl kullanılır? Öncelikle çalıştıralım ve ana kontrol butonlarını görelim:

Program bizi karşılıyor ve hemen Type'ın nasıl kullanılacağına dair ipuçları veriyor. Başlangıçta “ekle” butonuna basacağız ve örneğin “aç” kelimesini yazacağız. Bunu yapmak için mikrofona şu kelimeyi söyleyin:

Ardından ekle'yi tıklayın. Böylece “Aç” kelimesini programa sesimizle kaydettik. Diğer kelimeleri mikrofona konuşabilirsiniz. Ana şey kafa karıştırmamak.

Bir sonraki adım, komutları eklemektir. Bunu yapmak için şu noktaya gidin:

Ardından ihtiyacımız olan öğenin yanındaki kutuyu işaretliyoruz:

Bir program, uygulama veya eylem seçin ve kırmızı kayıt düğmesine tıklayın. Bilgisayar sesimizi kabul ettiyse "Ekle"ye tıklayın:

Ve şimdi profilimizde bir sesli komut görünecek. Bu durumda 7-Zip'i açan:

Ve şimdi, son düğmeye basarak "konuşmaya başla"

"Seven Zip aç" ifadesini söylüyoruz. Benim durumumda, her şey işe yarayacak. Ve 7-zip programı açılacaktır. Bu ifadeyi hatırla: Sim sim açık mı? Burada aynı şey hakkında bir şey var.

Program her zaman düzgün çalışmıyor. Artık güçlü Rus dili, dilbilimci programcılar tarafından tam olarak incelenmedi ... Ama yine de, bir bilgisayarın size itaat etmesi güzel.

Bu nedenle, test etme ve banal merak için Typle programı% 100 uygundur.

Bu videoda ilk ses motorlarının yaratılış tarihini ve üzerinde çalışmamız gereken başka şeyleri görebilirsiniz:

Programın diğer analoglarının Gorynych, Perpetuum, Dictograph, Voice Commander gibi korkunç isimleri var. Ama hepsi “o değil”. Değerli bir programın eleştirisini geçmeyin.

Bu programa hakim olmak 5 dakikamı aldı. Bu oldukça uzun bir süre (çoğunlukla bu tür programları 1-2 dakikada anlıyorum). Herhangi bir sorunuz varsa - yazın. Yakında görüşürüz arkadaşlar :)!