• Linux'ta modern konuşma tanıma sistemlerini anlamak. Ses tanıma. Teknoloji ve pazarlamacılar için önemi hakkında Bir bilgisayar için konuşma tanımayı programlama

    Hiçbir program, kaydedilmiş konuşmaların yazıya dökülmesine ilişkin manuel çalışmanın yerini tamamen alamaz. Bununla birlikte, konuşmanın metne çevrilmesini önemli ölçüde hızlandırabilen ve kolaylaştırabilen, yani transkripsiyonu basitleştiren çözümler vardır.

    transkripsiyon nedir

    Transkripsiyon, konuşmanın otomatik veya manuel olarak metne çevrilmesi, daha doğrusu bir ses veya video dosyasının metin biçiminde kaydedilmesidir.

    Bir metni yazıya dökmek için icracıya belirli bir miktar para ödendiğinde, internette ücretli ücretli görevler vardır. Bu durumda, transkripsiyon manuel olarak yapılır.

    Bununla birlikte, metni "dinleyebilen" ve aynı zamanda "yazdırabilen", daha sonra kullanıma uygun bir metin dosyasına dönüştürebilen özel bir program kullanarak transkripsiyonu otomatik olarak yapabilirsiniz.

    Konuşmayı manuel olarak veya özel bir program yardımıyla metne çevirmek faydalıdır.

    • öğrencilerin kayıtlı sesli veya görüntülü dersleri metne çevirmesi,
    • web sitelerini ve blogları yöneten blog yazarları,
    • yazarlar, gazeteciler kitap ve metin yazmak için,
    • web semineri, konuşma vb. sonrasında bir metne ihtiyaç duyan bilgi işadamları,
    • işlerini kolaylaştırmak ve hızlandırmak için konuşmayı metne manuel olarak çeviren serbest çalışanlar,
    • Yazmayı zor bulan kişiler - bir mektubu yazdırabilir ve akrabalarına veya arkadaşlarına gönderebilirler,
    • diğer seçenekler.

    Otomatik konuşmadan metne çeviri sorunları hakkında

    Programı kullanarak konuşmayı metne çevirmenin iki ana sorunu vardır: kaydedilen konuşmanın kalitesi ve kayıtta gürültü, müzik veya diğer yabancı sesler şeklinde bir arka planın varlığı.

    Herkesin konuşması farklıdır.

    • o kadar hızlı ki kelimeler yutulur veya tersine çok yavaş;
    • profesyonel konuşmacılar gibi net bir diksiyona sahip veya herhangi bir şeyi anlamayı güçleştirecek kadar anlamsız;
    • mükemmel telaffuzla veya tam tersine, örneğin bir yabancı konuştuğunda güçlü bir aksanla.

    Otomatik deşifre programı hangi durumlarda konuşmadan metne çeviri için en iyi sonucu verir? Bir kişi kayıtta net bir diksiyonla, normal bir konuşma hızında, aksansız konuştuğunda, program aşağı yukarı yüksek kaliteli bir çeviri yapacaktır. Aynı zamanda konuşma kaydında gürültü, müzik, diğer insanların konuşmaları şeklinde yabancı sesler yoktur. O zaman manuel düzeltme gerektirmeyen veya minimum değişiklikle iyi bir otomatik çeviri umabilirsiniz.

    Diğer durumlarda, konuşma anlamsız olduğunda ve yabancı sesler olduğunda, bir program veya uygulama kullanılarak yapılan çeviri çok daha kötü olacaktır. Belki bazı program veya hizmetler bu tür konuşmaları diğer program ve uygulamalardan daha iyi yazıya dökebilir, ancak bir mucize beklememelisiniz.

    Bazı durumlarda, canlı bir kişinin çeviriyi manuel olarak yapacağı bir serbest borsa ile iletişime geçmeye değer. Bununla birlikte, bir serbest çalışan otomatik transkripsiyon programlarını kullanabileceğinden ve ortaya çıkan metinde düzenlemeler yapmak için çok tembel olabileceğinden, burada da yüksek kalite garanti edilemez.

    Konuşmayı metne çevirmek için bir bilgisayarda, mobil uygulamalarda ve çevrimiçi hizmetlerde bulunan en etkili araçları açıklayacağız.

    1 Site talkpad.ru

    Bu, konuşmayı Google Chrome tarayıcısı aracılığıyla metne çevirmenizi sağlayan çevrimiçi bir hizmettir. Hizmet bir mikrofonla ve hazır dosyalarla çalışır. Elbette harici bir mikrofon kullanır ve kendiniz dikte ederseniz kalite çok daha yüksek olacaktır. Ancak hizmet, YouTube videolarında bile iyi bir iş çıkarıyor.

    "Kaydı etkinleştir" i tıklayın, "Mikrofon kullanma" ile ilgili soruyu yanıtlayın - bunun için "İzin Ver" i tıklayın.

    Hizmetin nasıl kullanılacağına ilişkin uzun talimat, şekil 2'deki düğme 1'e tıklanarak daraltılabilir. 3. Basit bir kayıt işlemi yaparak reklamlardan kurtulabilirsiniz.

    Pirinç. 3. Servis konuşma paneli

    Bitmiş sonucu düzenlemek kolaydır. Bunu yapmak için, vurgulanan kelimeyi manuel olarak düzeltmeniz veya tekrar dikte etmeniz gerekir. Çalışmanın sonuçları kişisel hesabınıza kaydedilir, bilgisayarınıza da indirilebilir.

    Konuşma pedi ile çalışmaya ilişkin video eğitimlerinin listesi:

    Videoları Youtube'dan veya bilgisayarınızdan kopyalayabilirsiniz, ancak bir miksere ihtiyacınız olacak, daha fazla ayrıntı:

    Sesli Transkripsiyon Videosu

    Hizmet yedi dilde çalışır. Küçük bir olumsuzluk var. Bitmiş bir ses dosyasını yazıya dökmeniz gerekirse, sesinin yankı şeklinde ek parazit oluşturan hoparlörlere dağıtılması gerçeğinde yatmaktadır.

    2 Hizmet dictation.io

    Ücretsiz ve kolay bir şekilde konuşmayı metne çevirmenizi sağlayacak harika bir çevrimiçi hizmet.

    Pirinç. 4. dictation.io hizmeti

    şek. 4 - Sayfa sonunda Rusça dili seçilebilir. Google Chrome tarayıcısında dil seçili ama Mozilla'da nedense böyle bir ihtimal yok.

    Bitmiş sonucu otomatik kaydetme yeteneğinin uygulanması dikkat çekicidir. Bu, bir sekmenin veya tarayıcının kapatılması sonucunda yanlışlıkla silinmesini önleyecektir. Bu hizmet tamamlanmış dosyaları tanımıyor. Mikrofon ile çalışır. Dikte ederken noktalama işaretlerini adlandırmanız gerekir.

    Metin oldukça doğru bir şekilde tanınıyor, yazım hatası yok. Noktalama işaretlerini klavyeden kendiniz ekleyebilirsiniz. Bitmiş sonuç bilgisayarınıza kaydedilebilir.

    3 Gerçek Hoparlör

    Bu program, insan konuşmasını kolayca metne çevirmenizi sağlar. Farklı sistemlerde çalışacak şekilde tasarlanmıştır: Windows, Android, Linux, Mac. Yardımı ile, ses dosyalarına kaydedilen konuşmanın yanı sıra bir mikrofona (örneğin, bir dizüstü bilgisayara yerleştirilebilir) dönüştürülebilir.

    Dünyanın 13 dilini algılayabilir. Programın çevrimiçi bir hizmet olarak çalışan bir beta sürümü vardır:

    Yukarıdaki bağlantıyı takip etmeniz, Rusça dilini seçmeniz, ses veya video dosyanızı çevrimiçi hizmete yüklemeniz ve transkripsiyonu için ödeme yapmanız gerekiyor. Transkripsiyondan sonra, alınan metni kopyalayabilirsiniz. Transkripsiyon dosyası ne kadar büyükse, işlenmesi o kadar uzun sürer, daha fazla ayrıntı:

    2017'de RealSpeaker kullanılarak ücretsiz bir deşifre seçeneği vardı, 2018'den beri böyle bir olasılık yok. Metne dönüştürülen dosyanın tüm kullanıcılar tarafından indirilememesi için, "Dosyanın 24 saat içinde başarısız olmasını sağla" seçeneğinin yanındaki kutunun işaretlenmesi gerekebilir.

    Sitede çevrimiçi sohbet vardır. Sohbet başlatmak için bu düğme sitenin sağ alt köşesinde bulunur.

    4 Konuşma notları

    Android'de çalışan mobil cihazlar için önceki uygulamaya bir alternatif. Uygulama mağazasında ücretsiz olarak mevcuttur:

    Metin otomatik olarak düzenlenir, içine noktalama işaretleri yerleştirilir. Notları dikte etmek veya listeler yapmak için harika. Sonuç olarak, metin çok iyi kalitede olacaktır. Ücretli bir premium sürümü var.

    5 Ejderha Diktesi

    Bu, Apple'dan mobil cihazlar için ücretsiz olarak dağıtılan bir uygulamadır.

    Program 15 dilde çalışabilir. Sonucu düzenlemenizi, listeden istediğiniz kelimeleri seçmenizi sağlar. Tüm sesleri net bir şekilde telaffuz etmek, gereksiz duraklamalar yapmamak ve tonlamalardan kaçınmak gerekir. Bazen kelimelerin sonlarında hatalar olabilir.

    Dragon Dictation uygulaması, örneğin, Apple cihazlarının sahipleri tarafından, bir apartman dairesinde dolaşırken bir mağazada bir alışveriş listesi dikte etmek için kullanılır. Oraya vardıklarında, nottaki metne dinlemek zorunda kalmadan bakabilirler.

    Uygulamanızda hangi programı kullanırsanız kullanın, sonucu iki kez kontrol etmeye ve belirli ayarlamalar yapmaya hazır olun.

    Hatasız, kusursuz bir metin elde etmenin tek yolu budur.

    Serbest borsalarda ses ve videonun metne dönüştürülmesi

    Manuel çeviriye gelince, borsada bir konuşma dökümünü metne çevirmek için sipariş verebilirsiniz. Serbest borsada, bazı kullanıcılar (müşteriler) sipariş verir, bir yüklenici seçer ve iş için ödeme yapar. Ve diğer kullanıcılar (serbest çalışanlar) sipariş alır, gerekli işi yapar ve bunun için ödeme alır.

    Serbest borsada nasıl sipariş verebilirsiniz? Öncelikle değişim web sitesine kayıt olmanız, yani orada kayıt olmanız gerekir. O zaman bir sipariş vermek mümkün olacak - bir transkripsiyon görevi.

    Borsadaki siparişiniz için bir sanatçı seçebilirsiniz - transkripsiyonu yapacak bir kişi. Bunu yapmak için, potansiyel sanatçılardan en az birinin önerilen işi üstlenmeyi kabul etmesi gerekir. Siparişi kimse almadıysa, parametrelerini değiştirmeniz gerekir, örneğin işin fiyatını artırın.


    Yapılan iş için ödeme doğrudan serbest çalışana değil, serbest değişim yoluyla yapılır. Bir sipariş verdiğinizde, genellikle transkripsiyonu tamamlamak için gereken tutarı hesabınıza yüklemeniz gerekir. Ayrıca, arabuluculuk için sabit bir miktar veya sipariş tutarının sabit bir yüzdesi şeklinde bir takas komisyonu olabilir. İş için ödeme, müşteri tarafından doğrulandıktan ve onaylandıktan sonra gerçekleştirilir. Çoğu zaman, miktar, işinin müşteri tarafından onaylanmasıyla eş zamanlı olarak yükleniciye gönderilir.

    Sipariş vermeden önce, tamamlanan görevi kontrol etme, bunun için ödeme yapma ve borsaya para yatırma ve çekme ile ilgili değişim kurallarını okumaya değer. Diğer siparişler için ödenmesi planlanan kalan paranın müşteriye geri dönebilmesi ve borsada sonsuza kadar kalmaması için paranın çekilmesi gerekir.

    Aşağıda, bir serbest çevirmen yardımıyla konuşmadan metne çeviri siparişi verebileceğiniz iki iyi bilinen serbest borsa sunuyoruz: weblancer.net ve freelance.ru.

    İki serbest borsa

    webblancer.net serbest borsasında ses ve videonun metne dönüştürülmesi (transkripsiyon):

    Pirinç. 5. (büyütmek için tıklayın)

    Serbest değişim webblancer.net

    Ses / video kayıtlarının dökümünü sipariş edebileceğiniz başka bir değişim - freelance.ru

    Serbest değişim freelance.ru

    Klavyede çok yavaş yazıyorsanız ve on parmakla yazma yöntemini öğrenemeyecek kadar tembelseniz, ses girişi için modern programları ve hizmetleri kullanmayı deneyebilirsiniz.

    Klavye, şüphesiz bir bilgisayarı yönetmek için oldukça uygun bir araçtır. Bununla birlikte, uzun metin yazmaya gelince, onun (ve dürüst olmak gerekirse, bizimkinin :)) tüm kusurlarını anlıyoruz ... Yine de üzerine hızlı bir şekilde yazabilmeniz gerekiyor!

    Birkaç yıl önce, makale yazma işimi kolaylaştırmak için sesi metne dönüştürmeme izin verecek bir program bulmaya karar verdim. İhtiyacım olan her şeyi mikrofona söylesem ve bilgisayar benim yerime yazsa ne güzel olur diye düşündüm :)

    O zamanlar bu dava için gerçekten çalışan (ve hatta daha da özgür) çözümlerin olmadığını anladığımda hayal kırıklığım neydi? Doğru, "Gorynych" ve "Dictograph" gibi yerel gelişmeler vardı. Rus dilini anladılar, ancak ne yazık ki konuşma tanıma kalitesi oldukça düşüktü, sesleri için bir sözlük oluşturmak için uzun bir kurulum gerektirdiler ve oldukça pahalıydılar...

    Sonra Android doğdu ve durum yerden biraz uzaklaştı. Bu sistemde, ses girişi, sanal bir ekran klavyesinden girişe yerleşik (ve oldukça uygun) bir alternatif olarak ortaya çıktı. Ve son zamanlarda, yorumlardan birinde, Windows için ses girişi olasılığı olup olmadığı soruldu. Henüz olmadığını söyledim, ama bakmaya karar verdim ve ortaya çıktı ki, belki de tam değil, ama böyle bir olasılık var! Araştırmamın sonuçları bugünün makalesi olacak.

    Konuşma tanıma sorunu

    Windows'ta ses girişi için şu anda mevcut olan çözümlerin analizine başlamadan önce, bir bilgisayar tarafından konuşma tanıma sorununun özüne biraz ışık tutmak istiyorum. Süreci daha doğru anlamak için aşağıdaki şemaya bir göz atmanızı öneririm:

    Gördüğünüz gibi, konuşmayı metne dönüştürme birkaç aşamada gerçekleşir:

    1. ses sayısallaştırma. Bu aşamada kalite diksiyonun netliğine, mikrofonun ve ses kartının kalitesine bağlıdır.
    2. Bir girdiyi bir sözlükteki girdilerle karşılaştırma. Burada "ne kadar çok - o kadar iyi" ilkesi işe yarar: sözlük ne kadar çok kayıtlı kelime içerirse, kelimelerinizin doğru bir şekilde tanınma şansı o kadar yüksek olur.
    3. Metin çıktısı. Duraklamaların yönlendirdiği sistem otomatik olarak, sözlükteki şablon sözcüklere karşılık gelen konuşma akışından ayrı sözcükleri çıkarmaya çalışır ve ardından bulunan eşleşmeleri metin biçiminde görüntüler.

    Tahmin edebileceğiniz gibi asıl sorun iki ana nüansta yatıyor: konuşmanın sayısallaştırılmış bölümünün kalitesi ve şablonlarla birlikte sözlüğün hacmi. İlk sorun, ucuz bir mikrofon ve standart bir ses kartı ile bile en aza indirilebilir. Yavaş ve anlaşılır konuşmanız yeterlidir.

    İkinci problemle, ne yazık ki, her şey o kadar basit değil... Bir bilgisayar, bir kişinin aksine, örneğin bir kadın ve bir erkek tarafından söylenen aynı cümleyi doğru bir şekilde tanıyamaz. Bunu yapmak için, veri tabanı, farklı seslerde hareket eden sesin her iki versiyonunu da içermelidir!

    İşte asıl hile burada yatıyor. Prensipte bir kişi için sözlük oluşturmak o kadar zor değil, ancak her kelimenin birkaç versiyonda yazılması gerektiği düşünüldüğünde, çok uzun ve emek yoğun olduğu ortaya çıkıyor. Bu nedenle, günümüzün konuşma tanıma programlarının çoğu ya çok pahalıdır ya da kendi sözlükleri yoktur, bu da kullanıcıya bunları kendi başına oluşturma fırsatı verir.

    Android'den biraz daha yukarıda bahsetmem boşuna değildi. Gerçek şu ki, onu geliştiren Google, bugün konuşma tanıma için (ve çok dilli!) Halka açık tek küresel çevrimiçi sözlüğü de yarattı. Google Ses API'sı. Yandex ayrıca Rus dili için benzer bir sözlük oluşturur, ancak ne yazık ki şu ana kadar gerçek koşullarda kullanım için hala uygun değildir. Bu nedenle, aşağıda ele alacağımız hemen hemen tüm ücretsiz çözümler, özellikle Google sözlükleriyle çalışır. Buna göre, hepsi aynı tanıma kalitesine sahiptir ve nüanslar yalnızca ek özelliklerde yatmaktadır...

    Ses girişi programları

    Windows altında ses girişi için çok fazla tam teşekküllü program yok. Evet ve Rusça anlayanlara çoğunlukla ödeme yapılıyor ... Örneğin, popüler RealSpeaker özel sesten metne sisteminin maliyeti 2.587 ruble'den ve profesyonel Caesar-R kompleksinin maliyeti 35.900 ruble'den başlıyor!

    Ancak tüm bu pahalı yazılımlar arasında, bir kuruşa mal olmayan, ancak aynı zamanda çoğu kullanıcı için fazlasıyla yeterli olan işlevsellik sağlayan bir program var. Buna MSpeech denir:

    Programın ana penceresi mümkün olan en basit arayüze sahiptir - bir ses seviyesi göstergesi ve yalnızca üç düğme: kaydı başlat, kaydı durdur ve ayarlar penceresini aç. MSpeech ayrıca oldukça basit bir şekilde çalışır. Kayıt düğmesine basmanız, imleci metnin görüntülenmesi gereken pencereye getirmeniz ve dikte etmeye başlamanız gerekir. Daha fazla rahatlık için, Ayarlar'da ayarlanabilen kısayol tuşlarını kullanarak kaydetmek ve durdurmak daha iyidir:

    Kısayol tuşlarına ek olarak, gerekli programların pencerelerine metin aktarma türünü değiştirmeniz gerekebilir. Varsayılan olarak, çıktı etkin pencereye ayarlanır, ancak etkin olmayan alanlara veya belirli bir programın alanlarına aktarımı belirleyebilirsiniz. Ek özelliklerden, belirttiğiniz ifadeleri kullanarak bilgisayarın ses kontrolünü uygulamanıza izin veren "Komutlar" ayar grubuna dikkat çekmeye değer.

    Genel olarak, MSpeech, herhangi bir Windows penceresinde sesinizle metin yazmanıza izin veren oldukça kullanışlı bir programdır. Kullanımındaki tek nüans, Google sözlüklerine erişmek için bilgisayarın İnternete bağlı olması gerektiğidir.

    Çevrimiçi ses girişi

    Bilgisayarınıza herhangi bir program yüklemek istemiyorsanız, ancak sesli olarak metin girmeyi denemek istiyorsanız, aynı Google sözlükleri temelinde çalışan birçok çevrimiçi hizmetten birini kullanabilirsiniz.

    Ve tabii ki, bahsedilmesi gereken ilk şey, Web Speech API adı verilen "yerel" Google hizmetidir:

    Bu hizmet, 50'den fazla dilde sınırsız konuşma bölümlerini metne çevirmenizi sağlar! Sadece konuştuğunuz dili seçmeniz, formun sağ üst köşesindeki mikrofon simgesine tıklamanız, gerekirse sitenin mikrofona erişme iznini onaylamanız ve konuşmaya başlamanız yeterlidir.

    Çok özel bir terminoloji kullanmaz ve anlaşılır konuşursanız çok iyi bir sonuç alabilirsiniz. Hizmet, kelimelere ek olarak noktalama işaretlerini de "anlıyor": "nokta" veya "virgül" derseniz, çıktı biçiminde gerekli karakter görünecektir.

    Kaydın sonunda, tanınan metin otomatik olarak vurgulanır ve onu panoya kopyalayabilir veya postayla gönderebilirsiniz.

    Eksiklikler arasında, hizmetin yalnızca 25 sürümünden daha eski Google Chrome tarayıcısında çalışabileceğini ve çok dilli tanıma eksikliğini belirtmekte fayda var.

    Bu arada, web sitemizde en üstte aynı konuşma tanıma biçiminin tamamen Ruslaştırılmış bir sürümünü bulacaksınız. Elinize sağlık ;)

    Google hizmetine dayalı olarak, epeyce benzer çevrimiçi konuşma tanıma kaynağı vardır. İlgimizi çeken sitelerden biri de Dictation.io :

    Web Speech API'den farklı olarak, Dictation.io daha şık bir not defteri benzeri tasarıma sahiptir. Google hizmetine göre ana avantajı, kaydı durdurmanıza ve ardından yeniden başlatmanıza izin vermesi ve aynı zamanda önceden girilen metnin siz "Temizle" düğmesine basana kadar kaydedilmesidir.

    Google Dictation.io hizmeti gibi, nokta, virgül, ünlem işareti ve soru işareti koyabilir, ancak yeni bir cümleye her zaman büyük harfle başlamaz.

    Maksimum işlevselliğe sahip bir hizmet arıyorsanız, muhtemelen bu konuda en iyilerden biri olacaktır:

    Hizmetin ana avantajları:

    • Rusça bir arayüzün varlığı;
    • tanıma seçeneklerini görüntüleme ve seçme yeteneği;
    • sesli komutların varlığı;
    • uzun bir aradan sonra kaydı otomatik durdurma;
    • metni panoya kopyalama, bir yazıcıda yazdırma, postayla veya Twitter'a gönderme ve diğer dillere çevirme işlevlerine sahip yerleşik metin düzenleyici.

    Hizmetin tek dezavantajı (Web Speech API'nin daha önce açıklanan genel dezavantajları dışında), bu tür hizmetlere pek aşina olmayan işlem algoritmasıdır. Kayıt butonuna basıp metni dikte ettikten sonra kontrol etmeniz, söylemek istediklerinize en uygun seçeneği seçip aşağıdaki metin düzenleyiciye aktarmanız gerekiyor. Bundan sonra prosedür tekrar edilebilir.

    Chrome eklentileri

    Tam teşekküllü programlara ve çevrimiçi hizmetlere ek olarak, konuşmayı metne dönüştürmenin başka bir yolu var. Bu yöntem, Google Chrome tarayıcısı için eklentiler aracılığıyla uygulanır.

    Eklenti kullanmanın ana avantajı, onların yardımıyla yalnızca hizmet web sitesindeki özel bir forma değil, aynı zamanda herhangi bir web kaynağındaki herhangi bir giriş alanına da sesli olarak metin girebilmenizdir! Aslında, eklentiler, hizmetler ve ses girişi için tam teşekküllü programlar arasında bir ara niş işgal eder.

    Konuşmayı metne çevirmek için en iyi uzantılardan biri SpeechPad'dir:

    SpeechPad'in en iyi Rusça konuşmadan metne çeviri hizmetlerinden biri olduğunu söylersem yalan söylemeyeceğim. Resmi web sitesinde, aşağıdakiler de dahil olmak üzere birçok gelişmiş özelliğe sahip oldukça güçlü (biraz eski moda olsa da) bir çevrimiçi not defteri bulacaksınız:

    • bilgisayarı kontrol etmek için sesli komut desteği;
    • geliştirilmiş noktalama desteği;
    • PC'de sessize alma işlevi;
    • Windows ile entegrasyon (ücretli olarak da olsa);
    • bir video veya ses kaydındaki metni tanıma yeteneği ("Transkripsiyon" işlevi);
    • tanınan metnin herhangi bir dile çevirisi;
    • metni indirilebilecek bir metin dosyasına kaydetme.

    Eklentiye gelince, bize hizmetin en basitleştirilmiş işlevselliğini sağlar. İmleci ihtiyacınız olan giriş alanına getirin, içerik menüsünü arayın ve "SpeechPad" öğesini tıklayın. Şimdi mikrofona erişimi onaylayın ve giriş alanı pembeye döndüğünde istenen metni dikte edin.

    Konuşmayı bıraktıktan sonra (2 saniyeden fazla duraklayın), eklenti kaydı durduracak ve söylediğiniz her şeyi sahada gösterecektir. Dilerseniz eklenti ayarlarına gidebilir (üstte bulunan eklenti simgesine sağ tıklayarak) ve varsayılan ayarları değiştirebilirsiniz:

    İşin garibi, ancak Google Extensions Online Store'un tamamında artık herhangi bir metin alanında ses girişine izin verecek tek bir değerli eklentiye rastlamadım. Tek benzer uzantı İngilizce idi. Bir web sayfasındaki tüm giriş alanlarına bir mikrofon simgesi ekler, ancak her zaman doğru şekilde konumlandırmaz, bu nedenle ekran dışında kalabilir...

    İşitme engelliler ve işitme güçlüğü çekenler için telefon altyazısı

    Ekranınızı harika bir telefon başlığına dönüştürün. Tamamen otomatiktir ve konuşmalarınızı yazan insan işiten daktilolar yoktur. Ailenizi ve arkadaşlarınızı telefonda duymak zor mu? Onlar için Speechlogger'ı açın ve telefonda bağırmayı bırakın. Telefonunuzun ses çıkışını bilgisayarınızın ses girişine bağlayın ve Speechlogger'ı çalıştırın. Yüz yüze etkileşimlerde de yararlıdır.

    Otomatik transkripsiyon

    Röportajı kaydettiniz mi? Google'ın otomatik konuşmasından Speechlogger tarafından tarayıcınıza getirilen metne yeniden yazarak biraz zaman kazanın. Kaydedilmiş röportajı bilgisayarınızın mikrofonunda (veya hattında) oynatın ve konuşma kaydedicinin transkripsiyonu yapmasına izin verin. Speechlogger, metnin transkripsiyonunu tarih, saat ve yorumlarınızla birlikte kaydeder. Ayrıca metni düzenlemenizi sağlar. Telefon görüşmeleri de aynı yöntemle yazıya dökülebilir. Ses dosyalarını aşağıda açıklandığı gibi doğrudan bilgisayarınızdan da kaydedebilirsiniz.

    Otomatik tercüman ve tercüman

    Yabancı misafirlerle mi buluşuyorsunuz? Konuşma kaydedici ve mikrofon içeren bir (veya iki) dizüstü bilgisayar getirin. Taraflardan her biri, diğerinin konuşulan sözlerinin gerçek zamanlı olarak kendi dillerine çevrildiğini görecektir. Karşı tarafı tam olarak anladığınızdan emin olmak için yabancı bir dilde telefon görüşmesi yapmak da yararlıdır. Telefonunuzun ses çıkışını bilgisayarınızın girişine bağlayın ve Speechlogger'ı başlatın.

    Yabancı dil öğrenin ve telaffuz becerilerinizi geliştirin

    Speechlogger harika bir dil öğrenme aracıdır ve çeşitli şekillerde kullanılabilir. Ana dilinizi konuşarak ve yazılımın çevirmesine izin vererek kelime öğrenmek için kullanabilirsiniz. Yabancı bir dil konuşarak ve Speechlogger'ın anlayıp anlamadığına bakarak doğru telaffuzu öğrenebilir ve uygulayabilirsiniz. Metin siyah yazı tipiyle yazılmışsa, onu iyi telaffuz etmişsiniz demektir.

    Film altyazısı oluşturma

    Speechlogger, filmleri veya diğer ses dosyalarını otomatik olarak kaydedebilir. Ardından dosyayı alın ve uluslararası altyazılar oluşturmak için otomatik olarak herhangi bir dile çevirin.

    Yazmak yerine dikte edin

    Mektup yazmak? Dokümantasyon? Listeler? Özet? Ne yazmanız gerekiyorsa onu Speechlogger'a dikte etmeyi deneyin. Speechlogger bunu sizin için otomatik olarak kaydedecek ve bir belgeye aktarmanıza izin verecektir.

    Komik oyun :)

    Çinli konuşmacıyı taklit edebilir misin? Fransızca? Peki ya Rusça? Yabancı bir dili taklit etmeye çalışın ve Speechlogger ile az önce ne söylediğinizi görün. Ne söylediğinizi anlamak için Speechlogger'ın simültane çevirisini kullanın. Harika sonuçlar alın - çok eğlenceli!

    Modern, olaylarla dolu dünyamızda, bilgiyle çalışma hızı başarının mihenk taşlarından biridir. Bilgileri ne kadar hızlı aldığımız, yarattığımız, işlediğimiz, çalışma üretkenliğimize ve üretkenliğimize ve dolayısıyla anlık maddi zenginliğimize bağlıdır. Çalışma yeteneklerimizi artırabilen araçlar arasında, konuşmayı metne çevirme programları, ihtiyacımız olan metinleri yazma hızını önemli ölçüde artırabilen önemli bir yer tutar. Bu yazıda size sesi metne çevirmek için popüler programların neler olduğunu ve özelliklerinin neler olduğunu anlatacağım.

    Sesli Sesten Metne Çevirmen Uygulaması - Sistem Gereksinimleri

    Sesi metne çevirmek için şu anda mevcut olan programların çoğu ücretlidir ve bir mikrofon için bir takım gereksinimler sunar (programın bir bilgisayar için tasarlanması durumunda). Bir web kamerasına yerleştirilmiş ve standart bir dizüstü bilgisayar kasasına yerleştirilmiş bir mikrofonla çalışmanız kesinlikle önerilmez (bu tür cihazlardan konuşma tanıma kalitesi oldukça düşüktür). Ayrıca, konuşmanızın tanınma düzeyini doğrudan etkileyebilecek gereksiz gürültünün olmadığı, sessiz bir ortamın olması da oldukça önemlidir.

    Aynı zamanda, bu programların çoğu, yalnızca bilgisayar ekranındaki konuşmayı metne dönüştürmekle kalmayıp, aynı zamanda bilgisayarınızı kontrol etmek için sesli komutlar kullanma (programları başlatma ve kapatma, e-posta alma ve gönderme, web sitelerini açma ve kapatma) yeteneğine sahiptir. , ve benzeri).

    Konuşmadan metne programı

    Konuşmayı metne çevirmeye yardımcı olabilecek programların doğrudan açıklamasına geçelim.

    "Laitis" Programı

    Ses tanıma için ücretsiz Rusça program "Laitis", konuşmayı anlama konusunda iyi bir kaliteye sahiptir ve yaratıcılarına göre, kullanıcının tanıdık klavyesini neredeyse tamamen değiştirebilir. Program ayrıca sesli komutlarla da iyi çalışır ve onların yardımıyla bilgisayarınızı yönetmek için birçok eylemi gerçekleştirmenize olanak tanır.

    Programın çalışması için bilgisayarda zorunlu olarak yüksek hızlı İnternet bulunması gerekir (program, Google ve Yandex'in ses tanıma ağ hizmetlerini kullanır). Programın yetenekleri, web tarayıcınıza Laitis'ten (Chrome, Mozilla, Opera) özel bir uzantı yüklemeniz gereken sesli komutları kullanarak tarayıcınızı kontrol etmenize de olanak tanır.

    "Dragon Professional" - ses kayıtlarının metne dönüştürülmesi

    Bu yazının yazıldığı sırada, bir dijital İngilizce ürünü « Dragon Professional Individual "tanınmış metinlerin kalitesinde dünya liderlerinden biridir. Program yedi dili anlıyor (şimdiye kadar yalnızca Dragon Anywhere mobil uygulaması ve üzerinde Rusça ile çalışıyor), yüksek kaliteli ses tanıma özelliğine sahip ve bir dizi sesli komut gerçekleştirebiliyor. Aynı zamanda, bu ürün yalnızca ücretli bir karaktere sahiptir (ana programın fiyatı 300 ABD dolarıdır ve Dragon Home ürününün "ev" versiyonu için alıcının 75 ABD doları ödemesi gerekecektir).

    Çalışması için, Nuance Communications'ın bu ürünü, programın özelliklerini sesinizin özelliklerine uyarlamak için tasarlanmış kendi profilinin oluşturulmasını gerektirir. Metni doğrudan dikte etmeye ek olarak, programı bir dizi komutu yürütmesi için eğitebilir, böylece bilgisayarla etkileşiminizi daha uyumlu ve kullanışlı hale getirebilirsiniz.

    "RealSpeaker" - ultra hassas konuşma tanıyıcı

    Sesi metne dönüştürme programı " RealSpeaker", bu tür programlar için standart işlevlere ek olarak, PC'nizin web kamerasının özelliklerini kullanmanıza olanak tanır. Artık program sadece sesin ses bileşenini okumakla kalmıyor, aynı zamanda konuşmacının dudaklarının köşelerinin hareketini de yakalayarak telaffuz ettiği kelimeleri daha doğru bir şekilde tanıyor.


    "RealSpeaker" yalnızca sesi değil, aynı zamanda konuşma sürecinin görsel bileşenini de okur

    Uygulama ondan fazla dili (Rusça dahil) destekler, aksanları ve lehçeleri dikkate alarak konuşmayı tanımanıza olanak tanır, ses ve videoyu yazıya dökmenize olanak tanır, buluta erişim sağlar ve çok daha fazlasını sağlar. Program bir shareware, ücretli sürüm için oldukça gerçek para ödemeniz gerekecek.

    "Voco" - program sesi hızlı bir şekilde bir metin belgesine çevirecektir

    Bir başka sesten metne dönüştürücü, "ev" sürümünün fiyatı şu anda yaklaşık 1.700 ruble olan ücretli Voco dijital ürünüdür. Bu programın daha gelişmiş ve pahalı sürümleri - "Voco.Professional" ve "Voco.Enterprise", bir dizi ek özelliğe sahiptir; bunlardan biri, kullanıcının kullanabileceği ses kayıtlarından konuşma tanımadır.

    "Voco" özellikleri arasında, programın kelime dağarcığını (şu anda programın kelime dağarcığı 85 binden fazla kelime içeriyor) ve ayrıca ağdan çevrimdışı çalışmasını sağlayarak bağımlı olmamanızı sağlıyor. İnternet bağlantınız.


    "Voco" nun avantajları arasında programın yüksek öğrenme yeteneği vardır.

    Uygulama oldukça basit bir şekilde açılır - sadece "Ctrl" tuşuna çift tıklayın. Gboard'da sesli girişi etkinleştirmek için boşluk çubuğunu basılı tutmanız yeterlidir

    Uygulama tamamen ücretsizdir, Rusça dahil birkaç düzine dili destekler.

    Çözüm

    Yukarıda, sesli ses kaydınızı metne çevirmek için programları listeledim, genel işlevlerini ve karakteristik özelliklerini açıkladım. Bu ürünlerin çoğu genellikle ücretlidir, oysa Rusça programların kapsamı ve kalitesi, İngilizce dilindeki benzerlerinden nitelik olarak daha düşüktür. Bu tür uygulamalarla çalışırken, mikrofonunuza ve ayarlarına özellikle dikkat etmenizi öneririm - bu, konuşma tanıma sürecinde önemlidir, çünkü kötü bir mikrofon, düşündüğüm türdeki en yüksek kaliteli yazılımı bile geçersiz kılabilir.


    Ses tanıma teknolojisinin 50 yıldır var olduğunu biliyor muydunuz? Bilim adamları bu sorunu yarım asırdır çözüyorlar ve yalnızca son birkaç on yılda BT şirketleri bu sorunu çözmeye katıldı. Son bir yıllık çalışmanın sonucu, yeni bir tanıma doğruluğu seviyesi ve günlük ve profesyonel yaşamda teknolojinin yoğun kullanımı oldu.

    Hayatın içindeki teknoloji

    Arama motorlarını her gün kullanıyoruz. Öğle yemeğini nerede yenir, doğru yere nasıl gidilir ya da bilinmeyen bir terimin anlamını bulmaya çalışıyoruz. Örneğin Google veya Yandex.Navigator tarafından kullanılan ses tanıma teknolojisi, arama için minimum zaman harcamamıza yardımcı olur. Bu basit ve kullanışlı.

    Profesyonel bir ortamda teknoloji, çalışmayı birkaç kez basitleştirmeye yardımcı olur. Örneğin tıpta bir doktorun konuşması, randevu anında tıbbi öykü ve reçete metnine dönüştürülür. Bu, hasta bilgilerinin belgelere girilmesinde zaman kazandırır. Otomobilin yerleşik bilgisayarına yerleştirilmiş sistem, örneğin sürücünün isteklerine yanıt vererek en yakın benzin istasyonunu bulmaya yardımcı oluyor. Engelli insanlar için, ev aletlerinin yazılımlarına ses kullanarak onları kontrol edecek sistemler eklemek önemlidir.

    Ses tanıma sistemlerinin geliştirilmesi

    Konuşma tanıma fikri her zaman umut verici görünüyordu. Ancak, sayıları ve en basit kelimeleri tanıma aşamasında, araştırmacılar bir sorunla karşı karşıya kaldı. Konuşma, hazır şablonlarla karşılaştırılan istatistiksel bir model olarak sunulduğunda, tanımanın özü bir akustik modelin inşasına indirgenmiştir. Model şablonla eşleşirse, sistem komutun veya numaranın tanındığına karar verir. Sistemin tanıyabileceği sözlüklerin büyümesi, bilgi işlem sistemlerinin gücünde bir artışı gerektirdi.

    Gİngilizce ses tanıma sistemlerinde bilgisayar performansının büyüme çizelgeleri ve tanıma hatalarının azaltılması
    kaynaklar:
    Ot Sutter. Ücretsiz Öğle Yemeği Bitti: Yazılımda Eş Zamanlılığa Doğru Temel Bir Dönüş
    https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



    Bugün, tanıma algoritmaları, bir dilin yapısını, örneğin tipik bir kelime dizisini tanımlayan dil modelleri ile desteklenmektedir. Sistem gerçek konuşma materyali üzerinde eğitilmiştir.

    Teknolojinin gelişiminde yeni bir aşama, sinir ağlarının kullanılmasıydı. Tanıma sistemi, her yeni tanımanın gelecekteki tanıma doğruluğunu etkileyecek şekilde tasarlanmıştır. Sistem öğrenilebilir hale gelir.


    Ses tanıma sistemlerinin kalitesi

    Bugün teknolojinin gelişimindeki durum şu hedefle ifade ediliyor: konuşmayı tanımadan anlamaya. Bu amaçla, önemli bir gösterge de seçildi - tanımadaki hataların yüzdesi. Böyle bir göstergenin bir kişinin konuşmasını bir başkası tarafından tanımada da kullanıldığını söylemeye değer. Bağlam gibi diğer faktörleri hesaba katarak bazı sözcükleri atlıyoruz. Bu, tek tek kelimelerin anlamlarını anlamadan bile konuşmayı anlamamızı sağlar. Bir insan için tanıma hata oranı %5,1'dir.

    Bir dili anlamak için bir konuşma tanıma sisteminin öğretilmesindeki diğer zorluklar, duygular, konuşma konusunda beklenmedik bir değişiklik, argo kullanımı ve konuşmacının bireysel özellikleri olacaktır: konuşma hızı, tını, seslerin telaffuzu.


    Dünya piyasası oyuncuları

    Ses tanıma platformu pazarındaki birçok küresel oyuncu iyi bilinmektedir. Bunlar Apple, Google, Microsoft, IBM'dir. Bu şirketler, araştırma için yeterli kaynaklara ve kendi sistemlerini eğitmek için kapsamlı bir temele sahiptir. Örneğin Google, öğrenmek için kullanıcıların kendilerine sormaktan mutlu olduğu milyonlarca arama sorgusu kullanır. Bu, bir yandan tanıma doğruluğunu artırırken, diğer yandan sınırlamalar getirir: sistem konuşmayı 15 saniyelik dilimler halinde tanır ve "geniş profilli bir soruya" güvenir. Google sistem tanıma hatası - %4,9. IBM için bu rakam 2016 sonunda %5,5 ve Microsoft için - %6,3'tür.

    Profesyonel alanlarda kullanıma yönelik platform, Amerikan şirketi Nuance tarafından geliştirilmektedir. Uygulama alanları arasında: tıp, hukuk, finans, gazetecilik, inşaat, güvenlik, otomotiv sektörü.

    Rusya'da, Konuşma Teknolojileri Merkezi, profesyonel ses tanıma ve konuşma sentezi araçlarının en büyük üreticisidir. Şirketin çözümleri dünya çapında 67 ülkede uygulanmaktadır. Ana çalışma alanları: ses biyometrisi - sesle tanımlama; sesli self servis sistemleri - çağrı merkezlerinde kullanılan IVR; konuşma sentezleyicileri. ABD'de ise Rus şirketi SpeechPro markası altında faaliyet gösteriyor ve İngilizce konuşma tanıma üzerine araştırmalar yürütüyor. Tanıma sonuçları, hata açısından İLK-5 sonuçlarına dahil edilir.


    Pazarlamada ses tanımanın değeri

    Pazarlamanın amacı, karlılığı ve verimliliği artırmak için pazarın ihtiyaçlarını incelemek ve işi bunlara göre organize etmektir. Ses, pazarlamacıların iki durumda ilgisini çeker: müşteri konuşursa ve çalışan konuşursa. Bu nedenle, pazarlamacılar için çalışmanın amacı ve teknolojinin kapsamı telefon görüşmeleridir.

    Bugün, telefon konuşmalarının analitiği zayıf bir şekilde gelişmiştir. Aramaların yalnızca kaydedilmesi değil, aynı zamanda dinlenmesi, değerlendirilmesi ve ancak daha sonra analiz edilmesi gerekir. Bir kaydı organize etmek zor değilse - bu herhangi bir sanal PBX veya arama izleme hizmeti olabilir - o zaman aramaları dinlemeyi organize etmek daha zordur. Bu görev ya şirketteki bir kişi tarafından ya da çağrı merkezi başkanı tarafından çözülür. Çağrıların dinlenmesi de dış kaynaklıdır. Her halükarda, arama tahminindeki hata, analitik sonuçlarını ve bunlara dayalı olarak alınan kararları sorgulayan bir sorundur.