• آشنایی با سیستم های تشخیص گفتار مدرن در لینوکس تشخیص صدا. درباره فناوری و اهمیت آن برای بازاریابان برنامه‌نویسی تشخیص گفتار برای رایانه

    هیچ برنامه ای نمی تواند به طور کامل جایگزین کار دستی رونویسی گفتار ضبط شده شود. با این حال، راه حل هایی وجود دارد که می تواند به طور قابل توجهی سرعت و تسهیل ترجمه گفتار به متن را تسهیل کند، یعنی رونویسی را ساده کند.

    رونویسی چیست

    رونویسی ترجمه خودکار یا دستی گفتار به متن، به طور دقیق تر، ضبط یک فایل صوتی یا تصویری به صورت متنی است.

    کارهای پولی در اینترنت وجود دارد، زمانی که مقدار مشخصی پول برای رونویسی یک متن به اجراکننده پرداخت می شود. در این حالت رونویسی به صورت دستی انجام می شود.

    با این حال، می توانید با استفاده از یک برنامه ویژه که می تواند متن را "گوش داده" و در عین حال آن را "پرینت" کند، رونویسی را به صورت خودکار انجام دهید، آن را به یک فایل متنی مناسب برای استفاده بیشتر تبدیل کنید.

    ترجمه گفتار به متن به صورت دستی یا با کمک یک برنامه خاص مفید است

    • دانش آموزان برای ترجمه سخنرانی های صوتی یا تصویری ضبط شده به متن،
    • وبلاگ نویسان وب سایت ها و وبلاگ ها را هدایت می کنند،
    • نویسندگان، روزنامه نگاران برای نوشتن کتاب و متون،
    • بازرگانان اطلاعاتی که پس از وبینار، سخنرانی و غیره به یک متن نیاز دارند،
    • فریلنسرهایی که به صورت دستی گفتار را به متن ترجمه می کنند تا کار خود را تسهیل و سرعت بخشند.
    • افرادی که تایپ کردن برایشان مشکل است - می توانند نامه ای را دیکته کنند و برای اقوام یا دوستانشان ارسال کنند.
    • گزینه های دیگر

    درباره مشکلات ترجمه خودکار گفتار به متن

    دو مشکل عمده برای تبدیل گفتار به متن با استفاده از برنامه وجود دارد: کیفیت گفتار ضبط شده و وجود پس زمینه در ضبط به شکل نویز، موسیقی یا سایر صداهای اضافی.

    گفتار هر کس متفاوت است.

    • آنقدر سریع که کلمات بلعیده می شوند، یا برعکس، بسیار کند.
    • با دیکشنری واضح، مانند سخنرانان حرفه ای، یا آنقدر بی بیان که تشخیص چیزی دشوار است.
    • با تلفظ عالی یا برعکس، با لهجه قوی، مثلاً وقتی یک خارجی صحبت می کند.

    در چه مواردی یک برنامه رونویسی خودکار بهترین نتیجه را از ترجمه گفتار به متن می دهد؟ این برنامه زمانی ترجمه کم و بیش با کیفیتی را انجام می دهد که فردی در ضبط با دیکشنری واضح، با سرعت گفتار عادی و بدون لهجه صحبت کند. در عین حال، هیچ صدای اضافی در ضبط گفتار به شکل سر و صدا، موسیقی، مکالمات افراد دیگر وجود ندارد. سپس می توانید به یک ترجمه خودکار خوب امیدوار باشید که نیازی به اصلاحات دستی یا با حداقل تغییرات نداشته باشد.

    در موارد دیگر، هنگامی که گفتار غیر قابل بیان است و صداهای اضافی وجود دارد، ترجمه با استفاده از یک برنامه یا برنامه بسیار بدتر خواهد بود. شاید برخی از برنامه ها یا سرویس ها چنین گفتاری را بهتر از سایر برنامه ها و برنامه ها رونویسی کنند، اما نباید انتظار معجزه داشته باشید.

    در برخی موارد، هنوز ارزش تماس با یک صرافی مستقل را دارد، جایی که یک فرد زنده ترجمه را به صورت دستی انجام می دهد. با این حال، در اینجا نیز نمی توان کیفیت بالا را تضمین کرد، زیرا یک فریلنسر می تواند از برنامه های رونویسی خودکار استفاده کند و برای ویرایش متن به دست آمده بسیار تنبل باشد.

    ما مؤثرترین ابزارهای موجود در رایانه، برنامه های کاربردی تلفن همراه و خدمات آنلاین برای ترجمه گفتار به متن را شرح خواهیم داد.

    1 سایت speakpad.ru

    این یک سرویس آنلاین است که به شما امکان می دهد گفتار را از طریق مرورگر Google Chrome به متن ترجمه کنید. این سرویس با میکروفون و با فایل های آماده کار می کند. البته اگر از میکروفون خارجی استفاده کنید و خودتان را دیکته کنید، کیفیت بسیار بالاتر خواهد بود. با این حال، این سرویس حتی با ویدیوهای YouTube نیز به خوبی کار می کند.

    روی "فعال کردن ضبط" کلیک کنید، به سوال "استفاده از میکروفون" پاسخ دهید - برای این، روی "اجازه دادن" کلیک کنید.

    دستورالعمل طولانی در مورد نحوه استفاده از سرویس را می توان با کلیک بر روی دکمه 1 در شکل جمع کرد. 3. با انجام یک ثبت نام ساده می توانید از شر تبلیغات خلاص شوید.

    برنج. 3. صفحه گفتار خدمات

    نتیجه نهایی به راحتی قابل ویرایش است. برای انجام این کار، یا باید کلمه برجسته شده را به صورت دستی تصحیح کنید یا دوباره آن را دیکته کنید. نتایج کار در حساب شخصی شما ذخیره می شود، آنها همچنین می توانند در رایانه شما بارگیری شوند.

    لیست فیلم های آموزشی کار با صفحه گفتار:

    می توانید ویدیوها را از یوتیوب یا رایانه خود رونویسی کنید، با این حال، به یک میکسر، جزئیات بیشتر نیاز دارید:

    ویدئو رونویسی صوتی

    این سرویس به هفت زبان عمل می کند. یک منفی کوچک وجود دارد. این در این واقعیت نهفته است که اگر نیاز به رونویسی یک فایل صوتی تمام شده دارید ، صدای آن به بلندگوها توزیع می شود که تداخل اضافی به شکل اکو ایجاد می کند.

    2 سرویس dictation.io

    یک سرویس آنلاین فوق العاده که به شما امکان می دهد گفتار را به صورت رایگان و آسان به متن ترجمه کنید.

    برنج. 4. سرویس dictation.io

    1 در شکل 4 - زبان روسی در انتهای صفحه قابل انتخاب است. در مرورگر گوگل کروم زبان انتخاب شده است اما در موزیلا بنا به دلایلی چنین امکانی وجود ندارد.

    قابل ذکر است که قابلیت ذخیره خودکار نتیجه نهایی اجرا شده است. این کار از حذف تصادفی در نتیجه بستن یک برگه یا مرورگر جلوگیری می کند. این سرویس فایل های تمام شده را شناسایی نمی کند. با میکروفون کار می کند. هنگام دیکته کردن باید علائم نگارشی را نام ببرید.

    متن کاملاً درست تشخیص داده شده است، هیچ غلط املایی وجود ندارد. می توانید علائم نگارشی را خودتان از صفحه کلید وارد کنید. نتیجه نهایی را می توان در رایانه شما ذخیره کرد.

    3 RealSpeaker

    این برنامه به شما اجازه می دهد تا به راحتی گفتار انسان را به متن ترجمه کنید. این برای کار بر روی سیستم های مختلف طراحی شده است: ویندوز، اندروید، لینوکس، مک. با کمک آن می توانید گفتاری را که صدا می کند به میکروفون تبدیل کنید (مثلاً می توان آن را در لپ تاپ تعبیه کرد) و همچنین در فایل های صوتی ضبط کرد.

    می تواند 13 زبان دنیا را درک کند. یک نسخه بتا از برنامه وجود دارد که به عنوان یک سرویس آنلاین کار می کند:

    باید لینک بالا را دنبال کنید، زبان روسی را انتخاب کنید، فایل صوتی یا تصویری خود را در سرویس آنلاین آپلود کنید و هزینه رونویسی آن را بپردازید. پس از رونویسی می توانید متن دریافتی را کپی کنید. هرچه فایل برای رونویسی بزرگتر باشد، پردازش آن به زمان بیشتری نیاز دارد، جزئیات بیشتر:

    در سال 2017، یک گزینه رونویسی رایگان با استفاده از RealSpeaker وجود داشت، از سال 2018 چنین امکانی وجود ندارد. این احتمال وجود دارد که برای اینکه فایل رونویسی شده برای دانلود در دسترس همه کاربران نباشد، لازم است کادر کنار «فایل را در عرض 24 ساعت از کار بیندازید» علامت بزنید.

    سایت دارای چت آنلاین است. دکمه شروع چت در گوشه سمت راست پایین سایت قرار دارد.

    4 یادداشت های گفتاری

    جایگزینی برای برنامه قبلی برای دستگاه های تلفن همراه در حال اجرا بر روی Android. به صورت رایگان در فروشگاه برنامه موجود است:

    متن به طور خودکار ویرایش می شود، علائم نگارشی در آن قرار می گیرد. برای دیکته کردن یادداشت ها یا تهیه لیست عالی است. در نتیجه، متن از کیفیت بسیار مناسبی برخوردار خواهد بود. نسخه پریمیوم پولی وجود دارد.

    5 دیکته اژدها

    این برنامه ای است که به صورت رایگان برای دستگاه های تلفن همراه از اپل توزیع می شود.

    این برنامه می تواند با 15 زبان کار کند. این به شما امکان می دهد نتیجه را ویرایش کنید، کلمات مورد نظر را از لیست انتخاب کنید. لازم است که همه صداها را به وضوح تلفظ کنید، مکث های غیر ضروری انجام ندهید و از زیر و بم خودداری کنید. گاهی اوقات اشتباهاتی در انتهای کلمات وجود دارد.

    برنامه Dragon Dictation توسط صاحبان ابزارهای اپل استفاده می شود، به عنوان مثال، برای دیکته کردن لیست خرید در یک فروشگاه در حین حرکت در آپارتمان. وقتی به آنجا می‌رسند، می‌توانند بدون گوش دادن به متن یادداشت نگاه کنند.

    از هر برنامه ای که در تمرین خود استفاده می کنید، آماده باشید که نتیجه را دوباره بررسی کنید و تنظیمات خاصی را انجام دهید.

    این تنها راه برای دریافت متنی بی عیب و نقص بدون خطا است.

    رونویسی صدا و تصویر به متن در مبادلات آزاد

    در مورد ترجمه دستی، می توانید رونوشت گفتار را به متن در صرافی سفارش دهید. در بورس آزاد، برخی از کاربران (مشتریان) سفارش می دهند، پیمانکار انتخاب می کنند و هزینه کار را پرداخت می کنند. و سایر کاربران (فریلنسرها) سفارش می گیرند، کارهای لازم را انجام می دهند و بابت آن پول می گیرند.

    چگونه می توان در بورس آزاد سفارش داد؟ ابتدا باید در وب سایت صرافی ثبت نام کنید، یعنی در آنجا ثبت نام کنید. سپس امکان ثبت سفارش - وظیفه ای برای رونویسی وجود خواهد داشت.

    برای سفارش خود در بورس، می توانید یک مجری را انتخاب کنید - شخصی که رونویسی را انجام می دهد. برای انجام این کار، لازم است حداقل یکی از مجریان بالقوه با قبول کار پیشنهادی موافقت کند. اگر کسی سفارش را نگرفت، باید پارامترهای آن را تغییر دهید، به عنوان مثال، قیمت کار را افزایش دهید.


    پرداخت برای کار انجام شده مستقیماً به فریلنسر انجام نمی شود، بلکه از طریق صرافی فریلنسری انجام می شود. هنگام ثبت سفارش، معمولاً باید حساب خود را با مبلغ مورد نیاز برای تکمیل رونویسی شارژ کنید. علاوه بر این، ممکن است کمیسیون مبادله برای میانجیگری به صورت مبلغ ثابت یا درصد ثابتی از مبلغ سفارش وجود داشته باشد. پرداخت کار پس از تایید و تایید آن توسط مشتری انجام می شود. در اغلب موارد، مبلغ به طور همزمان با تایید کار وی توسط مشتری برای پیمانکار ارسال می شود.

    قبل از ثبت سفارش، خواندن قوانین صرافی در مورد بررسی کار انجام شده، پرداخت هزینه آن و همچنین واریز و برداشت پول به صرافی ارزش دارد. برداشت پول مورد نیاز است تا پول باقیمانده که برای پرداخت سایر سفارشات برنامه ریزی شده است، بتواند به مشتری بازگردد و برای همیشه در صرافی باقی نماند.

    در زیر دو صرافی آزاد شناخته شده را ارائه می دهم که در آنها می توانید با کمک یک فریلنسر برای ترجمه گفتار به متن سفارش دهید: weblancer.net و freelance.ru.

    دو صرافی مستقل

    رونویسی صدا و تصویر به متن (رونویسی) در صرافی فریلنسری weblancer.net:

    برنج. 5. (برای بزرگنمایی کلیک کنید)

    صرافی آزاد weblancer.net

    تبادل دیگری که در آن می توانید رونوشت ضبط های صوتی / تصویری را سفارش دهید - freelance.ru

    تبادل آزاد freelance.ru

    اگر خیلی آهسته روی صفحه کلید تایپ می کنید و برای یادگیری روش تایپ ده انگشتی تنبل هستید، می توانید از برنامه ها و سرویس های مدرن برای ورودی صوتی استفاده کنید.

    صفحه کلید بدون شک ابزاری مناسب برای مدیریت کامپیوتر است. با این حال، وقتی نوبت به تایپ متن طولانی می‌شود، ما تمام نقص آن (و صادقانه بگویم، مال ما :)) را درک می‌کنیم... هنوز باید بتوانید سریع روی آن تایپ کنید!

    چند سال پیش، که می‌خواستم کارم را برای نوشتن مقاله آسان‌تر کنم، تصمیم گرفتم برنامه‌ای پیدا کنم که به من امکان تبدیل صدا به متن را بدهد. فکر می‌کردم چقدر خوب می‌شود اگر همه چیزهایی را که نیاز داشتم با میکروفون صحبت کنم و کامپیوتر به جای من تایپ کند :)

    وقتی متوجه شدم که در آن زمان هیچ راه حل واقعاً مؤثر (و حتی بیشتر رایگان) برای این پرونده وجود نداشت، ناامید شدم. درست است ، تحولات داخلی مانند "گورینیچ" و "دیکتوگراف" وجود داشت. آنها زبان روسی را می فهمیدند، اما، متأسفانه، کیفیت تشخیص گفتار نسبتاً پایین بود، آنها نیاز به تنظیم طولانی با ایجاد فرهنگ لغت برای صدای خود داشتند، و آنها بسیار گران بودند ...

    سپس اندروید متولد شد و وضعیت کمی از زمین خارج شد. در این سیستم، ورودی صوتی به عنوان یک جایگزین داخلی (و کاملاً راحت) برای ورودی از صفحه کلید مجازی روی صفحه نمایش ظاهر شد. و اخیرا در یکی از کامنت ها از من پرسیده شد که آیا امکان ورودی صوتی برای ویندوز وجود دارد؟ من پاسخ دادم که هنوز نه، اما تصمیم گرفتم نگاه کنم و معلوم شد که، شاید کاملاً کامل نباشد، اما چنین امکانی وجود دارد! نتایج تحقیق من مقاله امروز خواهد بود.

    مشکل تشخیص گفتار

    قبل از شروع تجزیه و تحلیل راه حل های موجود در حال حاضر برای ورودی صوتی در ویندوز، من می خواهم کمی در مورد ماهیت مشکل تشخیص گفتار توسط رایانه روشن کنم. برای درک دقیق تر فرآیند، پیشنهاد می کنم به نمودار زیر نگاهی بیندازید:

    همانطور که می بینید، تبدیل گفتار به متن در چند مرحله انجام می شود:

    1. دیجیتالی شدن صدا. در این مرحله کیفیت به وضوح دیکشنری، کیفیت میکروفون و کارت صدا بستگی دارد.
    2. مقایسه یک مدخل با مدخل های یک فرهنگ لغت. در اینجا اصل "هرچه بیشتر - بهتر" کار می کند: هرچه لغت نامه حاوی کلمات ضبط شده بیشتری باشد، شانس بیشتری برای تشخیص صحیح کلمات شما وجود دارد.
    3. خروجی متن. سیستم به طور خودکار، با هدایت مکث ها، سعی می کند واژگان فردی را از جریان گفتار که مطابق با واژگان الگو از فرهنگ لغت است استخراج کند و سپس مطابقت های یافت شده را در قالب متن نمایش می دهد.

    مشکل اصلی، همانطور که ممکن است حدس بزنید، در دو نکته اصلی نهفته است: کیفیت بخش دیجیتالی گفتار و حجم فرهنگ لغت با الگوها. اولین مشکل را می توان حتی با یک میکروفون ارزان قیمت و یک کارت صدای استاندارد به حداقل رساند. فقط کافی است آهسته و واضح صحبت کنید.

    با مشکل دوم، افسوس که همه چیز به این سادگی نیست... یک کامپیوتر، بر خلاف یک شخص، نمی تواند همان عبارتی را که مثلا یک زن و یک مرد گفته اند، به درستی تشخیص دهد. برای این کار، پایگاه داده آن باید شامل هر دو نسخه صداگذاری در صداهای مختلف باشد!

    اینجاست که ترفند اصلی نهفته است. ایجاد فرهنگ لغت برای یک نفر، در اصل، چندان دشوار نیست، با این حال، با توجه به اینکه هر کلمه باید در چندین نسخه نوشته شود، معلوم می شود که بسیار طولانی و کار فشرده است. بنابراین، اکثر برنامه‌های تشخیص گفتار امروزی یا خیلی گران هستند یا دیکشنری مخصوص به خود را ندارند و به کاربر این فرصت را می‌دهند که خودشان آن‌ها را ایجاد کنند.

    بیهوده نبود که کمی بالاتر به اندروید اشاره کردم. واقعیت این است که گوگل که آن را توسعه می دهد، تنها فرهنگ لغت آنلاین جهانی در دسترس عموم را برای تشخیص گفتار امروزی (و چند زبانه!) به نام ایجاد کرده است. Google Voice API. Yandex همچنین فرهنگ لغت مشابهی را برای زبان روسی ایجاد می کند، اما تا کنون، افسوس، هنوز برای استفاده در شرایط واقعی نامناسب است. بنابراین، تقریباً تمام راه حل های رایگانی که در زیر در نظر خواهیم گرفت به طور خاص با دیکشنری های Google کار می کنند. بر این اساس، همه آنها دارای کیفیت یکسانی در تشخیص هستند و تفاوت های ظریف فقط در ویژگی های اضافی نهفته است ...

    برنامه های ورودی صدا

    برنامه های کامل زیادی برای ورودی صوتی در ویندوز وجود ندارد. بله، و کسانی که روسی را می فهمند بیشتر پول می گیرند ... به عنوان مثال، هزینه سیستم محبوب صوتی به متن سفارشی RealSpeaker از 2587 روبل شروع می شود و مجموعه حرفه ای Caesar-R از 35900 روبل شروع می شود!

    اما در میان این همه نرم افزار گران قیمت، یک برنامه وجود دارد که یک پنی هزینه ندارد، اما در عین حال عملکردی را ارائه می دهد که برای اکثر کاربران بیش از حد کافی است. به آن MSpeech می گویند:

    پنجره اصلی برنامه دارای ساده ترین رابط ممکن است - یک نشانگر سطح صدا و فقط سه دکمه: شروع ضبط، توقف ضبط و باز کردن پنجره تنظیمات. MSpeech نیز به سادگی کار می کند. باید دکمه ضبط را فشار دهید، مکان نما را در پنجره ای که متن باید در آن نمایش داده شود قرار دهید و شروع به دیکته کنید. برای راحتی بیشتر، بهتر است آن را با استفاده از کلیدهای داغ ضبط و متوقف کنید، که می تواند در تنظیمات تنظیم شود:

    علاوه بر کلیدهای داغ، ممکن است لازم باشد نوع انتقال متن را به پنجره های برنامه های لازم تغییر دهید. به طور پیش فرض، خروجی روی پنجره فعال تنظیم می شود، با این حال، می توانید انتقال به فیلدهای غیرفعال یا فیلدهای یک برنامه خاص را مشخص کنید. از ویژگی های اضافی، شایان ذکر است که به گروه تنظیمات "Commands" توجه کنید که به شما امکان می دهد کنترل صوتی رایانه را با استفاده از عباراتی که مشخص کرده اید اجرا کنید.

    به طور کلی، MSpeech یک برنامه نسبتا مفید است که به شما امکان می دهد متن را با صدای خود در هر پنجره ویندوز تایپ کنید. تنها نکته ظریف در استفاده از آن این است که رایانه باید به اینترنت متصل باشد تا به دیکشنری های Google دسترسی داشته باشد.

    ورودی صوتی آنلاین

    اگر نمی خواهید هیچ برنامه ای روی رایانه خود نصب کنید، اما می خواهید سعی کنید متن را به صورت صوتی وارد کنید، می توانید از یکی از بسیاری از سرویس های آنلاینی که بر اساس همان فرهنگ لغت گوگل کار می کنند استفاده کنید.

    و البته، اولین چیزی که باید به آن اشاره کرد، سرویس «بومی» گوگل به نام Web Speech API است:

    این سرویس به شما امکان می دهد بخش های نامحدود گفتار را به بیش از 50 زبان به متن ترجمه کنید! فقط باید زبانی را که صحبت می کنید انتخاب کنید، روی نماد میکروفون در گوشه سمت راست بالای فرم کلیک کنید، در صورت لزوم، مجوز دسترسی سایت به میکروفون را تایید کنید و شروع به صحبت کنید.

    اگر از اصطلاحات بسیار تخصصی استفاده نکنید و واضح صحبت کنید، می توانید نتیجه بسیار خوبی بگیرید. علاوه بر کلمات، این سرویس علائم نگارشی را نیز "درک" می کند: اگر "نقطه" یا "کاما" بگویید، کاراکتر مورد نیاز در فرم خروجی ظاهر می شود.

    در پایان ضبط، متن شناسایی شده به طور خودکار برجسته می شود و می توانید آن را در کلیپ بورد کپی کنید یا از طریق پست ارسال کنید.

    از کاستی ها، شایان ذکر است که این سرویس فقط در مرورگر گوگل کروم قدیمی تر از نسخه 25 و همچنین عدم تشخیص چند زبانه می تواند کار کند.

    به هر حال، در وب سایت ما در بالا یک نسخه کاملاً روسی شده از همان شکل تشخیص گفتار را خواهید یافت. از سلامتی خود لذت ببرید ;)

    بر اساس سرویس Google، تعداد کمی از منابع تشخیص گفتار آنلاین مشابه وجود دارد. یکی از سایت های مورد علاقه ما Dictation.io است:

    برخلاف Web Speech API، Dictation.io طراحی شیک تری شبیه دفترچه یادداشت دارد. مزیت اصلی آن نسبت به سرویس Google این است که به شما امکان می دهد ضبط را متوقف کنید و سپس دوباره آن را شروع کنید و در عین حال متن وارد شده قبلی ذخیره می شود تا زمانی که خودتان دکمه "Clear" را فشار دهید.

    مانند سرویس Google Dictation.io، می تواند نقطه، کاما و همچنین علامت تعجب و علامت سوال قرار دهد، اما همیشه یک جمله جدید را با حرف بزرگ شروع نمی کند.

    اگر به دنبال سرویسی با حداکثر کارایی هستید، احتمالا یکی از بهترین ها در این زمینه خواهد بود:

    مزایای اصلی سرویس:

    • وجود رابط روسی زبان؛
    • امکان مشاهده و انتخاب گزینه های تشخیص؛
    • وجود پیام های صوتی؛
    • توقف خودکار ضبط پس از یک مکث طولانی؛
    • ویرایشگر متن داخلی با عملکردهای کپی متن در کلیپ بورد، چاپ آن بر روی چاپگر، ارسال آن از طریق پست یا توییتر و ترجمه به زبان های دیگر.

    تنها ایراد سرویس (به غیر از ایرادات کلی Web Speech API) الگوریتم عملیاتی است که برای چنین سرویس هایی کاملاً آشنا نیست. پس از فشار دادن دکمه ضبط و دیکته متن، باید آن را علامت بزنید، گزینه ای را انتخاب کنید که به بهترین شکل با آنچه می خواهید بگویید مطابقت دارد و سپس آن را به ویرایشگر متن زیر منتقل کنید. پس از آن، روش می تواند تکرار شود.

    پلاگین های کروم

    علاوه بر برنامه های کامل و خدمات آنلاین، راه دیگری برای تشخیص گفتار به متن وجود دارد. این روش از طریق افزونه های مرورگر گوگل کروم پیاده سازی می شود.

    مزیت اصلی استفاده از افزونه ها این است که با کمک آنها می توانید متن را به صورت صوتی نه تنها در یک فرم خاص در وب سایت خدمات، بلکه در هر قسمت ورودی در هر منبع وب وارد کنید! در واقع، پلاگین ها یک جایگاه متوسط ​​بین سرویس ها و برنامه های کامل برای ورودی صوتی را اشغال می کنند.

    یکی از بهترین افزونه ها برای ترجمه گفتار به متن SpeechPad است:

    اگر بگویم SpeechPad یکی از بهترین خدمات ترجمه گفتار به متن به زبان روسی است، دروغ نخواهم گفت. در وب سایت رسمی، یک دفترچه یادداشت آنلاین نسبتا قدرتمند (البته کمی قدیمی) با بسیاری از ویژگی های پیشرفته، از جمله:

    • پشتیبانی از دستورات صوتی برای کنترل کامپیوتر؛
    • پشتیبانی از علائم نگارشی بهبود یافته؛
    • عملکرد بی صدا در رایانه شخصی؛
    • ادغام با ویندوز (البته به صورت پولی)؛
    • توانایی تشخیص متن از ضبط ویدیو یا صدا (عملکرد "رونویسی")؛
    • ترجمه متن شناخته شده به هر زبانی؛
    • ذخیره متن در یک فایل متنی در دسترس برای دانلود.

    در مورد پلاگین، ساده ترین عملکرد سرویس را در اختیار ما قرار می دهد. مکان نما را در قسمت ورودی مورد نیاز خود قرار دهید، منوی زمینه را فراخوانی کنید و روی آیتم "SpeechPad" کلیک کنید. اکنون دسترسی به میکروفون را تأیید کنید و وقتی قسمت ورودی صورتی شد، متن مورد نظر را دیکته کنید.

    پس از توقف صحبت کردن (مکث بیش از 2 ثانیه)، افزونه ضبط را متوقف می کند و هر آنچه را که گفته اید در فیلد نمایش می دهد. در صورت تمایل می توانید به تنظیمات افزونه بروید (روی آیکون افزونه در بالا کلیک راست کنید) و تنظیمات پیش فرض را تغییر دهید:

    به اندازه کافی عجیب، اما در کل فروشگاه آنلاین Google Extensions، دیگر با یک افزونه ارزشمند برخورد نکردم که اجازه ورود صدا را در هر زمینه متنی بدهد. تنها پسوند مشابه انگلیسی بود. این یک نماد میکروفون را به تمام فیلدهای ورودی یک صفحه وب اضافه می کند، اما همیشه آن را به درستی قرار نمی دهد، بنابراین ممکن است خارج از صفحه نمایش داده شود...

    زیرنویس تلفن برای افراد ناشنوا و کم شنوا

    صفحه نمایش خود را به یک هدر گوشی عالی تبدیل کنید. این کاملاً خودکار است و هیچ تایپیست انسانی مکالمات شما را تایپ نمی کند. آیا پدربزرگ ها و مادربزرگ ها به سختی می توانند خانواده و دوستان را از طریق تلفن بشنوند؟ Speechlogger را برای آنها روشن کنید و از جیغ زدن در تلفن دست بردارید. به سادگی خروجی صدای گوشی خود را به ورودی صوتی رایانه خود متصل کرده و Speechlogger را اجرا کنید. همچنین در تعاملات چهره به چهره مفید است.

    رونویسی خودکار

    مصاحبه رو ضبط کردی؟ با بازنویسی آن، از گفتار خودکار Google، تا متنی که Speechlogger به مرورگر شما آورده است، در زمان خود صرفه جویی کنید. مصاحبه ضبط شده را در میکروفون (یا خط) رایانه خود پخش کنید و اجازه دهید speaklogger رونویسی را انجام دهد. Speechlogger رونویسی متن را همراه با تاریخ، زمان و نظرات شما ذخیره می کند. همچنین به شما امکان ویرایش متن را می دهد. مکالمات تلفنی را می توان با استفاده از همین روش رونویسی کرد. همچنین می توانید فایل های صوتی را مستقیماً از رایانه خود ضبط کنید، همانطور که در زیر توضیح داده شده است.

    مترجم و مترجم خودکار

    ملاقات با مهمانان خارجی؟ یک لپ‌تاپ (یا دو عدد) همراه با صدا و میکروفون همراه داشته باشید. هر یک از طرفین کلمات گفتاری طرف مقابل را در زمان واقعی به زبان خود ترجمه می کنند. همچنین برقراری تماس تلفنی به زبان خارجی برای اطمینان از درک کامل طرف مقابل مفید است. خروجی صدای تلفن خود را به خط ورودی رایانه خود وصل کنید و Speechlogger را راه اندازی کنید.

    زبان های خارجی را یاد بگیرید و مهارت های تلفظ خود را بهبود بخشید

    Speechlogger یک ابزار عالی برای یادگیری زبان است و می توان از آن به روش های مختلفی استفاده کرد. می توانید با صحبت کردن به زبان مادری خود و اجازه دادن به نرم افزار ترجمه آن را برای یادگیری واژگان استفاده کنید. با صحبت کردن به یک زبان خارجی و دیدن اینکه Speechlogger متوجه می شود یا نه، می توانید تلفظ صحیح را یاد بگیرید و تمرین کنید. اگر متن با فونت سیاه رونویسی شده باشد به این معنی است که آن را به خوبی تلفظ کرده اید.

    نسل زیرنویس فیلم

    Speechlogger می تواند به طور خودکار فیلم یا سایر فایل های صوتی را ضبط کند. سپس فایل را بردارید و به طور خودکار آن را به هر زبانی ترجمه کنید تا زیرنویس های بین المللی تولید شود.

    به جای تایپ کردن، دیکته کنید

    نامه نوشتن؟ مستندات؟ لیست ها؟ خلاصه؟ هر آنچه را که نیاز دارید تایپ کنید، در عوض آن را به Speechlogger دیکته کنید. Speechlogger به طور خودکار آن را برای شما ذخیره می کند و به شما امکان می دهد آن را به یک سند صادر کنید.

    بازی خنده دار :)

    آیا می توانید از زبان چینی تقلید کنید؟ فرانسوی؟ روسی چطور؟ سعی کنید یک زبان خارجی را تقلید کنید و ببینید با Speechlogger چه گفتید. از ترجمه همزمان Speechlogger برای درک آنچه که گفتید استفاده کنید. نتایج شگفت انگیزی دریافت کنید - بسیار سرگرم کننده است!

    در دنیای مدرن و پر حادثه ما، سرعت کار با اطلاعات یکی از ارکان موفقیت است. اینکه چقدر سریع اطلاعات را دریافت، ایجاد و پردازش می کنیم به بهره وری و بهره وری کاری ما و در نتیجه ثروت مادی فوری ما بستگی دارد. در میان ابزارهایی که می توانند توانایی های کاری ما را افزایش دهند، جایگاه مهمی را برنامه های تبدیل گفتار به متن اشغال می کنند که می تواند سرعت تایپ متون مورد نیاز ما را به میزان قابل توجهی افزایش دهد. در این مقاله به شما خواهم گفت که برنامه های محبوب برای ترجمه صدا به متن چیست و چه ویژگی هایی دارد.

    برنامه مترجم صوتی به متن - سیستم مورد نیاز

    اکثر برنامه های موجود در حال حاضر برای ترجمه صدا به متن ماهیت پولی دارند و تعدادی از الزامات میکروفون را ارائه می دهند (در مواردی که برنامه برای رایانه در نظر گرفته شده است). اکیداً توصیه نمی شود که با میکروفون ساخته شده در وب کم و همچنین قرار دادن در یک کیف لپ تاپ استاندارد کار کنید (کیفیت تشخیص گفتار از چنین دستگاه هایی در سطح نسبتاً پایینی است). علاوه بر این، داشتن یک محیط آرام، بدون سر و صدای غیر ضروری که می تواند مستقیماً بر سطح تشخیص گفتار شما تأثیر بگذارد، بسیار مهم است.

    در عین حال، اکثر این برنامه ها نه تنها قادرند گفتار را به متن روی صفحه رایانه تبدیل کنند، بلکه از دستورات صوتی برای کنترل رایانه شما (راه اندازی برنامه ها و بستن آنها، دریافت و ارسال ایمیل، باز کردن و بستن وب سایت ها استفاده می کنند. ، و غیره).

    برنامه گفتار به متن

    بیایید به توضیح مستقیم برنامه هایی برویم که می توانند به ترجمه گفتار به متن کمک کنند.

    برنامه "لایتیس"

    برنامه رایگان روسی زبان برای تشخیص صدا "Laitis" کیفیت خوبی در درک گفتار دارد و به گفته سازندگان آن تقریباً می تواند به طور کامل جایگزین صفحه کلید آشنای کاربر شود. این برنامه همچنین با دستورات صوتی به خوبی کار می کند و به شما امکان می دهد تا با کمک آنها اقدامات زیادی را برای مدیریت رایانه خود انجام دهید.

    برای عملکرد خود، این برنامه به در دسترس بودن اجباری اینترنت پرسرعت در رایانه شخصی نیاز دارد (این برنامه از خدمات شبکه تشخیص صدا از Google و Yandex استفاده می کند). قابلیت های این برنامه همچنین به شما امکان می دهد مرورگر خود را با استفاده از دستورات صوتی کنترل کنید، که برای این کار باید یک برنامه افزودنی ویژه از Laitis (Chrome، Mozilla، Opera) را بر روی ناوبر وب خود نصب کنید.

    "Dragon Professional" - رونویسی ضبط های صوتی به متن

    در زمان نوشتن این مقاله، یک محصول دیجیتالی به زبان انگلیسی « Dragon Professional Individual "یکی از رهبران جهانی در کیفیت متون شناخته شده است. این برنامه هفت زبان را می‌فهمد (تاکنون فقط اپلیکیشن موبایل Dragon Anywhere با روسی کار می‌کند و)، دارای تشخیص صدای باکیفیت است و می‌تواند تعدادی فرمان صوتی را انجام دهد. در عین حال، این محصول دارای شخصیت منحصراً پولی است (قیمت برنامه اصلی 300 دلار آمریکا است و برای نسخه "خانه" محصول Dragon Home، خریدار باید 75 دلار آمریکا بپردازد).

    این محصول از Nuance Communications برای عملکرد خود نیاز به ایجاد نمایه خاص خود دارد که برای تطبیق قابلیت های برنامه با ویژگی های صدای شما طراحی شده است. علاوه بر دیکته مستقیم متن، می توانید برنامه را برای اجرای تعدادی دستور آموزش دهید، در نتیجه تعامل خود را با رایانه حتی بیشتر هماهنگ و راحت کنید.

    "RealSpeaker" - تشخیص دهنده گفتار بسیار دقیق

    برنامه تبدیل صدا به متن "RealSpeaker"، علاوه بر عملکردهای استاندارد برای برنامه هایی از این دست، به شما امکان می دهد از قابلیت های وب کم رایانه شخصی خود استفاده کنید. اکنون این برنامه نه تنها جزء صوتی صدا را می خواند، بلکه حرکت گوشه های لب گوینده را نیز ضبط می کند و در نتیجه کلماتی را که تلفظ می کند به درستی تشخیص می دهد.


    "RealSpeaker" نه تنها صدا، بلکه بخش بصری فرآیند گفتار را نیز می خواند

    این برنامه از بیش از ده زبان (از جمله روسی) پشتیبانی می کند، به شما امکان می دهد گفتار را با در نظر گرفتن لهجه ها و لهجه ها تشخیص دهید، به شما امکان می دهد صدا و تصویر را رونویسی کنید، به شما امکان دسترسی به ابر و موارد دیگر را می دهد. این برنامه اشتراکی است، برای نسخه پولی شما باید پول کاملا واقعی بپردازید.

    "Voco" - برنامه به سرعت صدا را به یک سند متنی ترجمه می کند

    یکی دیگر از مبدل های صدا به متن، محصول دیجیتال پولی Voco است که قیمت نسخه "خانه" آن اکنون حدود 1700 روبل است. نسخه های پیشرفته و گران قیمت این برنامه - "Voco.Professional" و "Voco.Enterprise" دارای تعدادی ویژگی اضافی هستند که یکی از آنها تشخیص گفتار از ضبط های صوتی در دسترس کاربر است.

    از جمله ویژگی های "Voco" به امکان تکمیل واژگان برنامه اشاره می کنم (اکنون واژگان برنامه شامل بیش از 85 هزار کلمه است) و همچنین عملکرد آفلاین آن از شبکه که به شما امکان می دهد به آن وابسته نباشید. اتصال اینترنت شما


    از جمله مزایای "Voco" توانایی یادگیری بالای برنامه است

    برنامه به سادگی روشن می شود - فقط روی کلید "Ctrl" دوبار کلیک کنید. برای فعال کردن ورودی صوتی در Gboard، فقط کلید فاصله را فشار داده و نگه دارید

    این برنامه کاملا رایگان است، از چندین زبان از جمله روسی پشتیبانی می کند.

    نتیجه

    در بالا، من برنامه هایی را برای ترجمه صدای ضبط شده شما به متن فهرست کرده ام و عملکرد کلی و ویژگی های مشخصه آنها را شرح داده ام. اکثر این محصولات معمولاً ماهیت پولی دارند، در حالی که دامنه و کیفیت برنامه های روسی زبان از نظر کیفی پایین تر از همتایان انگلیسی زبان خود هستند. هنگام کار با چنین برنامه هایی، توصیه می کنم به میکروفون و تنظیمات آن توجه ویژه ای داشته باشید - این در فرآیند تشخیص گفتار مهم است، زیرا یک میکروفون بد می تواند حتی نرم افزارهای با کیفیتی را که من در نظر گرفته ام، نفی کند.


    آیا می دانستید که فناوری تشخیص صدا 50 سال است که وجود دارد؟ دانشمندان نیم قرن است که این مشکل را حل کرده اند و تنها در چند دهه اخیر شرکت های فناوری اطلاعات به حل آن پیوسته اند. نتیجه سال آخر کار، سطح جدیدی از دقت تشخیص و استفاده گسترده از فناوری در زندگی روزمره و حرفه ای بوده است.

    تکنولوژی در زندگی

    ما هر روز از موتورهای جستجو استفاده می کنیم. ما به دنبال این هستیم که ناهار را کجا بخوریم، چگونه به مکان مناسب برسیم، یا تلاش می کنیم معنای یک اصطلاح ناشناخته را پیدا کنیم. فناوری تشخیص صدا، که برای مثال توسط Google یا Yandex.Navigator استفاده می شود، به ما کمک می کند حداقل زمان را برای جستجو صرف کنیم. این ساده و راحت است.

    در یک محیط حرفه‌ای، فناوری چندین بار به ساده‌سازی کار کمک می‌کند. به عنوان مثال، در پزشکی، گفتار پزشک بلافاصله در زمان ملاقات به متن تاریخچه پزشکی و نسخه تبدیل می شود. این باعث صرفه جویی در زمان در وارد کردن اطلاعات بیمار در اسناد می شود. سیستم تعبیه شده در رایانه سواری خودرو به درخواست های راننده پاسخ می دهد، به عنوان مثال، به یافتن نزدیک ترین پمپ بنزین کمک می کند. برای افراد دارای معلولیت، ورود سیستم هایی به نرم افزار لوازم خانگی برای کنترل آنها با استفاده از صدا مهم است.

    توسعه سیستم های تشخیص صدا

    ایده تشخیص گفتار همیشه امیدوار کننده به نظر می رسد. اما در حال حاضر در مرحله تشخیص اعداد و ساده ترین کلمات، محققان با مشکل مواجه شدند. ماهیت تشخیص به ساخت یک مدل آکوستیک کاهش یافت، زمانی که گفتار به عنوان یک مدل آماری ارائه شد، که با الگوهای آماده مقایسه شد. اگر مدل با الگو مطابقت داشت، سیستم تصمیم گرفت که دستور یا شماره شناسایی شود. رشد لغت نامه هایی که سیستم می توانست آن ها را تشخیص دهد نیاز به افزایش قدرت سیستم های محاسباتی داشت.

    جینمودارهای رشد عملکرد کامپیوتر و کاهش خطاهای تشخیص در سیستم های تشخیص صدای انگلیسی
    منابع:
    هرب ساتر. ناهار رایگان به پایان رسید: چرخشی اساسی به سوی همزمانی در نرم افزار
    https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



    امروزه، الگوریتم‌های تشخیص با مدل‌های زبانی تکمیل شده‌اند که ساختار یک زبان را توصیف می‌کنند، برای مثال، یک توالی معمولی از کلمات. این سیستم بر روی مطالب گفتاری واقعی آموزش داده شده است.

    مرحله جدیدی در توسعه فناوری استفاده از شبکه های عصبی بود. سیستم تشخیص به گونه ای طراحی شده است که هر تشخیص جدید بر دقت تشخیص در آینده تأثیر می گذارد. سیستم قابل یادگیری می شود.


    کیفیت سیستم های تشخیص صدا

    وضعیت امور در توسعه فناوری امروز با هدف بیان می شود: از تشخیص گفتار تا درک. برای این منظور، یک شاخص کلیدی نیز انتخاب شد - درصد خطا در تشخیص. شایان ذکر است که چنین شاخصی در تشخیص گفتار یک شخص توسط شخص دیگر نیز استفاده می شود. برخی از کلمات را با در نظر گرفتن عوامل دیگر مانند زمینه حذف می کنیم. این به ما امکان می دهد حتی بدون درک معانی تک تک کلمات، گفتار را درک کنیم. برای یک انسان، میزان خطای تشخیص 5.1٪ است.

    مشکلات دیگر در آموزش سیستم تشخیص گفتار برای درک یک زبان، احساسات، تغییر غیرمنتظره در موضوع گفتگو، استفاده از زبان عامیانه و ویژگی های فردی گوینده است: سرعت گفتار، صدای صدا، تلفظ صداها.


    بازیگران بازار جهانی

    چندین بازیگر جهانی در بازار پلتفرم تشخیص صدا به خوبی شناخته شده اند. اینها اپل، گوگل، مایکروسافت، آی بی ام هستند. این شرکت ها منابع کافی برای تحقیق و پایگاه گسترده ای برای آموزش سیستم های خود دارند. به عنوان مثال، گوگل از میلیون ها عبارت جستجو برای یادگیری استفاده می کند که کاربران با خوشحالی از خود می پرسند. از یک سو، این امر دقت تشخیص را افزایش می‌دهد و از سوی دیگر، محدودیت‌هایی را تحمیل می‌کند: سیستم گفتار را در بخش‌های 15 ثانیه‌ای تشخیص می‌دهد و روی یک "سؤال با مشخصات گسترده" حساب می‌کند. خطای تشخیص سیستم گوگل - 4.9٪. برای IBM، این رقم 5.5٪ و برای مایکروسافت - 6.3٪ در پایان سال 2016 است.

    این پلتفرم برای استفاده در حوزه های حرفه ای توسط شرکت آمریکایی Nuance در حال توسعه است. از جمله زمینه های کاربردی: پزشکی، حقوق، مالی، روزنامه نگاری، ساخت و ساز، امنیت، صنعت خودرو.

    در روسیه، مرکز فناوری‌های گفتار بزرگترین تولیدکننده ابزارهای حرفه‌ای تشخیص صدا و سنتز گفتار است. راه حل های این شرکت در 67 کشور جهان اجرا می شود. زمینه های اصلی کار: بیومتریک صدا - شناسایی با صدا. سیستم های سلف سرویس صوتی - تلفن گویا، مورد استفاده در مراکز تماس؛ سینت سایزرهای گفتار در ایالات متحده، این شرکت روسی تحت نام تجاری SpeechPro فعالیت می کند و تحقیقاتی را در زمینه تشخیص گفتار انگلیسی انجام می دهد. نتایج تشخیص از نظر خطا در نتایج TOP-5 گنجانده شده است.


    ارزش تشخیص صدا در بازاریابی

    هدف بازاریابی مطالعه نیازهای بازار و سازماندهی کسب و کار مطابق با آنها به منظور افزایش سودآوری و کارایی است. صدا در دو مورد مورد توجه بازاریابان است: اگر مشتری صحبت کند و اگر کارمند صحبت کند. بنابراین، موضوع مطالعه برای بازاریابان و دامنه فناوری، تماس های تلفنی است.

    امروزه تجزیه و تحلیل مکالمات تلفنی ضعیف است. تماس‌ها نه تنها باید ضبط شوند، بلکه باید به آن‌ها گوش داده، ارزیابی شوند و تنها پس از آن تجزیه و تحلیل شوند. اگر سازماندهی یک ضبط دشوار نیست - می تواند هر PBX مجازی یا سرویس ردیابی تماس باشد - سازماندهی گوش دادن به تماس ها دشوارتر است. این کار یا توسط یک فرد در شرکت یا توسط رئیس مرکز تماس حل می شود. گوش دادن به تماس ها نیز برون سپاری می شود. در هر صورت، خطا در برآورد تماس مشکلی است که نتایج تحلیل ها و تصمیمات اتخاذ شده بر اساس آن را زیر سوال می برد.