ऑफ़लाइन वाक् पहचान के लिए एक पैकेज डाउनलोड करें। .NET डेस्कटॉप अनुप्रयोगों का उपयोग करके वाक् पहचान

) घरेलू उपकरणों के नियंत्रण के वास्तविक हैलो वर्ल्ड उदाहरण पर।
घरेलू उपकरण क्यों? क्योंकि, इस तरह के एक उदाहरण के लिए धन्यवाद, कोई इसकी सराहना कर सकता है गति और सटीकताजिसका उपयोग करके प्राप्त किया जा सकता है पूरी तरह से स्थानीयजैसे सर्वर के बिना वाक् पहचान गूगल एएसआरया यांडेक्स भाषण किट.
मैं लेख के साथ कार्यक्रम के सभी स्रोत कोड और Android के लिए स्वयं असेंबली भी संलग्न करता हूं।

अचानक क्यों?

हाल ही में, मैं लेखक के पास आया कि वह अपने कार्यक्रम के लिए सर्वर-साइड स्पीच रिकग्निशन का उपयोग क्यों करना चाहता था (मेरी राय में, यह बेमानी था और कुछ समस्याओं का कारण बना)। इसके बारे में क्या, क्या मैं उन परियोजनाओं के लिए वैकल्पिक तरीकों के उपयोग का अधिक विस्तार से वर्णन कर सकता हूं जहां कुछ भी पहचानने की आवश्यकता नहीं है, और शब्दकोश में शब्दों का एक सीमित सेट होता है। इसके अलावा, व्यावहारिक अनुप्रयोग के उदाहरण के साथ ...

हमें यांडेक्स और गूगल के अलावा कुछ और क्यों चाहिए?

उसी "व्यावहारिक अनुप्रयोग" के रूप में मैंने विषय चुना वॉयस कंट्रोल स्मार्ट होम.
ऐसा उदाहरण क्यों? क्योंकि इस पर आप क्लाउड-आधारित वाक् पहचान पर पूरी तरह से स्थानीय वाक् पहचान के कुछ लाभ देख सकते हैं। अर्थात्:
  • स्पीड- हम सर्वर पर निर्भर नहीं हैं और इसलिए उनकी उपलब्धता, बैंडविड्थ आदि पर निर्भर नहीं हैं। कारकों
  • शुद्धता- हमारा इंजन केवल उस शब्दकोश के साथ काम करता है जिसमें हमारा एप्लिकेशन रुचि रखता है, जिससे मान्यता की गुणवत्ता में वृद्धि होती है
  • कीमत- हमें सर्वर से प्रत्येक अनुरोध के लिए भुगतान करने की आवश्यकता नहीं है
  • आवाज सक्रिय- पहले अंक के अतिरिक्त बोनस के रूप में - हम अपने ट्रैफ़िक को बर्बाद किए बिना और सर्वर को लोड किए बिना लगातार "प्रसारण सुन सकते हैं"

ध्यान दें

मैं तुरंत आरक्षण करूंगा कि इन लाभों को लाभ माना जा सकता है। केवल परियोजनाओं के एक निश्चित वर्ग के लिए, हम कहाँ है हम बिल्कुल पहले से जानते हैं, उपयोगकर्ता किस शब्दकोश और किस व्याकरण के साथ काम करेगा। यानी, जब हमें मनमाना पाठ (उदाहरण के लिए, एक एसएमएस संदेश, या एक खोज क्वेरी) को पहचानने की आवश्यकता नहीं होती है। अन्यथा, बादल पहचान अपरिहार्य है।

तो एंड्रॉइड इंटरनेट के बिना भाषण को पहचान सकता है!
हाँ, हाँ... केवल जेलीबीन पर। और केवल आधा मीटर से, और नहीं। और यह मान्यता एक ही श्रुतलेख है, केवल बहुत छोटे मॉडल का उपयोग करते हुए। इसलिए हम इसे प्रबंधित और अनुकूलित भी नहीं कर सकते हैं। और वह अगली बार हमारे पास क्या लौटाएगी यह अज्ञात है। हालांकि एसएमएस के लिए-ठीक है!

हम क्या करें?

हम घरेलू उपकरणों के लिए एक वॉयस कंट्रोल पैनल लागू करेंगे जो कुछ मीटर से और यहां तक ​​​​कि बहुत सस्ते एंड्रॉइड स्मार्टफोन, टैबलेट और घड़ियों के सस्ते ब्रेक जंक पर भी सटीक और तेज़ी से काम करेगा।
तर्क सरल लेकिन बहुत व्यावहारिक होगा। हम माइक्रोफ़ोन को सक्रिय करते हैं और एक या अधिक डिवाइस नाम कहते हैं। एप्लिकेशन उन्हें पहचानता है और वर्तमान स्थिति के आधार पर उन्हें चालू / बंद करता है। या वह उनसे एक राज्य प्राप्त करता है और एक सुखद महिला स्वर में इसका उच्चारण करता है। उदाहरण के लिए, वर्तमान कमरे का तापमान।

बहुत सारे व्यावहारिक अनुप्रयोग हैं

सुबह में, अपनी आँखें खोले बिना, अपनी हथेली को बेडसाइड टेबल पर स्मार्टफोन स्क्रीन पर थप्पड़ मार दिया और "गुड मॉर्निंग!" - स्क्रिप्ट शुरू होती है, कॉफी मेकर चालू होता है और गुलजार होता है, सुखद संगीत सुनाई देता है, पर्दे अलग हो जाते हैं।
हम दीवार पर प्रत्येक कमरे में एक सस्ता (2 हजार, और नहीं) स्मार्टफोन लटकाएंगे। हम काम के बाद घर जाते हैं और "स्मार्ट होम! लाइट, टीवी!" - आगे क्या होता है, मुझे लगता है, यह कहना जरूरी नहीं है।

ट्रांसक्रिप्शन



व्याकरण क्या बताता है उपयोगकर्ता क्या कह सकता है... Pocketsphinx को जानने के लिए कैसेवह इसका उच्चारण करेगा, व्याकरण के प्रत्येक शब्द के लिए यह लिखना आवश्यक है कि यह संबंधित भाषा मॉडल में कैसा लगता है। अर्थात् प्रतिलिपिहर शब्द। यह कहा जाता है शब्दकोश.

विशेष वाक्य रचना का उपयोग करके प्रतिलेखन का वर्णन किया गया है। उदाहरण के लिए:
स्मार्ट यू एम एन ए जे हाउस डी ओओ एम

सिद्धांत रूप में, कुछ भी जटिल नहीं है। प्रतिलेखन में दोहरा स्वर तनाव को दर्शाता है। एक डबल व्यंजन एक स्वर के बाद एक नरम व्यंजन है। रूसी भाषा की सभी ध्वनियों के लिए सभी संभव संयोजन।

यह स्पष्ट है कि हम अपने आवेदन में सभी ट्रांसक्रिप्शन का पहले से वर्णन नहीं कर सकते हैं, क्योंकि हम उन नामों को पहले से नहीं जानते हैं जो उपयोगकर्ता अपने उपकरणों को देंगे। इसलिए, हम रूसी ध्वन्यात्मकता के कुछ नियमों के अनुसार "मक्खी पर" ऐसे प्रतिलेखन उत्पन्न करेंगे। ऐसा करने के लिए, आप ऐसे फोनमैपर वर्ग को कार्यान्वित कर सकते हैं जो इनपुट के रूप में एक स्ट्रिंग प्राप्त कर सकता है और इसके लिए सही ट्रांसक्रिप्शन उत्पन्न कर सकता है।

आवाज सक्रिय

यह वाक् पहचान इंजन की पूर्वनिर्धारित वाक्यांश (या वाक्यांशों) पर प्रतिक्रिया करने के लिए हर समय "हवा को सुनने" की क्षमता है। इस मामले में, अन्य सभी ध्वनियों और भाषणों को त्याग दिया जाएगा। यह व्याकरण का वर्णन करने और केवल माइक्रोफ़ोन चालू करने के समान नहीं है। मैं यहां इस समस्या का सिद्धांत और यह कैसे काम करता है इसकी यांत्रिकी नहीं दूंगा। मैं बस इतना कहूंगा कि हाल ही में Pocketsphinx पर काम करने वाले प्रोग्रामर ने इस तरह के एक फ़ंक्शन को लागू किया है, और अब यह एपीआई में "आउट ऑफ द बॉक्स" उपलब्ध है।

एक बात निश्चित रूप से ध्यान देने योग्य है। सक्रियण वाक्यांश के लिए, आपको न केवल प्रतिलेखन को इंगित करने की आवश्यकता है, बल्कि उपयुक्त एक का चयन करने की भी आवश्यकता है संवेदनशीलता दहलीज मूल्य... बहुत छोटा मान कई झूठी सकारात्मकता को जन्म देगा (यह तब होता है जब आपने सक्रियण वाक्यांश नहीं कहा था, लेकिन सिस्टम इसे पहचानता है)। और बहुत अधिक - प्रतिरक्षा के लिए। इसलिए, इस सेटिंग का विशेष महत्व है। मानों की अनुमानित सीमा 1e-1 से 1e-40 . तक है सक्रियण वाक्यांश के आधार पर.

निकटता सेंसर सक्रियण

यह कार्य हमारी परियोजना के लिए विशिष्ट है और इसका सीधे तौर पर मान्यता से कोई लेना-देना नहीं है। कोड को मुख्य गतिविधि में ही देखा जा सकता है।
वह लागू करती है सेंसरइवेंट लिस्टनरऔर आने के समय (सेंसर का मान अधिकतम से कम है) टाइमर चालू करता है, एक निश्चित देरी के बाद जाँच करता है कि क्या सेंसर अभी भी बंद है। यह झूठी सकारात्मकता से बचने के लिए किया जाता है।
जब सेंसर फिर से अवरुद्ध नहीं होता है, तो हम परिणाम प्राप्त करते हुए, पहचान को रोक देते हैं (नीचे विवरण देखें)।

हम पहचान शुरू करते हैं

Pocketsphinx मान्यता प्रक्रिया को कॉन्फ़िगर करने और शुरू करने के लिए एक सुविधाजनक API प्रदान करता है। ये वर्ग हैं SppechRecognizerतथा वाक् पहचानकर्तासेटअप.
मान्यता का कॉन्फ़िगरेशन और लॉन्च इस तरह दिखता है:

फोनमैपर फोनमैपर = नया फोनमैपर (गेटएसेट्स ()। ओपन ("तानाशाही / आरयू / हॉटवर्ड्स")); व्याकरण व्याकरण = नया व्याकरण (नाम, फोनमैपर); व्याकरण। ऐडवर्ड्स (हॉटवर्ड); DataFiles dataFiles = new DataFiles (getPackageName (), "ru"); फ़ाइल hmmDir = नई फ़ाइल (dataFiles.getHmm ()); फ़ाइल तानाशाही = नई फ़ाइल (dataFiles.getDict ()); फ़ाइल jsgf = नई फ़ाइल (dataFiles.getJsgf ()); कॉपीएसेट्स (हम्मडिर); सेवफाइल (जेएसजीएफ, व्याकरण। गेटजेएसजीएफ ()); saveFile (तानाशाही, व्याकरण। getDict ()); mRecognizer = SpeechRecognizerSetup.defaultSetup () .setAcousticModel (hmmDir) .setDictionary (dict) .setBoolean ("- remove_noise", false) .setKeywordThreshold (1e-7f) .getRecognizer (); mRecognizer.addKeyphraseSearch (KWS_SEARCH, हॉटवर्ड); mRecognizer.addGrammarSearch (COMMAND_SEARCH, jsgf);

यहां हम पहले सभी आवश्यक फाइलों को डिस्क पर कॉपी करते हैं (पॉकेटप्सिनक्स को एक ध्वनिक मॉडल, व्याकरण और डिस्क पर ट्रांसक्रिप्शन के साथ एक शब्दकोश की आवश्यकता होती है)। फिर मान्यता इंजन स्वयं कॉन्फ़िगर किया गया है। मॉडल और शब्दकोश फ़ाइलों के पथ, साथ ही कुछ पैरामीटर (सक्रियण वाक्यांश के लिए संवेदनशीलता सीमा) इंगित किए गए हैं। अगला, व्याकरण फ़ाइल का पथ कॉन्फ़िगर किया गया है, साथ ही सक्रियण वाक्यांश भी।

जैसा कि आप इस कोड से देख सकते हैं, व्याकरण और सक्रियण वाक्यांश पहचान दोनों के लिए एक इंजन तुरंत कॉन्फ़िगर किया गया है। ऐसा क्यों किया जाता है? ताकि हम उस समय जल्दी से स्विच कर सकें जिसे हमें पहचानने की आवश्यकता है। सक्रियण वाक्यांश पहचान प्रक्रिया का शुभारंभ इस तरह दिखता है:

MRcognizer.startListening (KWS_SEARCH);
और इस प्रकार वाक् पहचान किसी दिए गए व्याकरण पर आधारित होती है:

MRcognizer.startListening (COMMAND_SEARCH, 3000);
दूसरा तर्क (वैकल्पिक) मिलीसेकंड की संख्या है जिसके बाद यदि कोई कुछ नहीं कहता है तो मान्यता स्वतः समाप्त हो जाएगी।
जैसा कि आप देख सकते हैं, दोनों कार्यों के लिए केवल एक इंजन का उपयोग किया जा सकता है।

मान्यता परिणाम कैसे प्राप्त करें

मान्यता परिणाम प्राप्त करने के लिए, आपको एक ईवेंट श्रोता भी निर्दिष्ट करना होगा जो इंटरफ़ेस को लागू करता है पहचान श्रोता.
इसकी कई विधियाँ हैं जिन्हें पॉकेट्सफ़िंक्स द्वारा किसी एक घटना के घटित होने पर कहा जाता है:
  • ऑनबिगिनिंगऑफ स्पीच- इंजन ने कुछ आवाज सुनी, शायद यह भाषण है (या शायद नहीं)
  • ऑनएंडऑफस्पीच- ध्वनि समाप्त हो गई है
  • आंशिक परिणाम पर- मध्यवर्ती मान्यता परिणाम हैं। एक सक्रियण वाक्यांश के लिए, इसका मतलब है कि यह काम किया। तर्क परिकल्पना
  • परिणाम पर- मान्यता का अंतिम परिणाम। मेथड को कॉल करने के बाद इस मेथड को कॉल किया जाएगा विरामपर भाषण पहचानकर्ता... तर्क परिकल्पनामान्यता डेटा शामिल है (स्ट्रिंग और स्कोर)

एक या दूसरे तरीके से onPartialResult और onResult विधियों को लागू करके, आप मान्यता तर्क बदल सकते हैं और अंतिम परिणाम प्राप्त कर सकते हैं। यह हमारे आवेदन के मामले में कैसे किया जाता है:

@Override सार्वजनिक शून्य onEndOfSpeech () (Log.d (TAG, "onEndOfSpeech"); अगर (mRecognizer.getSearchName ()। बराबर (COMMAND_SEARCH)) (mRecognizer.stop ();)) @PartialResot (परिकल्पना) पर सार्वजनिक शून्य को ओवरराइड करें ( अगर (परिकल्पना == शून्य) वापसी; स्ट्रिंग टेक्स्ट = परिकल्पना। getHypstr (); अगर (KWS_SEARCH.equals (mRecognizer.getSearchName ())) (startRecognition ();) और (Log.d (TAG, टेक्स्ट);)) @Result (परिकल्पना परिकल्पना) पर सार्वजनिक शून्य को ओवरराइड करें (mMicView.setBackgroundResource (R.drawable.background_big_mic); mHandler.removeCallbacks (mStopRecognitionCallback); स्ट्रिंग टेक्स्ट = परिकल्पना (= शून्य? परिकल्पना। getHypstr (): शून्य? हाइपोथीसिस.getHypstr (): null , "onResult" + text); if (COMMAND_SEARCH.equals (mRecognizer.getSearchName ())) (if (text! = null) (Toast.makeText (यह, टेक्स्ट, Toast.LENGTH_SHORT) .show (); प्रक्रिया ( text );) mRecognizer.startListening (KWS_SEARCH);))

जब हम onEndOfSpeech ईवेंट प्राप्त करते हैं, और यदि उसी समय हम कमांड को निष्पादित करने के लिए पहचानते हैं, तो मान्यता को रोकना आवश्यक है, जिसके बाद onResult को तुरंत कॉल किया जाएगा।
onResult में, आपको यह जांचना होगा कि अभी क्या पहचाना गया है। यदि यह एक आदेश है, तो आपको इसे निष्पादन के लिए चलाने और सक्रियण वाक्यांश को पहचानने के लिए इंजन को स्विच करने की आवश्यकता है।
onPartialResult में, हम केवल सक्रियण वाक्यांश की पहचान में रुचि रखते हैं। यदि हम इसे ढूंढते हैं, तो हम तुरंत कमांड मान्यता प्रक्रिया शुरू करते हैं। यह है जो ऐसा लग रहा है:

निजी सिंक्रनाइज़ शून्य प्रारंभ पहचान () (अगर (mRecognizer == null || COMMAND_SEARCH.equals (mRecognizer.getSearchName ())) वापसी; mRecognizer.cancel (); नया टोन जेनरेटर (ऑडियो मैनेजर.STREAM_MUSIC, ToneGeneratorEMAX_VartOL_PIP, 200); पोस्ट (400) पोस्ट (400) , नया रननेबल () (@Override public void run ()) (mMicView.setBackgroundResource (R.drawable.background_big_mic_green); mRecognizer.startListening (COMMAND_SEARCH, 3000); Log.d (TAG, "सुनो कमांड"); पोस्ट (4000, mStopRecognitionCallback);)));)
यहां हम पहले उपयोगकर्ता को सूचित करने के लिए एक छोटा सिग्नल बजाते हैं कि हमने उसे सुना है और उसके आदेश के लिए तैयार हैं। इस समय के दौरान, माइक्रोफ़ोन बंद होना चाहिए। इसलिए, हम थोड़े समय के बाद पहचान शुरू करते हैं (सिग्नल की अवधि से थोड़ा अधिक, ताकि इसकी प्रतिध्वनि न सुनाई दे)। एक थ्रेड भी लॉन्च किया जाता है जो उपयोगकर्ता द्वारा बहुत अधिक देर तक बोलने पर पहचान को बलपूर्वक रोक देगा। इस मामले में, यह 3 सेकंड है।

किसी मान्यता प्राप्त स्ट्रिंग को कमांड में कैसे बदलें

खैर, सब कुछ पहले से ही किसी विशेष एप्लिकेशन के लिए विशिष्ट है। नग्न उदाहरण के मामले में, हम बस लाइन से डिवाइस के नाम निकालते हैं, उनके लिए वांछित डिवाइस की खोज करते हैं और या तो स्मार्ट होम कंट्रोलर को HTTP अनुरोध का उपयोग करके इसकी स्थिति बदलते हैं, या इसकी वर्तमान स्थिति की रिपोर्ट करते हैं (जैसा कि है थर्मोस्टेट के साथ मामला)। यह तर्क नियंत्रक वर्ग में देखा जा सकता है।

भाषण का संश्लेषण कैसे करें

वाक् संश्लेषण मान्यता के विपरीत है। यहां, इसके विपरीत - आपको पाठ की एक पंक्ति को भाषण में बदलने की आवश्यकता है ताकि उपयोगकर्ता इसे सुन सके।
थर्मोस्टेट के मामले में, हमें अपने एंड्रॉइड डिवाइस को वर्तमान तापमान कहना होगा। एपीआई का उपयोग करना लिखे हुए को बोलने में बदलनाऐसा करना काफी आसान है (रूसी भाषा के लिए अद्भुत महिला टीटीएस के लिए Google को धन्यवाद):

निजी शून्य बोलें (स्ट्रिंग टेक्स्ट) (सिंक्रनाइज़ किया गया (mSpeechQueue) (mRecognizer.stop (); mSpeechQueue.add (पाठ); हैश मैप पैराम्स = नया हैश मैप (2); params.put (TextToSpeech.Engine.KEY_PARAM_UTTERANCE_ID, UUID.randomUUID ()। toString ()); params.put (TextToSpeech.Engine.KEY_PARAM_STREAM, String.valueOf (AudioManager.STREAM_MUSIC)); params.put (TextToSpeech.Engine.KEY_FEATURE_NETWORK_SYNTHESIS, "true"); mTextToSpeech.speak (पाठ, TextToSpeech.QUEUE_ADD, params); ))

मैं शायद एक भोज कहूंगा, लेकिन संश्लेषण प्रक्रिया से पहले, मान्यता को बंद करना सुनिश्चित करें... कुछ उपकरणों पर (उदाहरण के लिए, सभी सैमसंग) आमतौर पर एक साथ माइक्रोफोन को सुनना और कुछ संश्लेषित करना असंभव है।
भाषण संश्लेषण का अंत (यानी सिंथेसाइज़र के साथ पाठ बोलने की प्रक्रिया का अंत) श्रोता में ट्रैक किया जा सकता है:

निजी अंतिम TextToSpeech.OnUtteranceCompletedListener mUtteranceCompletedListener = new TextToSpeech.OnUtteranceCompletedListener () (@Override public void onUtteranceCompleted (String utteranceId) (सिंक्रनाइज़ (mSpeechQueue) (mSpeechQueue।;)));

इसमें, हम बस जांचते हैं कि क्या संश्लेषण कतार में कुछ और है, और अगर कुछ नहीं है तो सक्रियण वाक्यांश की पहचान चालू करें।

और यह सब है?

हां! जैसा कि आप देख सकते हैं, पॉकेट्सफिनक्स जैसी अद्भुत परियोजनाओं की उपस्थिति के लिए धन्यवाद, डिवाइस पर सीधे भाषण को जल्दी और कुशलता से पहचानना मुश्किल नहीं है। यह एक बहुत ही सुविधाजनक एपीआई प्रदान करता है जिसका उपयोग आवाज पहचान से संबंधित समस्याओं को हल करने के लिए किया जा सकता है।

इस उदाहरण में, हमने एक पूरी तरह से सुसंगत समस्या को मान्यता दी है - स्मार्ट घरेलू उपकरणों का आवाज नियंत्रण... स्थानीय मान्यता के कारण, हमने काम की बहुत तेज़ गति हासिल की है और त्रुटियों को कम किया है।
साफ है कि इसी कोड का इस्तेमाल आवाज से जुड़े दूसरे कामों के लिए भी किया जा सकता है। यह एक स्मार्ट घर होना जरूरी नहीं है।

  • आवाज नियंत्रण
  • आवाज इंजन
  • टैग लगा दो

    इस फोन में है वाक् पहचानया ध्वनि इनपुट, लेकिन यह केवल इंटरनेट पर काम करता है, Google सेवाओं से जुड़ता है। लेकिन फोन को इंटरनेट के बिना भाषण को पहचानना सिखाया जा सकता है, हम देखेंगे कि रूसी भाषा की पहचान को कैसे सक्षम किया जाए ऑफ़लाइन... इस पद्धति के काम करने के लिए, आपके पास दो एप्लिकेशन इंस्टॉल होने चाहिए। आवाज खोजतथा गूगल खोज, हालांकि ये प्रोग्राम फ़ैक्टरी फ़र्मवेयर में पहले से मौजूद हैं।

    फर्मवेयर के लिए

    फोन सेटिंग में जाएं और चुनें

    रूसी चुनें और इसे डाउनलोड करें।

    फर्मवेयर 2.8B . के लिए

    नए फर्मवेयर में, मेनू आइटम " ऑफ़लाइन वाक् पहचान" लापता।

    यदि आपके पास फर्मवेयर अपडेट से पहले ऑफ़लाइन पैकेज स्थापित थे, और आपने अपडेट के दौरान वाइप (सेटिंग्स को रीसेट) नहीं किया था, तो उन्हें सहेजा जाना चाहिए था। अन्यथा, आपको फर्मवेयर पर वापस जाना होगा 2.2 , वॉयस पैक स्थापित करें, और उसके बाद ही सिस्टम को अपडेट करें 2.8बी.

    Rev.B उपकरणों के लिए

    हम पुनर्प्राप्ति के माध्यम से अद्यतन स्थापित करते हैं और ऑइलिन में ध्वनि पहचान का आनंद लेते हैं।

    2. रूसी भाषण के लिए आधार डाउनलोड करें, और इसे एसडी कार्ड में कॉपी करें

    डाउनलोड करें रूसी_ऑफ़लाइन.ज़िप 1301

    3. फोन को बंद करके (वॉल्यूम + और ऑन) दबाकर रिकवरी दर्ज करें।

    4. चुनें बाह्य भंडारण से अद्यतन को लागू करेंऔर डाउनलोड किए गए संग्रह का चयन करें।

    कोई भी सॉफ्टवेयर रिकॉर्डेड स्पीच को ट्रांसक्राइब करने के मैनुअल काम को पूरी तरह से रिप्लेस नहीं कर सकता है। हालांकि, ऐसे समाधान हैं जो पाठ में भाषण के अनुवाद को काफी तेज और सुविधाजनक बना सकते हैं, अर्थात प्रतिलेखन को सरल बना सकते हैं।

    ट्रांसक्रिप्शन टेक्स्ट के रूप में ऑडियो या वीडियो फ़ाइल की रिकॉर्डिंग है। इंटरनेट पर भुगतान किए गए कार्य होते हैं, जब पाठ के प्रतिलेखन के लिए कलाकार को एक निश्चित राशि का भुगतान किया जाता है।

    वाक्-से-पाठ अनुवाद उपयोगी है

    • छात्रों को रिकॉर्ड किए गए ऑडियो या वीडियो व्याख्यान को पाठ में अनुवाद करने के लिए,
    • ब्लॉगर्स अग्रणी वेबसाइटों और ब्लॉगों,
    • लेखक, पत्रकार किताबें और ग्रंथ लिखने के लिए,
    • जानकारी व्यवसाय के लोग जिन्हें अपने वेबिनार, भाषण आदि के बाद पाठ की आवश्यकता होती है,
    • जिन लोगों को टाइप करना मुश्किल लगता है - वे एक पत्र लिख सकते हैं और इसे परिवार या दोस्तों को भेज सकते हैं,
    • अन्य विकल्प।

    आइए पीसी, मोबाइल एप्लिकेशन और ऑनलाइन सेवाओं पर उपलब्ध सबसे प्रभावी टूल का वर्णन करें।

    1 वेबसाइट स्पीचपैड.रू

    यह एक ऑनलाइन सेवा है जो आपको Google क्रोम ब्राउज़र के माध्यम से भाषण को पाठ में अनुवाद करने की अनुमति देती है। सेवा एक माइक्रोफोन और तैयार फाइलों के साथ काम करती है। बेशक, यदि आप बाहरी माइक्रोफ़ोन का उपयोग करते हैं और स्वयं को निर्देशित करते हैं तो गुणवत्ता बहुत अधिक होगी। हालाँकि, YouTube वीडियो के साथ भी सेवा बहुत अच्छा काम करती है।

    "रिकॉर्डिंग सक्षम करें" पर क्लिक करें, "माइक्रोफ़ोन का उपयोग करना" के बारे में प्रश्न का उत्तर दें - इसके लिए "अनुमति दें" पर क्लिक करें।

    अंजीर में बटन 1 पर क्लिक करके सेवा का उपयोग करने पर एक लंबा निर्देश ध्वस्त किया जा सकता है। 3. आप एक साधारण पंजीकरण के माध्यम से विज्ञापन से छुटकारा पा सकते हैं।

    चावल। 3. स्पीचपैड सेवा

    तैयार परिणाम संपादित करना आसान है। ऐसा करने के लिए, आपको या तो चयनित शब्द को मैन्युअल रूप से सही करना होगा, या इसे फिर से निर्देशित करना होगा। कार्य के परिणाम आपके व्यक्तिगत खाते में सहेजे जाते हैं, उन्हें आपके कंप्यूटर पर भी डाउनलोड किया जा सकता है।

    स्पीचपैड के साथ काम करने पर वीडियो ट्यूटोरियल की सूची:

    आप Youtube से या अपने कंप्यूटर से वीडियो ट्रांसक्राइब कर सकते हैं, हालाँकि, आपको एक मिक्सर की आवश्यकता है, और अधिक विस्तार से:

    ऑडियो ट्रांसक्रिप्शन वीडियो

    सेवा सात भाषाओं में काम करती है। एक छोटा सा माइनस है। यह इस तथ्य में निहित है कि यदि आपको एक समाप्त ऑडियो फ़ाइल को स्थानांतरित करने की आवश्यकता है, तो इसकी ध्वनि वक्ताओं को वितरित की जाती है, जो एक प्रतिध्वनि के रूप में अतिरिक्त शोर पैदा करती है।

    2 सेवा श्रुतलेख.io

    एक अद्भुत ऑनलाइन सेवा जो आपको भाषण को पाठ में मुफ्त और आसानी से अनुवाद करने की अनुमति देगी।

    चावल। 4. सेवा श्रुतलेख.io

    1 अंजीर में। 4 - पृष्ठ के अंत में रूसी का चयन किया जा सकता है। Google क्रोम ब्राउज़र में, भाषा का चयन किया जाता है, लेकिन मोज़िला में किसी कारण से ऐसी कोई संभावना नहीं है।

    उल्लेखनीय है कि तैयार परिणाम को ऑटो सेव करने की क्षमता को लागू किया गया है। यह किसी टैब या ब्राउज़र को बंद करने के परिणामस्वरूप आकस्मिक विलोपन को रोकेगा। यह सेवा समाप्त फाइलों को नहीं पहचानती है। एक माइक्रोफोन के साथ काम करता है। श्रुतलेख करते समय आपको विराम चिह्नों को नाम देना होगा।

    पाठ काफी सही ढंग से पहचाना गया है, कोई वर्तनी त्रुटियाँ नहीं हैं। आप कीबोर्ड से स्वयं विराम चिह्न लगा सकते हैं। तैयार परिणाम आपके कंप्यूटर पर सहेजा जा सकता है।

    3 रियलस्पीकर

    यह कार्यक्रम मानव भाषण को पाठ में अनुवाद करना आसान बनाता है। इसे विभिन्न प्रणालियों पर काम करने के लिए डिज़ाइन किया गया है: विंडोज, एंड्रॉइड, लिनक्स, मैक। इसकी मदद से, आप ध्वनि को माइक्रोफ़ोन में परिवर्तित कर सकते हैं (उदाहरण के लिए, इसे लैपटॉप में बनाया जा सकता है), साथ ही ऑडियो फ़ाइलों में रिकॉर्ड किया जा सकता है।

    दुनिया की 13 भाषाओं को समझ सकते हैं। कार्यक्रम का एक बीटा संस्करण है जो ऑनलाइन सेवा के रूप में कार्य करता है:

    आपको उपरोक्त लिंक पर जाना होगा, रूसी भाषा का चयन करना होगा, अपनी ऑडियो या वीडियो फ़ाइल को ऑनलाइन सेवा में अपलोड करना होगा और इसके ट्रांसक्रिप्शन के लिए भुगतान करना होगा। ट्रांसक्रिप्शन के बाद, आप परिणामी टेक्स्ट को कॉपी कर सकते हैं। ट्रांसक्रिप्शन के लिए फ़ाइल जितनी बड़ी होगी, उसे संसाधित करने में उतना ही अधिक समय लगेगा, और अधिक विस्तार से:

    2017 में, RealSpeaker का उपयोग करके एक मुफ्त ट्रांसक्रिप्शन विकल्प था, 2018 में ऐसा कोई विकल्प नहीं है। यह बहुत शर्मनाक है कि ट्रांसक्राइब की गई फाइल सभी यूजर्स के लिए डाउनलोड करने के लिए उपलब्ध है, शायद इसमें सुधार किया जाएगा।

    कार्यक्रम के डेवलपर के संपर्क (VKontakte, Facebook, Youtube, Twitter, ईमेल, फोन) उसकी साइट के पृष्ठ पर पाए जा सकते हैं (अधिक सटीक रूप से, साइट के तहखाने में):

    4 स्पीचलॉगर

    Android पर चलने वाले मोबाइल उपकरणों के लिए पिछले ऐप का एक विकल्प। ऐप स्टोर में मुफ्त में उपलब्ध है:

    पाठ स्वचालित रूप से संपादित होता है, इसमें विराम चिह्न लगाए जाते हैं। नोट्स डिक्टेट करने या सूचियां बनाने के लिए बहुत आसान है। नतीजतन, पाठ एक बहुत ही सभ्य गुणवत्ता का होगा।

    5 ड्रैगन डिक्टेशन

    यह एक ऐसा एप्लिकेशन है जो Apple की ओर से मोबाइल उपकरणों के लिए नि:शुल्क वितरित किया जाता है।

    कार्यक्रम 15 भाषाओं के साथ काम कर सकता है। यह आपको परिणाम संपादित करने, सूची से वांछित शब्दों का चयन करने की अनुमति देता है। सभी ध्वनियों का स्पष्ट रूप से उच्चारण करना आवश्यक है, न कि अनावश्यक विराम लगाने और स्वर से बचने के लिए। कभी-कभी शब्दों के अंत में गलतियाँ हो जाती हैं।

    ड्रैगन डिक्टेशन एप्लिकेशन का उपयोग मालिकों द्वारा किया जाता है, उदाहरण के लिए, एक स्टोर में खरीदारी की सूची को निर्देशित करने के लिए जब वे एक अपार्टमेंट के चारों ओर घूमते हैं। जब मैं वहां पहुंचता हूं, तो आप नोट के टेक्स्ट को देख सकते हैं, और आपको सुनने की जरूरत नहीं है।

    आप अपने अभ्यास में जो भी कार्यक्रम उपयोग करते हैं, परिणाम की दोबारा जांच करने और कुछ समायोजन करने के लिए तैयार रहें। त्रुटियों के बिना एक निर्दोष पाठ प्राप्त करने का यही एकमात्र तरीका है।

    इसके अलावा उपयोगी सेवाएं:

    नवीनतम कंप्यूटर साक्षरता लेख सीधे अपने इनबॉक्स में प्राप्त करें.
    पहले से ही अधिक 3.000 ग्राहक

    .

    अपडेट किया गया: सोमवार, जुलाई 31, 2017

    कंप्यूटर से बात करने के अर्ध-शानदार विचार का पेशेवर फोटोग्राफी से क्या लेना-देना है? लगभग कोई नहीं, यदि आप किसी व्यक्ति के संपूर्ण तकनीकी वातावरण के अंतहीन विकास के विचार के प्रशंसक नहीं हैं। एक पल के लिए कल्पना करें कि आप अपने कैमरे को फ़ोकल लंबाई बदलने के लिए वॉइस कमांड दे रहे हैं और आधा स्टॉप प्लस द्वारा एक्सपोज़र क्षतिपूर्ति कर रहे हैं। कैमरे का रिमोट कंट्रोल पहले ही लागू किया जा चुका है, लेकिन वहां आपको चुपचाप बटन दबाने की जरूरत है, और यहां हियरिंग फोमर है!

    कंप्यूटर के साथ एक व्यक्ति की आवाज संचार के उदाहरण के रूप में एक विज्ञान कथा फिल्म का हवाला देना एक परंपरा बन गई है, ठीक है, स्टेनली कुब्रिक द्वारा निर्देशित कम से कम "ए स्पेस ओडिसी 2001"। वहां, ऑन-बोर्ड कंप्यूटर न केवल अंतरिक्ष यात्रियों के साथ एक सार्थक संवाद करता है, बल्कि एक बहरे व्यक्ति की तरह होठों को पढ़ सकता है। दूसरे शब्दों में, मशीन ने बिना किसी त्रुटि के मानव भाषण को पहचानना सीख लिया है। शायद कैमरे का कुछ रिमोट वॉयस कंट्रोल अतिश्योक्तिपूर्ण लगेगा, लेकिन कई लोग इस वाक्यांश को पसंद करेंगे "हमें उतार दो, बेबी"और ताड़ के पेड़ की पृष्ठभूमि पर पूरे परिवार की तस्वीर तैयार है।

    खैर, यहां मैंने परंपरा को श्रद्धांजलि दी, थोड़ी कल्पना की। लेकिन, दिल से बोलना, इस लेख को लिखना मुश्किल था, और यह सब एंड्रॉइड 4 ओएस वाले स्मार्टफोन के रूप में एक उपहार के साथ शुरू हुआ। इस HUAWEI U8815 मॉडल में चार इंच की छोटी टचस्क्रीन और ऑन-स्क्रीन कीबोर्ड है। इस पर टाइप करना कुछ असामान्य है, लेकिन यह विशेष रूप से आवश्यक नहीं निकला। (छवि 01)

    1. एंड्रॉइड ओएस पर चलने वाले स्मार्टफोन में आवाज की पहचान

    एक नए खिलौने में महारत हासिल करते हुए, मैंने खोज बार में माइक्रोफ़ोन की एक ग्राफिक छवि देखी गूगलऔर नोट्स में कीबोर्ड पर। पहले, मुझे इसमें कोई दिलचस्पी नहीं थी कि यह प्रतीक क्या है। मेरी बातचीत हुई स्काइप, और कीबोर्ड पर टाइप किए गए अक्षर। अधिकांश इंटरनेट उपयोगकर्ता यही करते हैं। लेकिन जैसा कि उन्होंने मुझे बाद में समझाया, एक खोज इंजन में गूगलरूसी में ध्वनि खोज को जोड़ा गया और ऐसे प्रोग्राम दिखाई दिए जो आपको ब्राउज़र का उपयोग करते समय छोटे संदेशों को निर्देशित करने की अनुमति देते हैं "क्रोम".

    मैंने तीन शब्दों के एक वाक्यांश का उच्चारण किया, कार्यक्रम ने उन्हें पहचाना और उन्हें एक नीले रंग की पृष्ठभूमि वाले सेल में दिखाया। इसमें कुछ आश्चर्य की बात थी, क्योंकि सभी शब्दों की वर्तनी सही थी। यदि आप इस सेल पर क्लिक करते हैं, तो वाक्यांश एंड्रॉइड नोटबुक के टेक्स्ट फ़ील्ड में दिखाई देता है। तो उसने कुछ और वाक्यांश कहे और सहायक को एसएमएस के माध्यम से एक संदेश भेजा।


    2. आवाज पहचान कार्यक्रमों का एक संक्षिप्त इतिहास।

    यह मेरे लिए कोई खोज नहीं थी कि आवाज नियंत्रण में आधुनिक प्रगति घरेलू उपकरणों, एक कार, एक रोबोट को आदेश देने की अनुमति देती है। विंडोज, ओएस / 2 और मैक ओएस के पिछले संस्करणों में कमांड मोड पेश किया गया था। मैंने टॉक प्रोग्राम देखे हैं, लेकिन उनका क्या उपयोग है? शायद यह मेरी ख़ासियत है कि मेरे लिए कीबोर्ड पर टाइप करने की तुलना में बोलना आसान है, और अपने सेल फोन पर मैं कुछ भी टाइप नहीं कर सकता। मुझे सामान्य कीबोर्ड वाले लैपटॉप पर संपर्कों को लिखना है और यूएसबी केबल के माध्यम से स्थानांतरित करना है। लेकिन सिर्फ माइक्रोफोन में बात करना और कंप्यूटर ने बिना किसी त्रुटि के टेक्स्ट टाइप किया - यह मेरे लिए एक सपना था। मंचों पर चर्चा से निराशा का माहौल पैदा हो गया। उनके अंदर हर जगह ऐसा उदास विचार था:

    "हालांकि, वास्तव में, अब तक, वास्तविक भाषण मान्यता (और यहां तक ​​​​कि रूसी में) के लिए कार्यक्रम व्यावहारिक रूप से मौजूद नहीं हैं, और वे स्पष्ट रूप से जल्द ही नहीं बनाए जाएंगे। इसके अलावा, मान्यता के विपरीत कार्य भी - भाषण संश्लेषण, जो मान्यता से कहीं अधिक आसान प्रतीत होता है, पूरी तरह से हल नहीं हुआ है।" (कंप्यूटरप्रेस #12, 2004)

    "अभी भी कोई सामान्य भाषण मान्यता कार्यक्रम नहीं हैं (न केवल रूसी), क्योंकि यह कार्य कंप्यूटर के लिए बहुत कठिन है। और सबसे बुरी बात यह है कि मानव शब्द पहचान तंत्र अभी तक समझ में नहीं आया है, इसलिए मान्यता कार्यक्रम बनाते समय शुरू करने के लिए कुछ भी नहीं है।" (मंच पर एक और चर्चा)।

    उस ने कहा, अंग्रेजी भाषा के ध्वनि-प्रवेश कार्यक्रमों की समीक्षाओं ने स्पष्ट सफलताओं का संकेत दिया। उदाहरण के लिए, IBM ViaVoice 98 कार्यकारी संस्करण 64,000 शब्दों की एक बुनियादी शब्दावली थी और अपने स्वयं के शब्दों की समान संख्या को जोड़ने की क्षमता थी। कार्यक्रम के प्रशिक्षण के बिना शब्द पहचान का प्रतिशत लगभग 80% था और एक विशिष्ट उपयोगकर्ता के साथ बाद के काम के साथ 95% तक पहुंच गया।

    रूसी भाषा मान्यता कार्यक्रमों में से, यह ध्यान देने योग्य है "गोरींच" - अंग्रेजी भाषा के ड्रैगन डिक्टेट 2.5 के अतिरिक्त। खोज के बारे में, और फिर "पांच गोरींच के साथ लड़ाई" मैं आपको समीक्षा के दूसरे भाग में बताऊंगा। सबसे पहले मुझे "इंग्लिश ड्रैगन" मिला।

    3. निरंतर भाषण "ड्रैगन नेचुरली स्पीकिंग" की मान्यता का कार्यक्रम

    कंपनी कार्यक्रम का आधुनिक संस्करण "अति सूक्ष्मता"मिन्स्क इंस्टीट्यूट ऑफ फॉरेन लैंग्वेजेज के मेरे पुराने दोस्त के साथ निकला। वह इसे विदेश यात्रा से लाई, और यह सोचकर कि वह "कंप्यूटर सचिव" हो सकती है, इसे खरीद लिया। लेकिन कुछ काम नहीं किया, और कार्यक्रम लैपटॉप पर लगभग भूल गया। कोई बोधगम्य अनुभव न होने के कारण मुझे स्वयं अपने मित्र के पास जाना पड़ा। मेरे द्वारा निकाले गए निष्कर्षों की सही समझ के लिए यह सब लंबा परिचय आवश्यक है।

    मेरे पहले अजगर का पूरा नाम इस तरह लग रहा था: ... कार्यक्रम अंग्रेजी में है और इसमें सब कुछ एक मैनुअल के बिना भी समझ में आता है। पहला कदम एक विशिष्ट उपयोगकर्ता की प्रोफाइल बनाना है ताकि उसके प्रदर्शन में शब्दों की ध्वनि की ख़ासियत का निर्धारण किया जा सके। मैंने क्या किया - स्पीकर की उम्र, देश, उच्चारण की विशेषताएं क्या मायने रखती हैं। मेरी पसंद है: उम्र 22-54, अंग्रेजी यूके, मानक उच्चारण। आगे कई विंडो हैं जहां आप अपना माइक्रोफ़ोन सेट करते हैं। (छवि04)

    गंभीर वाक् पहचान कार्यक्रमों का अगला चरण किसी विशेष व्यक्ति के उच्चारण के लिए प्रशिक्षण है। आपको पाठ की प्रकृति चुनने के लिए आमंत्रित किया जाता है: मेरी पसंद श्रुतलेख पर एक छोटा निर्देश है, लेकिन आप एक विनोदी कहानी को "आदेश" भी दे सकते हैं।

    कार्यक्रम के साथ काम करने के इस चरण का सार अत्यंत सरल है - इसके ऊपर एक पीले तीर के साथ एक खिड़की में एक पाठ प्रदर्शित होता है। जब सही ढंग से उच्चारण किया जाता है, तो तीर वाक्यांशों के माध्यम से आगे बढ़ता है, और नीचे कसरत की प्रगति पट्टी होती है। संवादी अंग्रेजी को मैं बहुत भूल गया था, इसलिए मेरे लिए आगे बढ़ना मुश्किल था। समय भी सीमित था - कंप्यूटर मेरा नहीं था, और मुझे अपनी कसरत में बाधा डालनी पड़ी। लेकिन एक दोस्त ने कहा कि उसने आधे घंटे से भी कम समय में परीक्षा दे दी। (छवि05)

    अपने उच्चारण कार्यक्रम को अनुकूलित करने से इनकार करते हुए, मैं मुख्य विंडो पर गया और बिल्ट-इन टेक्स्ट एडिटर लॉन्च किया। उन्होंने कंप्यूटर पर मिले कुछ टेक्स्ट से अलग-अलग शब्द बोले। वे शब्द जो उसने सही ढंग से उच्चारण किए, प्रोग्राम छपा, जो उसने खराब कहा, उसे कुछ "अंग्रेजी" से बदल दिया गया। अंग्रेजी में स्पष्ट रूप से "इरेज़ ए लाइन" कमांड का उच्चारण करने के बाद - प्रोग्राम ने इसे निष्पादित किया। इसका मतलब है कि मैंने आदेशों को सही ढंग से पढ़ा, और कार्यक्रम उन्हें प्रारंभिक प्रशिक्षण के बिना पहचानता है।

    लेकिन मेरे लिए यह महत्वपूर्ण था कि यह "ड्रैगन" रूसी में कैसे लिखता है। जैसा कि आप पिछले विवरण से समझ चुके हैं, कार्यक्रम को प्रशिक्षित करते समय, आप केवल अंग्रेजी पाठ का चयन कर सकते हैं, वहां कोई रूसी नहीं है। यह स्पष्ट है कि यह रूसी भाषण की मान्यता को प्रशिक्षित करने के लिए काम नहीं करेगा। अगली तस्वीर में आप देख सकते हैं कि रूसी शब्द "हैलो" का उच्चारण करते समय प्रोग्राम ने कौन सा वाक्यांश टाइप किया। (छवि06)

    पहले ड्रैगन के साथ संचार का परिणाम थोड़ा हास्यपूर्ण निकला। यदि आप आधिकारिक वेबसाइट पर पाठ को ध्यान से पढ़ते हैं, तो आप इस सॉफ्टवेयर उत्पाद की अंग्रेजी "विशेषज्ञता" देख सकते हैं। इसके अलावा, लोड करते समय, हम प्रोग्राम विंडो "अंग्रेजी" में पढ़ते हैं। तो यह सब क्यों जरूरी था। यह स्पष्ट है कि मंचों और अफवाहों को दोष देना है ...

    लेकिन एक पुरस्कृत अनुभव भी है। मेरे एक दोस्त ने मुझसे उसके लैपटॉप की हालत देखने को कहा। किसी तरह वह धीरे-धीरे काम करने लगा। यह आश्चर्य की बात नहीं है - सिस्टम विभाजन में केवल 5% खाली स्थान था। अनावश्यक कार्यक्रमों को हटाकर, मैंने देखा कि आधिकारिक संस्करण 2.3 जीबी से अधिक था। यह आंकड़ा बाद में हमारे काम आएगा। (छवि। 07)



    रूसी भाषण की मान्यता, जैसा कि यह निकला, कोई मामूली काम नहीं था। मिन्स्क में मैं अपने दोस्त के पास "गोरींच" खोजने में कामयाब रहा। लंबे समय से वह अपने पुराने मलबे में डिस्क की तलाश कर रहे थे और उनके अनुसार, यह आधिकारिक प्रकाशन है। कार्यक्रम तुरंत स्थापित किया गया था, और मुझे पता चला कि इसके शब्दकोश में 5000 रूसी शब्द प्लस 100 कमांड और 600 अंग्रेजी शब्द प्लस 31 कमांड हैं।

    सबसे पहले आपको माइक्रोफ़ोन सेट करना होगा, जो मैंने किया था। फिर मैंने शब्दकोश खोला और शब्द जोड़ा "इंतिहान"क्योंकि यह प्रोग्राम डिक्शनरी में नहीं था। मैंने स्पष्ट रूप से, नीरस रूप से बोलने की कोशिश की। अंत में, मैंने "गोरींच प्रो 3.0" कार्यक्रम खोला, श्रुतलेख मोड चालू किया और "समान-ध्वनि वाले शब्दों" की यह सूची प्राप्त की। (छवि.09)

    प्राप्त परिणाम ने मुझे हैरान कर दिया, क्योंकि यह स्पष्ट रूप से एंड्रॉइड स्मार्टफोन के काम से बदतर के लिए अलग था, और मैंने अन्य कार्यक्रमों की कोशिश करने का फैसला किया " ऑनलाइन स्टोर गूगल क्रोम "... और वह बाद के लिए "पहाड़ सांप" से निपटने के लिए बंद कर दिया। ऐसा लग रहा है कि यह मैं हूं स्थगनमूल रूसी भावना में कार्रवाई

    5. Google की आवाज क्षमताएं

    एक नियमित विंडोज कंप्यूटर पर आवाज के साथ काम करने के लिए, आपको एक ब्राउज़र स्थापित करना होगा गूगल क्रोम... अगर आप इसे इंटरनेट पर इस्तेमाल कर रहे हैं तो नीचे दाईं ओर आप सॉफ्टवेयर स्टोर के लिंक पर क्लिक कर सकते हैं। वहां, पूरी तरह से नि: शुल्क, मुझे टेक्स्ट के वॉयस इनपुट के लिए दो प्रोग्राम और दो एक्सटेंशन मिले। प्रोग्राम कहलाते हैं "वॉयस नोटपैड"तथा "वॉयसनॉट - वॉयस टू टेक्स्ट"... स्थापना के बाद, उन्हें टैब पर पाया जा सकता है "अनुप्रयोग"आपका ब्राउज़र "क्रोमियम". (छवि। 10)

    एक्सटेंशन कहा जाता है "Google Voice Search Hotword (बीटा) 0.1.0.5"तथा "वॉयस टेक्स्ट इनपुट - स्पीचपैड.आरयू 5.4"... स्थापना के बाद, उन्हें टैब पर बंद या हटाया जा सकता है "एक्सटेंशन".(छवि 11)

    आवाज को ध्यान देना... क्रोम ब्राउज़र में एप्लिकेशन टैब पर, प्रोग्राम आइकन पर डबल-क्लिक करें। नीचे दिए गए चित्र की तरह एक डायलॉग बॉक्स खुलेगा। माइक्रोफ़ोन आइकन पर क्लिक करके, आप माइक्रोफ़ोन में छोटे वाक्यांश बोलते हैं। प्रोग्राम आपके शब्दों को वाक् पहचान सर्वर तक पहुंचाता है और विंडो में टेक्स्ट टाइप करता है। चित्रण में दिखाए गए सभी शब्द और वाक्यांश पहली बार टाइप किए गए थे। जाहिर है, यह विधि केवल एक सक्रिय इंटरनेट कनेक्शन के साथ काम करती है। (छवि। 12)

    आवाज नोटपैड... यदि आप एप्लिकेशन टैब पर प्रोग्राम चलाते हैं, तो इंटरनेट पेज का एक नया टैब खुल जाएगा स्पीचपैड.रू... इस सेवा और एक कॉम्पैक्ट फॉर्म का उपयोग करने के तरीके के बारे में विस्तृत निर्देश हैं। उत्तरार्द्ध नीचे चित्रण में दिखाया गया है। (छवि 13)

    आवाज़ डालनाटेक्स्ट आपको इंटरनेट पेजों के टेक्स्ट फ़ील्ड को अपनी आवाज़ से भरने की अनुमति देता है। उदाहरण के लिए, मैं अपने पेज पर गया था गूगल +... नए संदेश इनपुट क्षेत्र में, मैंने राइट-क्लिक किया और चुना "स्पीचपैड"... गुलाबी रंग का इनपुट बॉक्स आपको अपना टेक्स्ट डिक्टेट करने के लिए कहता है। (छवि 14)

    गूगल आवाज खोजआपको आवाज से खोजने की अनुमति देता है। इस एक्सटेंशन को स्थापित और सक्रिय करते समय, खोज बार में एक माइक्रोफ़ोन प्रतीक दिखाई देता है। जब आप इसे क्लिक करते हैं, तो एक बड़े लाल घेरे में एक प्रतीक दिखाई देता है। बस एक खोज वाक्यांश कहें और यह खोज परिणामों में दिखाई देगा। (छवि। 15)

    महत्वपूर्ण नोट: माइक्रोफ़ोन को क्रोम एक्सटेंशन के साथ काम करने के लिए, आपको ब्राउज़र सेटिंग्स में माइक्रोफ़ोन तक पहुंच की अनुमति देनी होगी। यह सुरक्षा कारणों से डिफ़ॉल्ट रूप से अक्षम है। के लिए जाओ सेटिंग्स -> व्यक्तिगत डेटा -> सामग्री सेटिंग्स... (सभी सेटिंग्स तक पहुँचने के लिए, सूची के अंत में, क्लिक करें उन्नत सेटिंग्स दिखाएँ)... एक डायलॉग बॉक्स खुलेगा पृष्ठ सामग्री सेटिंग... सूची के नीचे एक आइटम का चयन करें मल्टीमीडिया → माइक्रोफोन.

    6. रूसी वाक् पहचान कार्यक्रमों के साथ काम करने के परिणाम

    वॉयस इनपुट प्रोग्राम का उपयोग करने के एक छोटे से अनुभव ने एक इंटरनेट कंपनी के सर्वर पर इस सुविधा का उत्कृष्ट कार्यान्वयन दिखाया है। गूगल... बिना किसी पूर्व प्रशिक्षण के, शब्दों को सही ढंग से पहचाना जाता है। यह इंगित करता है कि रूसी भाषण मान्यता की समस्या का समाधान किया गया है।

    अब हम कह सकते हैं कि विकास का परिणाम है गूगलअन्य निर्माताओं के उत्पादों के मूल्यांकन के लिए एक नया मानदंड होगा। मैं चाहता हूं कि मान्यता प्रणाली कंपनी के सर्वर तक पहुंच के बिना ऑफ़लाइन काम करे - इसलिए यह अधिक सुविधाजनक और तेज़ है। लेकिन यह ज्ञात नहीं है कि रूसी भाषण की एक सतत धारा के साथ काम करने का एक स्वतंत्र कार्यक्रम कब जारी किया जाएगा। हालांकि, यह माना जाना चाहिए कि प्रशिक्षण की संभावना के साथ, यह "सृजन" एक वास्तविक सफलता होगी।

    रूसी डेवलपर्स के कार्यक्रम "गोरींच", "डिक्टोग्राफर"तथा "लड़ाई"मैं इस समीक्षा के दूसरे भाग में विस्तार से जाऊंगा। यह लेख बहुत धीमी गति से इसलिए लिखा गया था कि मूल डिस्क की खोज अब कठिन हो गई है। फिलहाल मेरे पास पहले से ही "कॉम्बैट 2.52" को छोड़कर रूसी वॉयस-टू-टेक्स्ट "पहचानकर्ता" के सभी संस्करण हैं। मेरे किसी भी मित्र या सहकर्मी के पास यह कार्यक्रम नहीं है, और मैं स्वयं मंचों पर केवल कुछ प्रशंसनीय टिप्पणियां करता हूं। सच है, ऐसा अजीब विकल्प था - एसएमएस के माध्यम से "कॉम्बैट" डाउनलोड करें, लेकिन मुझे यह पसंद नहीं है। (छवि 16)


    एक छोटा वीडियो क्लिप आपको दिखाएगा कि एंड्रॉइड ओएस वाले स्मार्टफोन में वाक् पहचान कैसे चल रही है। वॉयस डायलिंग की एक विशेषता Google सर्वर से कनेक्ट होने की आवश्यकता है। इस प्रकार, इंटरनेट को आपके लिए काम करना चाहिए