|
3 weeks ago | |
---|---|---|
.. | ||
README.md | 3 weeks ago | |
assignment.md | 3 weeks ago | |
pi-audio.md | 3 weeks ago | |
pi-microphone.md | 3 weeks ago | |
pi-speech-to-text.md | 3 weeks ago | |
virtual-device-audio.md | 3 weeks ago | |
virtual-device-microphone.md | 3 weeks ago | |
virtual-device-speech-to-text.md | 3 weeks ago | |
wio-terminal-audio.md | 3 weeks ago | |
wio-terminal-microphone.md | 3 weeks ago | |
wio-terminal-speech-to-text.md | 3 weeks ago |
README.md
Αναγνώριση ομιλίας με συσκευή IoT
Σκίτσα από τη Nitya Narasimhan. Κάντε κλικ στην εικόνα για μεγαλύτερη έκδοση.
Αυτό το βίντεο παρέχει μια επισκόπηση της υπηρεσίας ομιλίας του Azure, ένα θέμα που θα καλυφθεί σε αυτό το μάθημα:
🎥 Κάντε κλικ στην εικόνα παραπάνω για να παρακολουθήσετε το βίντεο
Ερωτηματολόγιο πριν το μάθημα
Εισαγωγή
'Alexa, βάλε χρονόμετρο 12 λεπτών'
'Alexa, κατάσταση χρονομέτρου'
'Alexa, βάλε χρονόμετρο 8 λεπτών με όνομα "ατμός μπρόκολο"'
Οι έξυπνες συσκευές γίνονται όλο και πιο διαδεδομένες. Όχι μόνο ως έξυπνα ηχεία όπως τα HomePods, Echos και Google Homes, αλλά και ενσωματωμένες στα τηλέφωνά μας, τα ρολόγια μας, ακόμα και στα φωτιστικά και τους θερμοστάτες μας.
💁 Έχω τουλάχιστον 19 συσκευές στο σπίτι μου που διαθέτουν βοηθούς φωνής, και αυτές είναι μόνο οι συσκευές που γνωρίζω!
Ο έλεγχος μέσω φωνής αυξάνει την προσβασιμότητα, επιτρέποντας σε άτομα με περιορισμένη κινητικότητα να αλληλεπιδρούν με συσκευές. Είτε πρόκειται για μόνιμη αναπηρία, όπως η γέννηση χωρίς χέρια, είτε για προσωρινές αναπηρίες, όπως σπασμένα χέρια, ή όταν τα χέρια σας είναι γεμάτα με ψώνια ή μικρά παιδιά, η δυνατότητα ελέγχου του σπιτιού μας μέσω της φωνής αντί για τα χέρια μας ανοίγει έναν κόσμο πρόσβασης. Το να φωνάξετε 'Hey Siri, κλείσε την πόρτα του γκαράζ μου' ενώ ασχολείστε με την αλλαγή του μωρού και ένα ανήσυχο νήπιο μπορεί να είναι μια μικρή αλλά αποτελεσματική βελτίωση στη ζωή.
Μία από τις πιο δημοφιλείς χρήσεις των βοηθών φωνής είναι η ρύθμιση χρονομέτρων, ειδικά χρονομέτρων κουζίνας. Η δυνατότητα να ρυθμίσετε πολλαπλά χρονόμετρα μόνο με τη φωνή σας είναι μεγάλη βοήθεια στην κουζίνα - δεν χρειάζεται να σταματήσετε να ζυμώνετε ζύμη, να ανακατεύετε σούπα ή να καθαρίζετε τα χέρια σας από γέμιση για ντάμπλινγκ για να χρησιμοποιήσετε ένα φυσικό χρονόμετρο.
Σε αυτό το μάθημα θα μάθετε πώς να ενσωματώσετε την αναγνώριση φωνής σε συσκευές IoT. Θα μάθετε για τα μικρόφωνα ως αισθητήρες, πώς να καταγράφετε ήχο από ένα μικρόφωνο συνδεδεμένο σε συσκευή IoT και πώς να χρησιμοποιείτε AI για να μετατρέψετε ό,τι ακούγεται σε κείμενο. Κατά τη διάρκεια του υπόλοιπου έργου θα δημιουργήσετε ένα έξυπνο χρονόμετρο κουζίνας, ικανό να ρυθμίζει χρονόμετρα χρησιμοποιώντας τη φωνή σας σε πολλές γλώσσες.
Σε αυτό το μάθημα θα καλύψουμε:
Μικρόφωνα
Τα μικρόφωνα είναι αναλογικοί αισθητήρες που μετατρέπουν τα ηχητικά κύματα σε ηλεκτρικά σήματα. Οι δονήσεις στον αέρα προκαλούν μικρές κινήσεις στα εξαρτήματα του μικροφώνου, οι οποίες προκαλούν μικρές αλλαγές στα ηλεκτρικά σήματα. Αυτές οι αλλαγές στη συνέχεια ενισχύονται για να δημιουργήσουν μια ηλεκτρική έξοδο.
Τύποι μικροφώνων
Τα μικρόφωνα διατίθενται σε διάφορους τύπους:
-
Δυναμικά - Τα δυναμικά μικρόφωνα έχουν έναν μαγνήτη συνδεδεμένο σε μια κινούμενη μεμβράνη που κινείται μέσα σε ένα πηνίο σύρματος δημιουργώντας ηλεκτρικό ρεύμα. Αυτό είναι το αντίθετο από τα περισσότερα ηχεία, που χρησιμοποιούν ηλεκτρικό ρεύμα για να κινήσουν έναν μαγνήτη μέσα σε ένα πηνίο σύρματος, κινώντας μια μεμβράνη για να δημιουργήσουν ήχο. Αυτό σημαίνει ότι τα ηχεία μπορούν να χρησιμοποιηθούν ως δυναμικά μικρόφωνα, και τα δυναμικά μικρόφωνα μπορούν να χρησιμοποιηθούν ως ηχεία. Σε συσκευές όπως τα ενδοεπικοινωνιακά, όπου ο χρήστης είτε ακούει είτε μιλάει, αλλά όχι και τα δύο, μία συσκευή μπορεί να λειτουργεί ως ηχείο και μικρόφωνο.
Τα δυναμικά μικρόφωνα δεν χρειάζονται τροφοδοσία για να λειτουργήσουν, το ηλεκτρικό σήμα δημιουργείται εξ ολοκλήρου από το μικρόφωνο.
-
Κορδέλας - Τα μικρόφωνα κορδέλας είναι παρόμοια με τα δυναμικά μικρόφωνα, εκτός από το ότι έχουν μια μεταλλική κορδέλα αντί για μεμβράνη. Αυτή η κορδέλα κινείται σε ένα μαγνητικό πεδίο δημιουργώντας ηλεκτρικό ρεύμα. Όπως τα δυναμικά μικρόφωνα, τα μικρόφωνα κορδέλας δεν χρειάζονται τροφοδοσία για να λειτουργήσουν.
-
Πυκνωτικά - Τα πυκνωτικά μικρόφωνα έχουν μια λεπτή μεταλλική μεμβράνη και μια σταθερή μεταλλική πλάκα. Ηλεκτρισμός εφαρμόζεται και στα δύο αυτά μέρη και καθώς η μεμβράνη δονείται, η στατική φόρτιση μεταξύ των πλακών αλλάζει, δημιουργώντας ένα σήμα. Τα πυκνωτικά μικρόφωνα χρειάζονται τροφοδοσία για να λειτουργήσουν - γνωστή ως Phantom power.
-
MEMS - Τα μικρόφωνα μικροηλεκτρομηχανικών συστημάτων, ή MEMS, είναι μικρόφωνα σε τσιπ. Έχουν μια ευαίσθητη στην πίεση μεμβράνη χαραγμένη σε ένα τσιπ πυριτίου και λειτουργούν παρόμοια με ένα πυκνωτικό μικρόφωνο. Αυτά τα μικρόφωνα μπορούν να είναι πολύ μικρά και να ενσωματώνονται σε κυκλώματα.
Στην παραπάνω εικόνα, το τσιπ με την ένδειξη LEFT είναι ένα μικρόφωνο MEMS, με μια μικροσκοπική μεμβράνη πλάτους λιγότερο από ένα χιλιοστό.
✅ Κάντε λίγη έρευνα: Τι μικρόφωνα έχετε γύρω σας - είτε στον υπολογιστή σας, το τηλέφωνό σας, το ακουστικό σας ή σε άλλες συσκευές. Τι τύποι μικροφώνων είναι;
Ψηφιακός ήχος
Ο ήχος είναι ένα αναλογικό σήμα που μεταφέρει πολύ λεπτομερείς πληροφορίες. Για να μετατραπεί αυτό το σήμα σε ψηφιακό, ο ήχος πρέπει να δειγματοληπτείται πολλές χιλιάδες φορές το δευτερόλεπτο.
🎓 Η δειγματοληψία είναι η μετατροπή του ηχητικού σήματος σε μια ψηφιακή τιμή που αντιπροσωπεύει το σήμα εκείνη τη στιγμή.
Ο ψηφιακός ήχος δειγματοληπτείται χρησιμοποιώντας την παλμική κωδική διαμόρφωση, ή PCM. Η PCM περιλαμβάνει την ανάγνωση της τάσης του σήματος και την επιλογή της πλησιέστερης διακριτής τιμής σε αυτή την τάση χρησιμοποιώντας ένα καθορισμένο μέγεθος.
💁 Μπορείτε να σκεφτείτε την PCM ως την έκδοση αισθητήρα της παλμικής διαμόρφωσης πλάτους, ή PWM (η PWM καλύφθηκε πίσω στο μάθημα 3 του έργου εισαγωγής). Η PCM περιλαμβάνει τη μετατροπή ενός αναλογικού σήματος σε ψηφιακό, ενώ η PWM περιλαμβάνει τη μετατροπή ενός ψηφιακού σήματος σε αναλογικό.
Για παράδειγμα, οι περισσότερες υπηρεσίες streaming μουσικής προσφέρουν ήχο 16-bit ή 24-bit. Αυτό σημαίνει ότι μετατρέπουν την τάση σε μια τιμή που χωράει σε έναν ακέραιο 16-bit ή 24-bit. Ο ήχος 16-bit χωράει την τιμή σε έναν αριθμό που κυμαίνεται από -32,768 έως 32,767, ενώ ο ήχος 24-bit κυμαίνεται από −8,388,608 έως 8,388,607. Όσο περισσότερα bits, τόσο πιο κοντά είναι το δείγμα σε αυτό που πραγματικά ακούν τα αυτιά μας.
💁 Ίσως έχετε ακούσει για ήχο 8-bit, που συχνά αναφέρεται ως LoFi. Αυτός είναι ήχος που δειγματοληπτείται χρησιμοποιώντας μόνο 8 bits, δηλαδή -128 έως 127. Ο πρώτος ήχος υπολογιστή περιοριζόταν σε 8 bits λόγω περιορισμών υλικού, γι' αυτό συχνά εμφανίζεται σε ρετρό παιχνίδια.
Αυτά τα δείγματα λαμβάνονται πολλές χιλιάδες φορές το δευτερόλεπτο, χρησιμοποιώντας καλά καθορισμένους ρυθμούς δειγματοληψίας που μετρώνται σε KHz (χιλιάδες αναγνώσεις ανά δευτερόλεπτο). Οι υπηρεσίες streaming μουσικής χρησιμοποιούν 48KHz για τον περισσότερο ήχο, αλλά ορισμένος 'χωρίς απώλειες' ήχος χρησιμοποιεί έως και 96KHz ή ακόμα και 192KHz. Όσο υψηλότερος είναι ο ρυθμός δειγματοληψίας, τόσο πιο κοντά στον αρχικό ήχο θα είναι, μέχρι ένα σημείο. Υπάρχει συζήτηση για το αν οι άνθρωποι μπορούν να καταλάβουν τη διαφορά πάνω από 48KHz.
✅ Κάντε λίγη έρευνα: Εάν χρησιμοποιείτε μια υπηρεσία streaming μουσικής, ποιο ρυθμό δειγματοληψίας και μέγεθος χρησιμοποιεί; Εάν χρησιμοποιείτε CD, ποιος είναι ο ρυθμός δειγματοληψίας και το μέγεθος του ήχου CD;
Υπάρχουν διάφορες μορφές για δεδομένα ήχου. Πιθανότατα έχετε ακούσει για αρχεία mp3 - δεδομένα ήχου που συμπιέζονται για να γίνουν μικρότερα χωρίς να χάσουν ποιότητα. Ο μη συμπιεσμένος ήχος συχνά αποθηκεύεται ως αρχείο WAV - αυτό είναι ένα αρχείο με 44 bytes πληροφοριών κεφαλίδας, ακολουθούμενο από ακατέργαστα δεδομένα ήχου. Η κεφαλίδα περιέχει πληροφορίες όπως ο ρυθμός δειγματοληψίας (για παράδειγμα 16000 για 16KHz) και το μέγεθος δείγματος (16 για 16-bit), καθώς και τον αριθμό των καναλιών. Μετά την κεφαλίδα, το αρχείο WAV περιέχει τα ακατέργαστα δεδομένα ήχου.
🎓 Τα κανάλια αναφέρονται στο πόσα διαφορετικά ρεύματα ήχου αποτελούν τον ήχο. Για παράδειγμα, για στερεοφωνικό ήχο με αριστερό και δεξί κανάλι, θα υπήρχαν 2 κανάλια. Για ήχο surround 7.1 για σύστημα οικιακού κινηματογράφου, αυτό θα ήταν 8.
Μέγεθος δεδομένων ήχου
Τα δεδομένα ήχου είναι σχετικά μεγάλα. Για παράδειγμα, η καταγραφή μη συμπιεσμένου ήχου 16-bit στα 16KHz (ένας αρκετά καλός ρυθμός για χρήση με μοντέλο ομιλίας σε κείμενο), απαιτεί 32KB δεδομένων για κάθε δευτερόλεπτο ήχου:
- 16-bit σημαίνει 2 bytes ανά δείγμα (1 byte είναι 8 bits).
- 16KHz είναι 16,000 δείγματα ανά δευτερόλεπτο.
- 16,000 x 2 bytes = 32,000 bytes ανά δευτερόλεπτο.
Αυτό ακούγεται σαν μικρή ποσότητα δεδομένων, αλλά αν χρησιμοποιείτε έναν μικροελεγκτή με περιορισμένη μνήμη, αυτό μπορεί να είναι πολύ. Για παράδειγμα, το Wio Terminal έχει 192KB μνήμης, και αυτή πρέπει να αποθηκεύει τον κώδικα του προγράμματος και τις μεταβλητές. Ακόμα κι αν ο κώδικας του προγράμματος σας ήταν μικροσκοπικός, δεν θα μπορούσατε να καταγράψετε περισσότερα από 5 δευτερόλεπτα ήχου.
Οι μικροελεγκτές μπορούν να έχουν πρόσβαση σε πρόσθετη αποθήκευση, όπως κάρτες SD ή μνήμη flash. Όταν δημιουργείτε μια συσκευή IoT που καταγράφει ήχο, θα πρέπει να βεβαιωθείτε ότι όχι μόνο έχετε πρόσθετη αποθήκευση, αλλά ότι ο κώδικάς σας γράφει τον ήχο που καταγράφεται από το μικρόφωνο απευθείας σε αυτή την αποθήκευση, και όταν τον στέλνετε στο cloud, κάνετε streaming από την αποθήκευση στο web request. Με αυτόν τον τρόπο μπορείτε να αποφύγετε την εξάντληση της μνήμης προσπαθώντας να κρατήσετε ολόκληρο το μπλοκ δεδομένων ήχου στη μνήμη ταυτόχρονα.
Καταγραφή ήχου από τη συσκευή IoT σας
Η συσκευή IoT σας μπορεί να συνδεθεί σε μικρόφωνο για να καταγράψει ήχο, έτοιμο για μετατροπή σε κείμενο. Μπορεί επίσης να συνδεθεί σε ηχεία για να εξάγει ήχο. Σε επόμενα μαθήματα αυτό θα χρησιμοποιηθεί για να δώσει ηχητική ανατροφοδότηση, αλλά είναι χρήσιμο να ρυθμίσετε τα ηχεία τώρα για να δοκιμάσετε το μικρόφωνο.
Εργασία - ρυθμίστε το μικρόφωνο και τα ηχεία σας
Ακολουθήστε τον αντίστοιχο οδηγό για να ρυθμίσετε το μικρόφωνο και τα ηχεία για τη συσκευή IoT σας:
- Arduino - Wio Terminal
- Υπολογιστής μονού πίνακα - Raspberry Pi
- Υπολογιστής μονού πίνακα - Εικονική συσκευή
Εργασία - καταγράψτε ήχο
Ακολουθήστε τον αντίστοιχο οδηγό για να καταγράψετε ήχο στη συσκευή IoT σας:
- Arduino - Wio Terminal
- Υπολογιστής μονού πίνακα - Raspberry Pi
- Υπολογιστής μονού πίνακα - Εικονική συσκευή
Ομιλία σε κείμενο
Η ομιλία σε κείμενο, ή αναγνώριση ομιλίας, περιλαμβάνει τη χρήση AI για τη μετατροπή λέξεων σε ένα ηχητικό σήμα σε κείμενο.
Μοντέλα αναγνώρισης ομιλίας
Για να μετατρέψετε την ομιλία σε κείμενο, τα δείγματα από το ηχητικό σ 💁 Ορισμένες υπηρεσίες ομιλίας επιτρέπουν την προσαρμογή ώστε να λειτουργούν καλύτερα σε θορυβώδη περιβάλλοντα, όπως εργοστάσια, ή με λέξεις που σχετίζονται με συγκεκριμένους κλάδους, όπως ονόματα χημικών. Αυτές οι προσαρμογές εκπαιδεύονται παρέχοντας δείγματα ήχου και μια μεταγραφή, και λειτουργούν χρησιμοποιώντας μεταφορά μάθησης, με τον ίδιο τρόπο που εκπαιδεύσατε έναν ταξινομητή εικόνων χρησιμοποιώντας μόνο λίγες εικόνες σε προηγούμενο μάθημα.
Απόρρητο
Όταν χρησιμοποιείτε τη μετατροπή ομιλίας σε κείμενο σε μια καταναλωτική συσκευή IoT, το απόρρητο είναι εξαιρετικά σημαντικό. Αυτές οι συσκευές ακούν συνεχώς ήχο, οπότε ως καταναλωτής δεν θέλετε όλα όσα λέτε να αποστέλλονται στο cloud και να μετατρέπονται σε κείμενο. Όχι μόνο θα χρησιμοποιηθεί πολύ εύρος ζώνης του διαδικτύου, αλλά έχει επίσης τεράστιες επιπτώσεις στο απόρρητο, ειδικά όταν ορισμένοι κατασκευαστές έξυπνων συσκευών επιλέγουν τυχαία ήχο για ανθρώπινη επαλήθευση σε σχέση με το κείμενο που δημιουργείται για τη βελτίωση του μοντέλου τους.
Θέλετε η έξυπνη συσκευή σας να στέλνει ήχο στο cloud για επεξεργασία μόνο όταν τη χρησιμοποιείτε, όχι όταν ακούει ήχο στο σπίτι σας, ήχο που μπορεί να περιλαμβάνει ιδιωτικές συναντήσεις ή προσωπικές αλληλεπιδράσεις. Ο τρόπος που λειτουργούν οι περισσότερες έξυπνες συσκευές είναι με μια λέξη αφύπνισης, μια βασική φράση όπως "Alexa", "Hey Siri" ή "OK Google" που κάνει τη συσκευή να 'ξυπνάει' και να ακούει τι λέτε μέχρι να ανιχνεύσει μια παύση στην ομιλία σας, υποδεικνύοντας ότι έχετε τελειώσει να μιλάτε στη συσκευή.
🎓 Η ανίχνευση λέξης αφύπνισης αναφέρεται επίσης ως ανίχνευση λέξης-κλειδί ή αναγνώριση λέξης-κλειδί.
Αυτές οι λέξεις αφύπνισης ανιχνεύονται στη συσκευή, όχι στο cloud. Αυτές οι έξυπνες συσκευές διαθέτουν μικρά μοντέλα AI που εκτελούνται στη συσκευή και ακούν για τη λέξη αφύπνισης, και όταν αυτή ανιχνευθεί, ξεκινούν τη ροή του ήχου στο cloud για αναγνώριση. Αυτά τα μοντέλα είναι πολύ εξειδικευμένα και απλώς ακούν για τη λέξη αφύπνισης.
💁 Ορισμένες εταιρείες τεχνολογίας προσθέτουν περισσότερη προστασία απορρήτου στις συσκευές τους και πραγματοποιούν μέρος της μετατροπής ομιλίας σε κείμενο στη συσκευή. Η Apple ανακοίνωσε ότι ως μέρος των ενημερώσεων iOS και macOS του 2021 θα υποστηρίξει τη μετατροπή ομιλίας σε κείμενο στη συσκευή και θα μπορεί να χειρίζεται πολλές αιτήσεις χωρίς να χρειάζεται να χρησιμοποιήσει το cloud. Αυτό είναι εφικτό χάρη στους ισχυρούς επεξεργαστές στις συσκευές τους που μπορούν να εκτελούν μοντέλα ML.
✅ Ποιες πιστεύετε ότι είναι οι επιπτώσεις στο απόρρητο και την ηθική από την αποθήκευση του ήχου που αποστέλλεται στο cloud; Θα πρέπει να αποθηκεύεται αυτός ο ήχος, και αν ναι, πώς; Πιστεύετε ότι η χρήση ηχογραφήσεων για την επιβολή του νόμου είναι μια καλή ανταλλαγή για την απώλεια του απορρήτου;
Η ανίχνευση λέξης αφύπνισης συνήθως χρησιμοποιεί μια τεχνική γνωστή ως TinyML, δηλαδή τη μετατροπή μοντέλων ML ώστε να μπορούν να εκτελούνται σε μικροελεγκτές. Αυτά τα μοντέλα είναι μικρού μεγέθους και καταναλώνουν πολύ λίγη ενέργεια για να λειτουργήσουν.
Για να αποφύγετε την πολυπλοκότητα της εκπαίδευσης και χρήσης ενός μοντέλου λέξης αφύπνισης, ο έξυπνος χρονοδιακόπτης που κατασκευάζετε σε αυτό το μάθημα θα χρησιμοποιεί ένα κουμπί για να ενεργοποιήσει την αναγνώριση ομιλίας.
💁 Αν θέλετε να δοκιμάσετε να δημιουργήσετε ένα μοντέλο ανίχνευσης λέξης αφύπνισης για να εκτελεστεί στο Wio Terminal ή το Raspberry Pi, δείτε αυτό το tutorial για την ανταπόκριση στη φωνή σας από την Edge Impulse. Αν θέλετε να χρησιμοποιήσετε τον υπολογιστή σας για αυτό, μπορείτε να δοκιμάσετε το γρήγορο ξεκίνημα με Custom Keyword στα Microsoft Docs.
Μετατροπή ομιλίας σε κείμενο
Όπως και με την ταξινόμηση εικόνων σε ένα προηγούμενο έργο, υπάρχουν προκατασκευασμένες υπηρεσίες AI που μπορούν να πάρουν την ομιλία ως αρχείο ήχου και να τη μετατρέψουν σε κείμενο. Μία τέτοια υπηρεσία είναι η Speech Service, μέρος των Cognitive Services, προκατασκευασμένες υπηρεσίες AI που μπορείτε να χρησιμοποιήσετε στις εφαρμογές σας.
Εργασία - διαμόρφωση πόρου AI για ομιλία
-
Δημιουργήστε μια Ομάδα Πόρων για αυτό το έργο με όνομα
smart-timer
. -
Χρησιμοποιήστε την ακόλουθη εντολή για να δημιουργήσετε έναν δωρεάν πόρο ομιλίας:
az cognitiveservices account create --name smart-timer \ --resource-group smart-timer \ --kind SpeechServices \ --sku F0 \ --yes \ --location <location>
Αντικαταστήστε το
<location>
με την τοποθεσία που χρησιμοποιήσατε κατά τη δημιουργία της Ομάδας Πόρων. -
Θα χρειαστείτε ένα API key για να αποκτήσετε πρόσβαση στον πόρο ομιλίας από τον κώδικά σας. Εκτελέστε την ακόλουθη εντολή για να λάβετε το κλειδί:
az cognitiveservices account keys list --name smart-timer \ --resource-group smart-timer \ --output table
Κρατήστε ένα αντίγραφο ενός από τα κλειδιά.
Εργασία - μετατροπή ομιλίας σε κείμενο
Ακολουθήστε τον αντίστοιχο οδηγό για να μετατρέψετε την ομιλία σε κείμενο στη συσκευή IoT σας:
- Arduino - Wio Terminal
- Υπολογιστής μονού πίνακα - Raspberry Pi
- Υπολογιστής μονού πίνακα - Εικονική συσκευή
🚀 Πρόκληση
Η αναγνώριση ομιλίας υπάρχει εδώ και πολύ καιρό και συνεχώς βελτιώνεται. Ερευνήστε τις τρέχουσες δυνατότητες και συγκρίνετε πώς αυτές έχουν εξελιχθεί με την πάροδο του χρόνου, συμπεριλαμβανομένου του πόσο ακριβείς είναι οι μηχανικές μεταγραφές σε σύγκριση με τις ανθρώπινες.
Τι πιστεύετε ότι επιφυλάσσει το μέλλον για την αναγνώριση ομιλίας;
Κουίζ μετά τη διάλεξη
Ανασκόπηση & Αυτομελέτη
- Διαβάστε για τους διαφορετικούς τύπους μικροφώνων και πώς λειτουργούν στο άρθρο για τη διαφορά μεταξύ δυναμικών και πυκνωτικών μικροφώνων στο Musician's HQ.
- Διαβάστε περισσότερα για την υπηρεσία ομιλίας των Cognitive Services στη τεκμηρίωση της υπηρεσίας ομιλίας στα Microsoft Docs.
- Διαβάστε για την ανίχνευση λέξης-κλειδί στη τεκμηρίωση αναγνώρισης λέξης-κλειδί στα Microsoft Docs.
Εργασία
Αποποίηση ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτόματες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.