You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
IoT-For-Beginners/translations/he/6-consumer/lessons/3-spoken-feedback/README.md

142 lines
12 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "b73fe10ec6b580fba2affb6f6e0a5c4d",
"translation_date": "2025-08-27T22:25:37+00:00",
"source_file": "6-consumer/lessons/3-spoken-feedback/README.md",
"language_code": "he"
}
-->
# הגדר טיימר וספק משוב קולי
![סקיצה של סקירה כללית של השיעור](../../../../../translated_images/lesson-23.f38483e1d4df4828990d3f02d60e46c978b075d384ae7cb4f7bab738e107c850.he.jpg)
> סקיצה מאת [Nitya Narasimhan](https://github.com/nitya). לחצו על התמונה לגרסה גדולה יותר.
## שאלון לפני השיעור
[שאלון לפני השיעור](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/45)
## מבוא
עוזרים חכמים אינם מכשירי תקשורת חד-כיוונית. אתם מדברים אליהם, והם מגיבים:
"אלכסה, הגדר טיימר ל-3 דקות"
"אוקיי, הטיימר שלך מוגדר ל-3 דקות"
בשני השיעורים האחרונים למדתם כיצד לקחת דיבור ולהמיר אותו לטקסט, ואז לחלץ בקשה להגדרת טיימר מתוך הטקסט. בשיעור הזה תלמדו כיצד להגדיר את הטיימר על מכשיר ה-IoT, להגיב למשתמש עם מילים מדוברות המאשרות את הטיימר, ולהתריע כאשר הטיימר מסתיים.
בשיעור הזה נעסוק ב:
* [טקסט לדיבור](../../../../../6-consumer/lessons/3-spoken-feedback)
* [הגדרת הטיימר](../../../../../6-consumer/lessons/3-spoken-feedback)
* [המרת טקסט לדיבור](../../../../../6-consumer/lessons/3-spoken-feedback)
## טקסט לדיבור
טקסט לדיבור, כפי שהשם מרמז, הוא תהליך של המרת טקסט לאודיו שמכיל את הטקסט כמילים מדוברות. העיקרון הבסיסי הוא לפרק את המילים בטקסט לצלילים המרכיבים אותן (המכונים פונמות), ולחבר יחד אודיו עבור הצלילים הללו, או באמצעות אודיו מוקלט מראש או באמצעות אודיו שנוצר על ידי מודלים של AI.
![שלושת השלבים של מערכות טקסט לדיבור טיפוסיות](../../../../../translated_images/tts-overview.193843cf3f5ee09f8b3371a9fdaeb0f116698a07ca69daaa77158da4800e5453.he.png)
מערכות טקסט לדיבור בדרך כלל כוללות 3 שלבים:
* ניתוח טקסט
* ניתוח לשוני
* יצירת גל-קול
### ניתוח טקסט
ניתוח טקסט כולל לקיחת הטקסט שסופק והמרתו למילים שניתן להשתמש בהן ליצירת דיבור. לדוגמה, אם אתם ממירים את "Hello world", אין צורך בניתוח טקסט, שתי המילים יכולות להיות מומרות לדיבור. אם יש לכם "1234" לעומת זאת, ייתכן שיהיה צורך להמיר זאת למילים "אלף מאתיים שלושים וארבע" או "אחת, שתיים, שלוש, ארבע" בהתאם להקשר. עבור "יש לי 1234 תפוחים", זה יהיה "אלף מאתיים שלושים וארבע", אבל עבור "הילד ספר 1234" זה יהיה "אחת, שתיים, שלוש, ארבע".
המילים שנוצרות משתנות לא רק לפי השפה, אלא גם לפי האזור של אותה שפה. לדוגמה, באנגלית אמריקאית, 120 יהיה "One hundred twenty", באנגלית בריטית זה יהיה "One hundred and twenty", עם השימוש ב-"and" אחרי המאות.
✅ דוגמאות נוספות שדורשות ניתוח טקסט כוללות "in" כקיצור של אינץ', ו-"st" כקיצור של קדוש או רחוב. האם תוכלו לחשוב על דוגמאות נוספות בשפה שלכם למילים שאינן חד-משמעיות ללא הקשר?
לאחר שהמילים הוגדרו, הן נשלחות לניתוח לשוני.
### ניתוח לשוני
ניתוח לשוני מפרק את המילים לפונמות. פונמות מבוססות לא רק על האותיות שבהן נעשה שימוש, אלא גם על האותיות האחרות במילה. לדוגמה, באנגלית הצליל של 'a' במילים 'car' ו-'care' שונה. השפה האנגלית כוללת 44 פונמות שונות עבור 26 האותיות באלפבית, חלקן משותפות לאותיות שונות, כמו הפונמה שמשמשת בתחילת המילים 'circle' ו-'serpent'.
✅ בצעו מחקר: מהם הפונמות בשפה שלכם?
לאחר שהמילים הומרו לפונמות, הפונמות הללו זקוקות לנתונים נוספים לתמיכה באינטונציה, התאמת הטון או משך הזמן בהתאם להקשר. דוגמה אחת היא באנגלית, שבה ניתן להשתמש בעלייה בגובה הצליל כדי להפוך משפט לשאלה, כאשר עלייה בגובה הצליל במילה האחרונה מרמזת על שאלה.
לדוגמה - המשפט "You have an apple" הוא הצהרה שאומרת שיש לכם תפוח. אם גובה הצליל עולה בסוף, במיוחד במילה "apple", זה הופך לשאלה "You have an apple?", ששואלת אם יש לכם תפוח. הניתוח הלשוני צריך להשתמש בסימן השאלה בסוף כדי להחליט להעלות את גובה הצליל.
לאחר שהפונמות נוצרו, הן נשלחות ליצירת גל-קול כדי לייצר את האודיו.
### יצירת גל-קול
מערכות הטקסט לדיבור האלקטרוניות הראשונות השתמשו בהקלטות אודיו יחידות עבור כל פונמה, מה שהוביל לקולות מאוד מונוטוניים ורובוטיים. הניתוח הלשוני היה מייצר פונמות, אלו היו נטענות ממאגר צלילים ומחוברות יחד ליצירת האודיו.
✅ בצעו מחקר: מצאו הקלטות אודיו ממערכות סינתזת דיבור מוקדמות. השוו אותן לסינתזת דיבור מודרנית, כמו זו שמשמשת בעוזרים חכמים.
יצירת גל-קול מודרנית יותר משתמשת במודלים של למידת מכונה שנבנו באמצעות למידה עמוקה (רשתות עצביות גדולות מאוד שפועלות באופן דומה לנוירונים במוח) כדי לייצר קולות טבעיים יותר שיכולים להיות בלתי ניתנים להבחנה מקולות אנושיים.
> 💁 חלק מהמודלים הללו יכולים להיות מאומנים מחדש באמצעות למידת העברה כדי להישמע כמו אנשים אמיתיים. המשמעות היא ששימוש בקול כמערכת אבטחה, דבר שבנקים מנסים לעשות יותר ויותר, כבר אינו רעיון טוב, שכן כל מי שיש לו הקלטה של כמה דקות מהקול שלכם יכול להתחזות אליכם.
מודלים גדולים אלו של למידת מכונה מאומנים לשלב את כל שלושת השלבים למערכות סינתזת דיבור מקצה לקצה.
## הגדרת הטיימר
כדי להגדיר את הטיימר, מכשיר ה-IoT שלכם צריך לקרוא לנקודת הקצה של REST שיצרתם באמצעות קוד חסר שרת, ואז להשתמש במספר השניות שהתקבלו כדי להגדיר טיימר.
### משימה - קריאה לפונקציה חסרת שרת כדי לקבל את זמן הטיימר
עקבו אחר המדריך הרלוונטי כדי לקרוא לנקודת הקצה של REST ממכשיר ה-IoT שלכם ולהגדיר טיימר לזמן הנדרש:
* [Arduino - Wio Terminal](wio-terminal-set-timer.md)
* [מחשב חד-לוח - Raspberry Pi/מכשיר IoT וירטואלי](single-board-computer-set-timer.md)
## המרת טקסט לדיבור
שירות הדיבור שבו השתמשתם כדי להמיר דיבור לטקסט יכול לשמש גם להמרת טקסט חזרה לדיבור, וזה יכול להיות מושמע דרך רמקול במכשיר ה-IoT שלכם. הטקסט להמרה נשלח לשירות הדיבור, יחד עם סוג האודיו הנדרש (כמו קצב הדגימה), ונתונים בינאריים המכילים את האודיו מוחזרים.
כאשר אתם שולחים בקשה זו, אתם שולחים אותה באמצעות *שפת סימון סינתזת דיבור* (SSML), שפת סימון מבוססת XML ליישומי סינתזת דיבור. שפה זו מגדירה לא רק את הטקסט להמרה, אלא גם את השפה של הטקסט, הקול לשימוש, ויכולה אפילו לשמש להגדרת מהירות, עוצמה וגובה הצליל עבור חלק מהמילים או כולן.
לדוגמה, SSML זה מגדיר בקשה להמיר את הטקסט "Your 3 minute 5 second time has been set" לדיבור באמצעות קול אנגלי בריטי בשם `en-GB-MiaNeural`
```xml
<speak version='1.0' xml:lang='en-GB'>
<voice xml:lang='en-GB' name='en-GB-MiaNeural'>
Your 3 minute 5 second time has been set
</voice>
</speak>
```
> 💁 רוב מערכות הטקסט לדיבור כוללות קולות מרובים עבור שפות שונות, עם מבטאים רלוונטיים כמו קול אנגלי בריטי עם מבטא אנגלי וקול אנגלי ניו זילנדי עם מבטא ניו זילנדי.
### משימה - המרת טקסט לדיבור
עבדו דרך המדריך הרלוונטי להמרת טקסט לדיבור באמצעות מכשיר ה-IoT שלכם:
* [Arduino - Wio Terminal](wio-terminal-text-to-speech.md)
* [מחשב חד-לוח - Raspberry Pi](pi-text-to-speech.md)
* [מחשב חד-לוח - מכשיר וירטואלי](virtual-device-text-to-speech.md)
---
## 🚀 אתגר
ל-SSML יש דרכים לשנות את אופן הדיבור של מילים, כמו הוספת דגש למילים מסוימות, הוספת הפסקות, או שינוי גובה הצליל. נסו כמה מהאפשרויות הללו, שלחו SSML שונה ממכשיר ה-IoT שלכם והשוו את התוצאות. תוכלו לקרוא עוד על SSML, כולל כיצד לשנות את אופן הדיבור של מילים, ב-[מפרט גרסה 1.1 של שפת סימון סינתזת דיבור (SSML) מאת קונסורציום ה-WWW](https://www.w3.org/TR/speech-synthesis11/).
## שאלון אחרי השיעור
[שאלון אחרי השיעור](https://black-meadow-040d15503.1.azurestaticapps.net/quiz/46)
## סקירה ולימוד עצמי
* קראו עוד על סינתזת דיבור בעמוד [סינתזת דיבור בויקיפדיה](https://wikipedia.org/wiki/Speech_synthesis)
* קראו עוד על הדרכים שבהן פושעים משתמשים בסינתזת דיבור כדי לגנוב בכתבה [קולות מזויפים 'עוזרים לפושעי סייבר לגנוב כסף' ב-BBC](https://www.bbc.com/news/technology-48908736)
* למדו עוד על הסיכונים לשחקני קול מסינתזת גרסאות של קולם בכתבה [תביעה זו של טיקטוק מדגישה כיצד AI פוגע בשחקני קול ב-Vice](https://www.vice.com/en/article/z3xqwj/this-tiktok-lawsuit-is-highlighting-how-ai-is-screwing-over-voice-actors)
## משימה
[בטל את הטיימר](assignment.md)
---
**כתב ויתור**:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור סמכותי. עבור מידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי אדם. איננו נושאים באחריות לאי הבנות או לפרשנויות שגויות הנובעות משימוש בתרגום זה.