You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/he/1-Introduction/02-ethics
leestott a12f5d4c2d
🌐 Update translations via Co-op Translator
4 months ago
..
README.md 🌐 Update translations via Co-op Translator 4 months ago
assignment.md

README.md

מבוא לאתיקה של נתונים

 סקיצה מאת (@sketchthedocs)
אתיקה במדעי הנתונים - סקיצה מאת @nitya

כולנו אזרחים של נתונים החיים בעולם מבוסס נתונים.

מגמות השוק מראות כי עד שנת 2022, אחת מתוך שלוש ארגונים גדולים תקנה ותמכור את הנתונים שלה דרך שווקים ומרכזי מסחר מקוונים. בתור מפתחי אפליקציות, יהיה לנו קל וזול יותר לשלב תובנות מבוססות נתונים ואוטומציה מבוססת אלגוריתמים בחוויות היומיות של המשתמשים. אך ככל שהבינה המלאכותית הופכת לנפוצה, נצטרך גם להבין את הנזקים הפוטנציאליים הנגרמים משימוש לרעה באלגוריתמים בקנה מידה רחב.

המגמות מצביעות על כך שעד שנת 2025, נייצר ונצרוך מעל 180 זטה-בייטים של נתונים. עבור מדעני נתונים, התפוצצות המידע הזו מספקת גישה חסרת תקדים לנתונים אישיים והתנהגותיים. עם זאת מגיעה היכולת לבנות פרופילים מפורטים של משתמשים ולהשפיע בעדינות על קבלת ההחלטות שלהם—לעיתים בדרכים שמטפחות אשליה של בחירה חופשית. בעוד שניתן להשתמש בכך כדי להניע משתמשים לתוצאות מועדפות, הדבר גם מעלה שאלות קריטיות לגבי פרטיות נתונים, אוטונומיה, והגבולות האתיים של השפעה אלגוריתמית.

אתיקה של נתונים היא כיום מעקה בטיחות הכרחי עבור מדעי הנתונים וההנדסה, המסייעת לנו למזער נזקים פוטנציאליים ותוצאות בלתי מכוונות מפעולות מבוססות נתונים. מעגל ההייפ של גרטנר עבור AI מזהה מגמות רלוונטיות באתיקה דיגיטלית, AI אחראי, וממשל AI כגורמים מרכזיים למגמות גדולות יותר סביב דמוקרטיזציה ויעוש_ של AI.

מעגל ההייפ של גרטנר עבור AI - 2020

בשיעור זה, נחקור את התחום המרתק של אתיקה של נתונים - החל ממושגים ואתגרים מרכזיים, ועד מחקרי מקרה ומושגים יישומיים כמו ממשל AI - המסייעים לבסס תרבות אתית בצוותים ובארגונים שעובדים עם נתונים ו-AI.

שאלון לפני השיעור 🎯

הגדרות בסיסיות

נתחיל בהבנת המונחים הבסיסיים.

המילה "אתיקה" מגיעה מהמילה היוונית "ethikos" (ושורשה "ethos") שמשמעותה אופי או טבע מוסרי.

אתיקה עוסקת בערכים משותפים ועקרונות מוסריים שמנחים את ההתנהגות שלנו בחברה. אתיקה מבוססת לא על חוקים אלא על נורמות מקובלות של מה "נכון מול לא נכון". עם זאת, שיקולים אתיים יכולים להשפיע על יוזמות ממשל תאגידי ורגולציות ממשלתיות שיוצרות יותר תמריצים לציות.

אתיקה של נתונים היא ענף חדש של אתיקה שחוקר ומעריך בעיות מוסריות הקשורות ל_נתונים, אלגוריתמים ופרקטיקות תואמות_. כאן, "נתונים" מתמקדים בפעולות הקשורות ליצירה, הקלטה, אצירה, עיבוד, הפצה, שיתוף ושימוש, "אלגוריתמים" מתמקדים ב-AI, סוכנים, למידת מכונה ורובוטים, ו**"פרקטיקות"** מתמקדות בנושאים כמו חדשנות אחראית, תכנות, פריצה וקודי אתיקה.

אתיקה יישומית היא יישום מעשי של שיקולים מוסריים. זהו תהליך של חקירה פעילה של סוגיות אתיות בהקשר של פעולות, מוצרים ותהליכים בעולם האמיתי, ונקיטת צעדים מתקנים כדי להבטיח שהם נשארים מיושרים עם הערכים האתיים שהוגדרו.

תרבות אתית עוסקת בהפעלה של אתיקה יישומית כדי להבטיח שהעקרונות והפרקטיקות האתיים שלנו יאומצו באופן עקבי וניתן להרחבה בכל רחבי הארגון. תרבויות אתיות מצליחות מגדירות עקרונות אתיים ברמת הארגון, מספקות תמריצים משמעותיים לציות, ומחזקות נורמות אתיות על ידי עידוד והגברת התנהגויות רצויות בכל רמות הארגון.

מושגי אתיקה

בקטע זה, נדון במושגים כמו ערכים משותפים (עקרונות) ואתגרים אתיים (בעיות) באתיקה של נתונים - ונחקור מחקרי מקרה שיעזרו לכם להבין את המושגים הללו בהקשרים של העולם האמיתי.

1. עקרונות אתיים

כל אסטרטגיה של אתיקה של נתונים מתחילה בהגדרת עקרונות אתיים - "ערכים משותפים" שמתארים התנהגויות מקובלות ומנחים פעולות תואמות בפרויקטים של נתונים ו-AI. ניתן להגדיר אותם ברמה אישית או צוותית. עם זאת, רוב הארגונים הגדולים מגדירים אותם בהצהרת משימה או מסגרת של AI אתי ברמת הארגון, ומיישמים אותם באופן עקבי בכל הצוותים.

דוגמה: הצהרת המשימה של AI אחראי של מיקרוסופט אומרת: "אנחנו מחויבים לקידום AI מונחה עקרונות אתיים שמעמידים את האדם במרכז" - ומזהה 6 עקרונות אתיים במסגרת הבאה:

AI אחראי במיקרוסופט

בואו נחקור בקצרה את העקרונות הללו. שקיפות ו_אחריות_ הם ערכים יסודיים שעליהם נבנים עקרונות אחרים - אז נתחיל שם:

  • אחריות הופכת את העוסקים בתחום ל_אחראים_ על פעולות הנתונים וה-AI שלהם, ועל הציות לעקרונות האתיים הללו.
  • שקיפות מבטיחה שפעולות נתונים ו-AI יהיו מובנות (ניתנות לפרשנות) למשתמשים, ומסבירה את מה ולמה מאחורי ההחלטות.
  • הוגנות - מתמקדת בהבטחת AI שמתייחס לכל האנשים באופן הוגן, ומתמודדת עם הטיות חברתיות-טכניות מערכתיות או סמיות בנתונים ובמערכות.
  • אמינות ובטיחות - מבטיחה ש-AI מתנהג בעקביות עם ערכים מוגדרים, וממזערת נזקים פוטנציאליים או תוצאות בלתי מכוונות.
  • פרטיות ואבטחה - עוסקת בהבנת שושלת הנתונים, ומתן הגנות פרטיות נתונים למשתמשים.
  • הכללה - עוסקת בעיצוב פתרונות AI בכוונה, והתאמתם כדי לענות על מגוון רחב של צרכים ויכולות אנושיות.

🚨 חשבו על מה יכולה להיות הצהרת המשימה של אתיקה של נתונים שלכם. חקרו מסגרות AI אתיות מארגונים אחרים - הנה דוגמאות מ-IBM, Google, ו-Facebook. אילו ערכים משותפים יש להם במשותף? כיצד עקרונות אלו קשורים למוצרי AI או לתעשייה שבה הם פועלים?

2. אתגרים אתיים

לאחר שהגדרנו עקרונות אתיים, השלב הבא הוא להעריך את פעולות הנתונים וה-AI שלנו כדי לראות אם הן מתיישרות עם הערכים המשותפים הללו. חשבו על הפעולות שלכם בשתי קטגוריות: איסוף נתונים ויצוב אלגוריתמים_.

באיסוף נתונים, הפעולות יכללו ככל הנראה נתונים אישיים או מידע אישי מזהה (PII) עבור אנשים מזוהים. זה כולל פריטים מגוונים של נתונים לא אישיים שמזהים ביחד אדם. אתגרים אתיים יכולים להיות קשורים ל_פרטיות נתונים_, בעלות על נתונים, ונושאים קשורים כמו הסכמה מדעת ו_זכויות קניין רוחני_ עבור משתמשים.

בעיצוב אלגוריתמים, הפעולות יכללו איסוף ואצירה של מאגרי נתונים, ואז שימוש בהם כדי לאמן ולפרוס מודלים נתונים שמנבאים תוצאות או מבצעים אוטומציה של החלטות בהקשרים של העולם האמיתי. אתגרים אתיים יכולים לנבוע מ_הטיות במאגרי נתונים_, בעיות איכות נתונים, חוסר הוגנות, ו_ייצוג שגוי_ באלגוריתמים - כולל כמה בעיות שהן מערכתיות בטבען.

בשני המקרים, אתגרים אתיים מדגישים תחומים שבהם הפעולות שלנו עשויות להיתקל בקונפליקט עם הערכים המשותפים שלנו. כדי לזהות, למזער, למנוע או להסיר את החששות הללו - עלינו לשאול שאלות מוסריות "כן/לא" הקשורות לפעולות שלנו, ואז לנקוט צעדים מתקנים לפי הצורך. בואו נבחן כמה אתגרים אתיים והשאלות המוסריות שהם מעלים:

2.1 בעלות על נתונים

איסוף נתונים כולל לעיתים קרובות נתונים אישיים שיכולים לזהות את נושאי הנתונים. בעלות על נתונים עוסקת ב_שליטה_ וזכויות משתמש הקשורות ליצירה, עיבוד והפצה של נתונים.

השאלות המוסריות שעלינו לשאול הן:

  • מי הבעלים של הנתונים? (משתמש או ארגון)
  • אילו זכויות יש לנושאי הנתונים? (לדוגמה: גישה, מחיקה, ניידות)
  • אילו זכויות יש לארגונים? (לדוגמה: תיקון ביקורות משתמשים זדוניות)

2.2 הסכמה מדעת

הסכמה מדעת מגדירה את פעולת המשתמשים בהסכמה לפעולה (כמו איסוף נתונים) עם הבנה מלאה של עובדות רלוונטיות כולל המטרה, הסיכונים הפוטנציאליים, והחלופות.

שאלות לחקור כאן הן:

  • האם המשתמש (נושא הנתונים) נתן רשות ללכידת נתונים ושימוש בהם?
  • האם המשתמש הבין את המטרה שלשמה הנתונים נלכדו?
  • האם המשתמש הבין את הסיכונים הפוטנציאליים מהשתתפותו?

2.3 קניין רוחני

קניין רוחני מתייחס ליצירות בלתי מוחשיות הנובעות מיוזמה אנושית, שעשויות להיות בעלות ערך כלכלי לאנשים או עסקים.

שאלות לחקור כאן הן:

  • האם הנתונים שנאספו היו בעלי ערך כלכלי למשתמש או לעסק?
  • האם למשתמש יש קניין רוחני כאן?
  • האם לארגון יש קניין רוחני כאן?
  • אם זכויות אלו קיימות, כיצד אנו מגנים עליהן?

2.4 פרטיות נתונים

פרטיות נתונים או פרטיות מידע מתייחסת לשמירה על פרטיות המשתמש והגנה על זהותו ביחס למידע אישי מזהה.

שאלות לחקור כאן הן:

  • האם הנתונים האישיים של המשתמשים מאובטחים מפני פריצות ודליפות?
  • האם הנתונים של המשתמשים נגישים רק למשתמשים והקשרים מורשים?
  • האם האנונימיות של המשתמשים נשמרת כאשר הנתונים משותפים או מופצים?
  • האם ניתן להסיר את זיהוי המשתמש ממאגרי נתונים אנונימיים?

2.5 הזכות להישכח

הזכות להישכח או הזכות למחיקה מספקת הגנה נוספת על נתונים אישיים למשתמשים. באופן ספציפי, היא מעניקה למשתמשים את הזכות לבקש מחיקה או הסרה של נתונים אישיים מחיפושים באינטרנט וממקומות אחרים, בנסיבות מסוימות - ומאפשרת להם התחלה חדשה ברשת מבלי שפעולות עבר יעמדו נגדם.

שאלות לחקור כאן הן:

  • האם המערכת מאפשרת לנושאי נתונים לבקש מחיקה?
  • האם ביטול הסכמת המשתמש צריך להפעיל מחיקה אוטומטית?
  • האם נתונים נאספו ללא הסכמה או באמצעים בלתי חוקיים?
  • האם אנו עומדים בתקנות ממשלתיות לפרטיות נתונים?

2.6 הטיות במאגרי נתונים

הטיות במאגרי נתונים או הטיות באיסוף עוסקות בבחירת תת-קבוצה לא מייצגת של נתונים לפיתוח אלגוריתמים, ויוצרת פוטנציאל לחוסר הוגנות בתוצאות עבור קבוצות מגוונות. סוגי הטיות כוללים הטיות בבחירה או דגימה, הטיות מתנדבים, והטיות מכשירים.

שאלות לחקור כאן הן:

  • האם גייסנו קבוצה מייצגת של נושאי נתונים?
  • האם בדקנו את מאגר הנתונים שנאסף או נאצר עבור הטיות שונות?
  • האם אנו יכולים למזער או להסיר הטיות שהתגלו?

2.7 איכות נתונים

איכות נתונים בוחנת את תקפות מאגר הנתונים שנאצר לשם פיתוח האלגוריתמים שלנו, ובודקת אם התכונות והרשומות עומדות בדרישות לרמת דיוק ועקביות הנדרשת למטרת ה-AI שלנו.

שאלות לחקור כאן הן:

  • האם לכדנו תכונות תקפות למקרה השימוש שלנו?
  • האם הנתונים נלכדו בעקביות ממקורות נתונים מגוונים?
  • האם מאגר הנתונים שלם עבור תנאים או תרחישים מגוונים?
  • האם המידע שנאסף משקף בדיוק את המציאות?

2.8 הוגנות אלגוריתמית

הוגנות אלגוריתמית בודקת האם עיצוב האלגוריתם מפלה באופן שיטתי קבוצות מסוימות של נבדקים, מה שעלול להוביל לנזקים פוטנציאליים ב-הקצאה (כאשר משאבים נשללים או נמנעים מקבוצה זו) וב-איכות השירות (כאשר הבינה המלאכותית אינה מדויקת עבור קבוצות מסוימות כמו שהיא עבור אחרות).

שאלות שכדאי לבחון כאן:

  • האם הערכנו את דיוק המודל עבור קבוצות מגוונות ותנאים שונים?
  • האם בדקנו את המערכת לנזקים פוטנציאליים (לדוגמה, סטריאוטיפים)?
  • האם ניתן לשנות נתונים או לאמן מחדש מודלים כדי לצמצם נזקים שזוהו?

חקרו משאבים כמו רשימות בדיקה להוגנות בבינה מלאכותית כדי ללמוד עוד.

2.9 הצגת נתונים באופן מטעה

הצגת נתונים באופן מטעה עוסקת בשאלה האם אנו מתקשרים תובנות מתוך נתונים מדווחים בצורה כנה באופן שמטעה כדי לתמוך בנרטיב רצוי.

שאלות שכדאי לבחון כאן:

  • האם אנו מדווחים נתונים לא שלמים או לא מדויקים?
  • האם אנו מציגים נתונים באופן שמוביל למסקנות מטעות?
  • האם אנו משתמשים בטכניקות סטטיסטיות סלקטיביות כדי לשנות תוצאות?
  • האם קיימות הסברים חלופיים שיכולים להציע מסקנה שונה?

2.10 בחירה חופשית

אשליית הבחירה החופשית מתרחשת כאשר "ארכיטקטורות בחירה" של מערכות משתמשות באלגוריתמים לקבלת החלטות כדי להניע אנשים לבחור בתוצאה מועדפת תוך יצירת רושם שיש להם אפשרויות ושליטה. דפוסים אפלים אלו יכולים לגרום לנזקים חברתיים וכלכליים למשתמשים. מכיוון שהחלטות משתמש משפיעות על פרופילי התנהגות, פעולות אלו עשויות להניע בחירות עתידיות שיכולות להעצים או להרחיב את השפעת הנזקים הללו.

שאלות שכדאי לבחון כאן:

  • האם המשתמש הבין את ההשלכות של קבלת הבחירה הזו?
  • האם המשתמש היה מודע לאפשרויות (חלופיות) וליתרונות וחסרונות של כל אחת?
  • האם המשתמש יכול להפוך בחירה אוטומטית או מושפעת מאוחר יותר?

3. מקרי בוחן

כדי לשים את האתגרים האתיים בהקשרים של העולם האמיתי, כדאי לבחון מקרי בוחן שמדגישים את הנזקים וההשלכות הפוטנציאליים על יחידים וחברה, כאשר הפרות אתיות כאלו נעלמות מעינינו.

הנה כמה דוגמאות:

אתגר אתי מקרה בוחן
הסכמה מדעת 1972 - מחקר העגבת בטסקיגי - גברים אפרו-אמריקאים שהשתתפו במחקר הובטחה להם טיפול רפואי חינם אך הוטעו על ידי חוקרים שלא הודיעו להם על האבחנה או על זמינות הטיפול. רבים מהנבדקים מתו, ושותפים או ילדים נפגעו; המחקר נמשך 40 שנה.
פרטיות נתונים 2007 - פרס נתוני נטפליקס סיפק לחוקרים 10 מיליון דירוגי סרטים אנונימיים מ-50 אלף לקוחות כדי לשפר אלגוריתמי המלצות. עם זאת, חוקרים הצליחו לקשר נתונים אנונימיים לנתונים מזהים אישית ב-מאגרי נתונים חיצוניים (לדוגמה, תגובות IMDb) - למעשה "דה-אנונימיזציה" של חלק ממנויי נטפליקס.
הטיה באיסוף נתונים 2013 - עיריית בוסטון פיתחה את Street Bump, אפליקציה שאפשרה לתושבים לדווח על בורות בכביש, מה שנתן לעיר נתוני כבישים טובים יותר למציאת ותיקון בעיות. עם זאת, אנשים בקבוצות הכנסה נמוכה היו בעלי פחות גישה למכוניות וטלפונים, מה שהפך את בעיות הכבישים שלהם לבלתי נראות באפליקציה זו. המפתחים עבדו עם אקדמאים כדי לטפל ב-נגישות שוויונית ופערים דיגיטליים למען הוגנות.
הוגנות אלגוריתמית 2018 - מחקר Gender Shades של MIT העריך את דיוק מוצרי AI לסיווג מגדר, וחשף פערים בדיוק עבור נשים ואנשים בעלי צבע עור כהה. כרטיס Apple משנת 2019 נראה שהציע פחות אשראי לנשים מאשר לגברים. שניהם הדגימו בעיות בהטיה אלגוריתמית שהובילה לנזקים חברתיים-כלכליים.
הצגת נתונים באופן מטעה 2020 - משרד הבריאות של ג'ורג'יה פרסם גרפים של מקרי COVID-19 שנראה כי הטעו את האזרחים לגבי מגמות במקרים מאושרים עם סדר לא כרונולוגי על ציר ה-x. זה מדגים הצגה מטעה באמצעות טריקים ויזואליים.
אשליית הבחירה החופשית 2020 - אפליקציית לימוד ABCmouse שילמה 10 מיליון דולר כדי ליישב תלונה של ה-FTC שבה הורים נלכדו בתשלום עבור מנויים שלא יכלו לבטל. זה מדגים דפוסים אפלים בארכיטקטורות בחירה, שבהן משתמשים הונעו לעבר בחירות שעלולות להזיק.
פרטיות נתונים וזכויות משתמש 2021 - פרצת נתונים בפייסבוק חשפה נתונים מ-530 מיליון משתמשים, מה שהוביל להסדר של 5 מיליארד דולר עם ה-FTC. עם זאת, החברה סירבה להודיע למשתמשים על הפרצה, מה שהפר את זכויות המשתמשים בנוגע לשקיפות נתונים וגישה.

רוצים לחקור עוד מקרי בוחן? בדקו את המשאבים הבאים:

🚨 חשבו על מקרי הבוחן שראיתם - האם חוויתם או הושפעתם מאתגר אתי דומה בחייכם? האם תוכלו לחשוב על לפחות מקרה בוחן אחד נוסף שממחיש אחד מהאתגרים האתיים שדנו בהם בסעיף זה?

אתיקה יישומית

דיברנו על מושגי אתיקה, אתגרים ומקרי בוחן בהקשרים של העולם האמיתי. אבל איך מתחילים ליישם עקרונות ופרקטיקות אתיות בפרויקטים שלנו? ואיך מפעילים את הפרקטיקות הללו למען ממשל טוב יותר? בואו נחקור כמה פתרונות בעולם האמיתי:

1. קודים מקצועיים

קודים מקצועיים מציעים אפשרות אחת לארגונים "לתמרץ" חברים לתמוך בעקרונות האתיים שלהם ובהצהרת המשימה. קודים הם הנחיות מוסריות להתנהגות מקצועית, המסייעות לעובדים או חברים לקבל החלטות שמתיישרות עם עקרונות הארגון שלהם. הם טובים רק כמו הציות מרצון מצד החברים; עם זאת, ארגונים רבים מציעים תגמולים ועונשים נוספים כדי להניע ציות מצד החברים.

דוגמאות כוללות:

🚨 האם אתם חברים בארגון מקצועי להנדסה או מדעי הנתונים? חקרו את האתר שלהם כדי לראות אם הם מגדירים קוד אתיקה מקצועי. מה זה אומר על העקרונות האתיים שלהם? איך הם "מתמרצים" חברים לעקוב אחרי הקוד?

2. רשימות בדיקה אתיות

בעוד שקודים מקצועיים מגדירים התנהגות אתית נדרשת מצד העוסקים בתחום, יש להם מגבלות ידועות באכיפה, במיוחד בפרויקטים רחבי היקף. במקום זאת, מומחי מדעי הנתונים רבים ממליצים על רשימות בדיקה, שיכולות לחבר עקרונות לפרקטיקות בדרכים יותר דטרמיניסטיות וניתנות לפעולה.

רשימות בדיקה ממירות שאלות ל"משימות כן/לא" שניתן להפעיל, ומאפשרות לעקוב אחריהן כחלק מזרימות עבודה סטנדרטיות לשחרור מוצרים.

דוגמאות כוללות:

3. רגולציות אתיות

אתיקה עוסקת בהגדרת ערכים משותפים ועשיית הדבר הנכון מרצון. ציות עוסק ב-עמידה בחוק אם וכאשר מוגדר. ממשל מכסה באופן רחב את כל הדרכים שבהן ארגונים פועלים כדי לאכוף עקרונות אתיים ולעמוד בחוקים שנקבעו.

כיום, ממשל לובש שתי צורות בתוך ארגונים. ראשית, מדובר בהגדרת עקרונות AI אתיים והקמת פרקטיקות להפעלת אימוץ בכל הפרויקטים הקשורים ל-AI בארגון. שנית, מדובר בעמידה בכל רגולציות הגנת נתונים שהממשלה מחייבת עבור האזורים שבהם היא פועלת.

דוגמאות לרגולציות הגנת נתונים ופרטיות:

משימה

כתיבת מחקר מקרה על אתיקה בנתונים


כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור סמכותי. עבור מידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי אדם. איננו נושאים באחריות לאי הבנות או לפרשנויות שגויות הנובעות משימוש בתרגום זה.