28 KiB
Наука за данни в реалния свят
![]() |
---|
Наука за данни в реалния свят - Скетч от @nitya |
Почти сме в края на това учебно пътешествие!
Започнахме с дефиниции за науката за данни и етика, разгледахме различни инструменти и техники за анализ и визуализация на данни, прегледахме жизнения цикъл на науката за данни и разгледахме мащабирането и автоматизацията на работните процеси с облачни услуги. Вероятно се питате: "Как точно да приложа всичко това в реални контексти?"
В този урок ще разгледаме приложенията на науката за данни в различни индустрии и ще се потопим в конкретни примери в областите на изследванията, дигиталните хуманитарни науки и устойчивостта. Ще разгледаме възможности за студентски проекти и ще завършим с полезни ресурси, които да ви помогнат да продължите своето обучение!
Предварителен тест
Наука за данни + Индустрия
Благодарение на демократизацията на AI, разработчиците вече намират за по-лесно да проектират и интегрират решения, базирани на AI, и прозрения, базирани на данни, в потребителския опит и работните процеси на разработка. Ето няколко примера за това как науката за данни се "прилага" в реални приложения в индустрията:
-
Google Flu Trends използва науката за данни, за да свърже търсения с тенденции за грип. Въпреки че подходът имаше недостатъци, той повиши осведомеността за възможностите (и предизвикателствата) на прогнозите в здравеопазването, базирани на данни.
-
UPS Routing Predictions - обяснява как UPS използва науката за данни и машинното обучение, за да предскаже оптимални маршрути за доставка, като взема предвид метеорологичните условия, трафика, сроковете за доставка и други.
-
NYC Taxicab Route Visualization - данни, събрани чрез Закони за свобода на информацията, помогнаха за визуализацията на един ден от живота на такситата в Ню Йорк, като ни показаха как те се движат из натоварения град, парите, които печелят, и продължителността на пътуванията за всеки 24-часов период.
-
Uber Data Science Workbench - използва данни (за местата на качване и слизане, продължителността на пътуванията, предпочитаните маршрути и др.), събрани от милиони ежедневни пътувания с Uber, за да създаде инструмент за анализ на данни, който помага при ценообразуване, безопасност, откриване на измами и навигационни решения.
-
Sports Analytics - фокусира се върху предсказателен анализ (анализ на отбори и играчи - като Moneyball - и управление на фенове) и визуализация на данни (табла за отбори и фенове, игри и др.) с приложения като подбор на таланти, спортни залагания и управление на инвентар/места.
-
Наука за данни в банковия сектор - подчертава стойността на науката за данни във финансовата индустрия с приложения, вариращи от моделиране на рискове и откриване на измами до сегментация на клиенти, прогнози в реално време и системи за препоръки. Предсказателният анализ също така движи критични мерки като кредитни оценки.
-
Наука за данни в здравеопазването - подчертава приложения като медицинска визуализация (например MRI, рентген, CT-сканиране), геномика (секвениране на ДНК), разработка на лекарства (оценка на риска, прогноза за успех), предсказателен анализ (грижа за пациенти и логистика на доставки), проследяване и превенция на заболявания и др.
Кредит за изображението: Data Flair: 6 Amazing Data Science Applications
Фигурата показва други области и примери за прилагане на техники от науката за данни. Искате ли да разгледате други приложения? Вижте секцията Преглед и самостоятелно обучение по-долу.
Наука за данни + Изследвания
![]() |
---|
Наука за данни и изследвания - Скетч от @nitya |
Докато приложенията в реалния свят често се фокусират върху индустриални случаи в мащаб, изследователските приложения и проекти могат да бъдат полезни от две перспективи:
- възможности за иновации - изследване на бързото прототипиране на напреднали концепции и тестване на потребителския опит за приложения от следващо поколение.
- предизвикателства при внедряване - изследване на потенциалните вреди или непредвидени последици от технологиите на науката за данни в реални контексти.
За студентите тези изследователски проекти могат да предоставят както възможности за обучение, така и за сътрудничество, които да подобрят разбирането ви за темата и да разширят осведомеността и ангажираността ви с подходящи хора или екипи, работещи в области от интерес. Как изглеждат изследователските проекти и как могат да имат въздействие?
Нека разгледаме един пример - MIT Gender Shades Study от Джой Буоламвини (MIT Media Labs) с подписана изследователска статия, съавторство с Тимнит Гебру (тогава в Microsoft Research), която се фокусира върху:
- Какво: Целта на изследователския проект беше оценка на пристрастията, присъстващи в алгоритмите и наборите от данни за автоматизиран анализ на лица, базирани на пол и тип кожа.
- Защо: Анализът на лица се използва в области като правоприлагане, сигурност на летища, системи за наемане и други - контексти, в които неточните класификации (например, поради пристрастия) могат да причинят потенциални икономически и социални вреди на засегнатите лица или групи. Разбирането (и премахването или смекчаването) на пристрастията е ключово за справедливостта при използване.
- Как: Изследователите разпознаха, че съществуващите бенчмаркове използват предимно субекти с по-светла кожа и създадоха нов набор от данни (1000+ изображения), който беше по-балансиран по пол и тип кожа. Наборът от данни беше използван за оценка на точността на три продукта за класификация на пол (от Microsoft, IBM и Face++).
Резултатите показаха, че въпреки че общата точност на класификацията беше добра, имаше забележима разлика в процентите на грешки между различните подгрупи - с грешно определяне на пола, което беше по-високо за жени или лица с по-тъмна кожа, което е показателно за пристрастия.
Основни резултати: Повишена осведоменост, че науката за данни се нуждае от повече представителни набори от данни (балансирани подгрупи) и повече инклузивни екипи (разнообразни среди), за да разпознават и премахват или смекчават такива пристрастия по-рано в AI решенията. Изследователски усилия като това също са инструментални за много организации при дефинирането на принципи и практики за отговорен AI, за да се подобри справедливостта в техните AI продукти и процеси.
Искате ли да научите за съответните изследователски усилия в Microsoft?
- Разгледайте Microsoft Research Projects в областта на изкуствения интелект.
- Изследвайте студентски проекти от Microsoft Research Data Science Summer School.
- Разгледайте проекта Fairlearn и инициативите за Отговорен AI.
Наука за данни + Хуманитарни науки
![]() |
---|
Наука за данни и дигитални хуманитарни науки - Скетч от @nitya |
Дигиталните хуманитарни науки са дефинирани като "сбор от практики и подходи, комбиниращи компютърни методи с хуманитарни изследвания". Проекти на Станфорд като "рестартиране на историята" и "поетично мислене" илюстрират връзката между Дигиталните хуманитарни науки и науката за данни - подчертавайки техники като анализ на мрежи, визуализация на информация, пространствен и текстов анализ, които могат да ни помогнат да преразгледаме исторически и литературни набори от данни, за да извлечем нови прозрения и перспективи.
Искате ли да изследвате и разширите проект в тази област?
Разгледайте "Емили Дикинсън и метърът на настроението" - страхотен пример от Джен Лупър, който пита как можем да използваме науката за данни, за да преразгледаме позната поезия и да преоценим нейното значение и приноса на автора в нови контексти. Например, можем ли да предскажем сезона, в който е написано стихотворение, като анализираме неговия тон или настроение - и какво ни казва това за състоянието на ума на автора през съответния период?
За да отговорим на този въпрос, следваме стъпките на жизнения цикъл на науката за данни:
Събиране на данни
- за събиране на подходящ набор от данни за анализ. Опциите включват използване на API (например Poetry DB API) или извличане на уеб страници (например Project Gutenberg) с инструменти като Scrapy.Почистване на данни
- обяснява как текстът може да бъде форматиран, пречистен и опростен с основни инструменти като Visual Studio Code и Microsoft Excel.Анализ на данни
- обяснява как можем да импортираме набора от данни в "ноутбуци" за анализ, използвайки Python пакети (като pandas, numpy и matplotlib), за да организираме и визуализираме данните.Анализ на настроението
- обяснява как можем да интегрираме облачни услуги като Text Analytics, използвайки инструменти с нисък код като Power Automate за автоматизирани работни процеси за обработка на данни.
Използвайки този работен процес, можем да изследваме сезонните влияния върху настроението на стихотворенията и да ни помогнем да формираме свои собствени перспективи за автора. Опитайте го сами - след това разширете ноутбука, за да зададете други въпроси или да визуализирате данните по нови начини!
Можете да използвате някои от инструментите в Digital Humanities toolkit, за да преследвате тези направления на изследване.
Наука за данни + Устойчивост
![]() |
---|
Наука за данни и устойчивост - Скетч от @nitya |
Програмата за устойчиво развитие до 2030 г. - приета от всички членове на ООН през 2015 г. - идентифицира 17 цели, включително такива, които се фокусират върху защита на планетата от деградация и въздействието на климатичните промени. Инициативата Microsoft Sustainability подкрепя тези цели, като изследва начини, по които технологичните решения могат да подкрепят и изградят по-устойчиво бъдеще с фокус върху 4 цели - да бъдат въглеродно отрицателни, водно положителни, с нулеви отпадъци и биоразнообразни до 2030 г.
Справянето с тези предизвикателства в мащабен и своевременен начин изисква мислене в облачен мащаб - и големи обеми данни. Инициативата Planetary Computer предоставя 4 компонента, които да помогнат на учените за данни и разработчиците в това усилие:
-
Каталог на данни - с петабайти данни за земните системи (безплатни и хоствани в Azure).
-
Planetary API - за да помогне на потребителите да търсят подходящи данни в пространството и врем Проектът Planetary Computer в момента е в предварителен преглед (към септември 2021 г.) - ето как можете да започнете да допринасяте за устойчиви решения чрез наука за данни.
-
Заявете достъп, за да започнете изследването и да се свържете с колеги.
-
Разгледайте документацията, за да разберете поддържаните набори от данни и API.
-
Разгледайте приложения като Мониторинг на екосистемите за вдъхновение относно идеи за приложения.
Помислете как можете да използвате визуализация на данни, за да разкриете или подчертаете важни прозрения в области като климатични промени и обезлесяване. Или помислете как тези прозрения могат да бъдат използвани за създаване на нови потребителски преживявания, които мотивират поведенчески промени за по-устойчив начин на живот.
Наука за данни + Студенти
Говорихме за приложения в реалния свят в индустрията и изследванията и разгледахме примери за приложения на науката за данни в дигиталните хуманитарни науки и устойчивостта. Но как можете да развиете уменията си и да споделите експертизата си като начинаещи в науката за данни?
Ето няколко примера за студентски проекти в областта на науката за данни, които да ви вдъхновят.
- Лятно училище по наука за данни на MSR с GitHub проекти, изследващи теми като:
- Дигитализиране на материалната култура: Изследване на социално-икономическите разпределения в Сиркап - от Орнела Алтунян и екип от Клермонт, използвайки ArcGIS StoryMaps.
🚀 Предизвикателство
Потърсете статии, които препоръчват проекти в областта на науката за данни, подходящи за начинаещи - като тези 50 теми или тези 21 идеи за проекти или тези 16 проекта с изходен код, които можете да анализирате и адаптирате. И не забравяйте да пишете блогове за вашето учебно пътешествие и да споделяте прозренията си с всички нас.
Тест след лекцията
Преглед и самостоятелно обучение
Искате ли да изследвате повече случаи на употреба? Ето няколко подходящи статии:
- 17 приложения и примери за наука за данни - юли 2021 г.
- 11 впечатляващи приложения на науката за данни в реалния свят - май 2021 г.
- Наука за данни в реалния свят - колекция от статии
- Наука за данни в: Образованието, Селското стопанство, Финансите, Киното и други.
Задача
Изследвайте набор от данни на Planetary Computer
Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.