You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

28 KiB

Наука за данни в реалния свят

 Скетч от (@sketchthedocs)
Наука за данни в реалния свят - Скетч от @nitya

Почти сме в края на това учебно пътешествие!

Започнахме с дефиниции за науката за данни и етика, разгледахме различни инструменти и техники за анализ и визуализация на данни, прегледахме жизнения цикъл на науката за данни и разгледахме мащабирането и автоматизацията на работните процеси с облачни услуги. Вероятно се питате: "Как точно да приложа всичко това в реални контексти?"

В този урок ще разгледаме приложенията на науката за данни в различни индустрии и ще се потопим в конкретни примери в областите на изследванията, дигиталните хуманитарни науки и устойчивостта. Ще разгледаме възможности за студентски проекти и ще завършим с полезни ресурси, които да ви помогнат да продължите своето обучение!

Предварителен тест

Предварителен тест

Наука за данни + Индустрия

Благодарение на демократизацията на AI, разработчиците вече намират за по-лесно да проектират и интегрират решения, базирани на AI, и да извличат прозрения от данни в потребителски преживявания и работни процеси. Ето няколко примера за това как науката за данни се "прилага" в реални приложения в индустрията:

  • Google Flu Trends използва науката за данни, за да свърже търсения с тенденции за грип. Въпреки че подходът имаше недостатъци, той повиши осведомеността за възможностите (и предизвикателствата) на прогнозите в здравеопазването, базирани на данни.

  • UPS Routing Predictions - обяснява как UPS използва науката за данни и машинното обучение, за да предскаже оптимални маршрути за доставка, като взема предвид метеорологични условия, трафик, крайни срокове за доставка и други.

  • NYC Taxicab Route Visualization - данни, събрани чрез Закони за свобода на информацията, помогнаха за визуализиране на един ден от живота на такситата в Ню Йорк, като ни показаха как те се движат из града, колко печелят и колко време отнемат пътуванията им за 24-часов период.

  • Uber Data Science Workbench - използва данни (за местоположения на качване и слизане, продължителност на пътуванията, предпочитани маршрути и др.), събрани от милиони ежедневни пътувания с Uber, за да създаде инструмент за анализ на данни, който помага при ценообразуване, безопасност, откриване на измами и навигационни решения.

  • Анализ в спорта - фокусира се върху предсказателен анализ (анализ на отбори и играчи - като Moneyball - и управление на фенове) и визуализация на данни (табла за отбори и фенове, игри и др.) с приложения като подбор на таланти, спортни залагания и управление на инвентар/места.

  • Наука за данни в банковия сектор - подчертава стойността на науката за данни във финансовата индустрия с приложения, вариращи от моделиране на рискове и откриване на измами до сегментация на клиенти, прогнози в реално време и препоръчващи системи. Предсказателният анализ също така движи критични мерки като кредитни рейтинги.

  • Наука за данни в здравеопазването - подчертава приложения като медицинско изображение (напр. MRI, рентген, CT-сканиране), геномика (секвениране на ДНК), разработка на лекарства (оценка на риска, прогноза за успех), предсказателен анализ (грижа за пациенти и логистика на доставки), проследяване и предотвратяване на заболявания и др.

Приложения на науката за данни в реалния свят Кредит за изображението: Data Flair: 6 Amazing Data Science Applications

Фигурата показва други области и примери за прилагане на техники за наука за данни. Искате ли да разгледате други приложения? Вижте секцията Преглед и самостоятелно обучение по-долу.

Наука за данни + Изследвания

 Скетч от (@sketchthedocs)
Наука за данни и изследвания - Скетч от @nitya

Докато приложенията в реалния свят често се фокусират върху индустриални случаи в мащаб, изследователските приложения и проекти могат да бъдат полезни от две перспективи:

  • възможности за иновации - изследване на бързото прототипиране на напреднали концепции и тестване на потребителски преживявания за приложения от следващо поколение.
  • предизвикателства при внедряване - изследване на потенциални вреди или непредвидени последици от технологиите за наука за данни в реални контексти.

За студентите тези изследователски проекти могат да предоставят както възможности за учене, така и за сътрудничество, които да подобрят разбирането на темата и да разширят осведомеността и ангажираността с подходящи хора или екипи, работещи в области от интерес. Как изглеждат изследователските проекти и как могат да имат въздействие?

Нека разгледаме един пример - MIT Gender Shades Study от Джой Буоламвини (MIT Media Labs) с подписана изследователска статия, съавторство с Тимнит Гебру (тогава в Microsoft Research), която се фокусира върху:

  • Какво: Целта на изследователския проект беше оценка на пристрастията в автоматизираните алгоритми за анализ на лица и набори от данни въз основа на пол и тип кожа.
  • Защо: Анализът на лица се използва в области като правоприлагане, сигурност на летища, системи за наемане и други - контексти, в които неточни класификации (напр. поради пристрастия) могат да причинят потенциални икономически и социални вреди на засегнатите лица или групи. Разбирането (и премахването или смекчаването) на пристрастията е ключово за справедливостта при използване.
  • Как: Изследователите разпознаха, че съществуващите бенчмаркове използват предимно субекти със светла кожа и създадоха нов набор от данни (1000+ изображения), който беше по-балансиран по пол и тип кожа. Наборът от данни беше използван за оценка на точността на три продукта за класификация на пол (от Microsoft, IBM и Face++).

Резултатите показаха, че въпреки че общата точност на класификацията беше добра, имаше забележима разлика в процентите на грешки между различните подгрупи - с грешно определяне на пола, което беше по-високо за жени или лица с по-тъмна кожа, което е показателно за пристрастия.

Основни резултати: Повишена осведоменост, че науката за данни се нуждае от повече представителни набори от данни (балансирани подгрупи) и повече инклузивни екипи (разнообразни среди), за да разпознават и премахват или смекчават такива пристрастия по-рано в AI решенията. Изследователски усилия като това също са инструментални за много организации при дефинирането на принципи и практики за отговорен AI, за да се подобри справедливостта в техните AI продукти и процеси.

Искате ли да научите за съответните изследователски усилия в Microsoft?

Наука за данни + Хуманитарни науки

 Скетч от (@sketchthedocs)
Наука за данни и дигитални хуманитарни науки - Скетч от @nitya

Дигиталните хуманитарни науки са дефинирани като "сбор от практики и подходи, които комбинират компютърни методи с хуманитарни изследвания". Проекти на Станфорд като "рестартиране на историята" и "поетично мислене" илюстрират връзката между Дигитални хуманитарни науки и Наука за данни - подчертавайки техники като анализ на мрежи, визуализация на информация, пространствен и текстов анализ, които могат да ни помогнат да преосмислим исторически и литературни набори от данни, за да извлечем нови прозрения и перспективи.

Искате ли да изследвате и разширите проект в тази област?

Разгледайте "Емили Дикинсън и метърът на настроението" - страхотен пример от Джен Лупър, който пита как можем да използваме науката за данни, за да преосмислим познатата поезия и да преоценим нейното значение и приноса на автора в нови контексти. Например, можем ли да предскажем сезона, в който е написано стихотворение, като анализираме неговия тон или настроение - и какво ни казва това за състоянието на ума на автора през съответния период?

За да отговорим на този въпрос, следваме стъпките на жизнения цикъл на науката за данни:

  • Събиране на данни - за събиране на подходящ набор от данни за анализ. Опциите включват използване на API (напр. Poetry DB API) или извличане на уеб страници (напр. Project Gutenberg) с инструменти като Scrapy.
  • Почистване на данни - обяснява как текстът може да бъде форматиран, пречистен и опростен с основни инструменти като Visual Studio Code и Microsoft Excel.
  • Анализ на данни - обяснява как можем да импортираме набора от данни в "Тетрадки" за анализ, използвайки Python пакети (като pandas, numpy и matplotlib), за да организираме и визуализираме данните.
  • Анализ на настроението - обяснява как можем да интегрираме облачни услуги като Text Analytics, използвайки инструменти с нисък код като Power Automate за автоматизирани работни процеси за обработка на данни.

С помощта на този работен процес можем да изследваме сезонните влияния върху настроението на стихотворенията и да ни помогнем да изградим свои собствени перспективи за автора. Опитайте сами - след това разширете тетрадката, за да зададете други въпроси или да визуализирате данните по нови начини!

Можете да използвате някои от инструментите в Digital Humanities toolkit, за да преследвате тези направления на изследване.

Наука за данни + Устойчивост

 Скетч от (@sketchthedocs)
Наука за данни и устойчивост - Скетч от @nitya

Програмата за устойчиво развитие до 2030 г. - приета от всички членове на ООН през 2015 г. - идентифицира 17 цели, включително такива, които се фокусират върху защита на планетата от деградация и въздействието на климатичните промени. Инициативата Microsoft Sustainability подкрепя тези цели, като изследва начини, по които технологичните решения могат да подкрепят и изградят по-устойчиво бъдеще с фокус върху 4 цели - да бъдат въглеродно отрицателни, водно положителни, с нулеви отпадъци и биоразнообразни до 2030 г.

Справянето с тези предизвикателства в мащабен и своевременен начин изисква мислене в облачен мащаб - и големи обеми данни. Инициативата Planetary Computer предоставя 4 компонента, които да помогнат на учените и разработчиците в това усилие:

  • Каталог на данни - с петабайти данни за земните системи (безплатни и хоствани в Azure).

  • Planetary API - за да помогне на потребителите да търсят подходящи данни в пространството и времето.

  • [Hub](https://planetarycomputer.microsoft.com/docs Проектът Planetary Computer в момента е в предварителен преглед (към септември 2021) - ето как можете да започнете да допринасяте за устойчиви решения чрез използване на науката за данни.

  • Заявете достъп, за да започнете изследване и да се свържете с други хора.

  • Разгледайте документацията, за да разберете поддържаните набори от данни и API.

  • Разгледайте приложения като Мониторинг на екосистеми за вдъхновение относно идеи за приложения.

Помислете как можете да използвате визуализация на данни, за да разкриете или подчертаете важни прозрения в области като климатични промени и обезлесяване. Или помислете как тези прозрения могат да бъдат използвани за създаване на нови потребителски преживявания, които мотивират промени в поведението за по-устойчив начин на живот.

Наука за данни + Студенти

Говорихме за приложения в реалния свят в индустрията и научните изследвания и разгледахме примери за приложения на науката за данни в дигиталните хуманитарни науки и устойчивостта. Как можете да развиете своите умения и да споделите своя опит като начинаещи в науката за данни?

Ето някои примери за студентски проекти в областта на науката за данни, които да ви вдъхновят.

🚀 Предизвикателство

Търсете статии, които препоръчват проекти в областта на науката за данни, подходящи за начинаещи - като тези 50 теми или тези 21 идеи за проекти или тези 16 проекта с изходен код, които можете да анализирате и адаптирате. И не забравяйте да пишете блогове за вашите учебни пътувания и да споделяте своите прозрения с всички нас.

Тест след лекцията

Тест след лекцията

Преглед и самостоятелно обучение

Искате ли да разгледате още примери за приложения? Ето няколко подходящи статии:

Задание

Разгледайте набор от данни на Planetary Computer


Отказ от отговорност:
Този документ е преведен с помощта на AI услуга за превод Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматичните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия изходен език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален превод от човек. Ние не носим отговорност за каквито и да е недоразумения или погрешни интерпретации, произтичащи от използването на този превод.