29 KiB
Наука о данных в реальном мире
![]() |
---|
Наука о данных в реальном мире - Sketchnote от @nitya |
Мы почти подошли к концу этого учебного путешествия!
Мы начали с определений науки о данных и этики, изучили различные инструменты и методы анализа и визуализации данных, рассмотрели жизненный цикл науки о данных и узнали, как масштабировать и автоматизировать рабочие процессы с использованием облачных вычислительных сервисов. И теперь вы, вероятно, задаетесь вопросом: "Как именно применить все эти знания в реальных условиях?"
В этом уроке мы исследуем реальные приложения науки о данных в различных отраслях и углубимся в конкретные примеры в области исследований, цифровых гуманитарных наук и устойчивого развития. Мы также рассмотрим возможности студенческих проектов и завершим полезными ресурсами, которые помогут вам продолжить обучение!
Предварительный тест
Наука о данных + Индустрия
Благодаря демократизации ИИ разработчикам стало проще проектировать и интегрировать решения на основе ИИ и данные в пользовательские интерфейсы и рабочие процессы разработки. Вот несколько примеров того, как наука о данных применяется в реальных условиях в различных отраслях:
-
Google Flu Trends использовал науку о данных для корреляции поисковых запросов с тенденциями распространения гриппа. Хотя подход имел недостатки, он привлек внимание к возможностям (и вызовам) прогнозирования в здравоохранении на основе данных.
-
Прогнозирование маршрутов UPS - объясняет, как UPS использует науку о данных и машинное обучение для прогнозирования оптимальных маршрутов доставки с учетом погодных условий, трафика, сроков доставки и других факторов.
-
Визуализация маршрутов такси в Нью-Йорке - данные, собранные с использованием Законов о свободе информации, помогли визуализировать день из жизни такси Нью-Йорка, что позволило понять, как они передвигаются по городу, сколько зарабатывают и какова продолжительность поездок за 24 часа.
-
Рабочая платформа данных Uber - использует данные (о местах посадки и высадки, продолжительности поездок, предпочтительных маршрутах и т.д.), собранные с миллионов поездок Uber ежедневно, для создания аналитического инструмента, который помогает в ценообразовании, обеспечении безопасности, обнаружении мошенничества и навигации.
-
Аналитика в спорте - включает предиктивную аналитику (анализ команд и игроков, как в Moneyball, и управление фанатами) и визуализацию данных (дашборды команд и фанатов, игры и т.д.) с применением в таких областях, как поиск талантов, спортивные ставки и управление инвентарем/местами проведения.
-
Наука о данных в банковской сфере - подчеркивает ценность науки о данных в финансовой отрасли с применением в моделировании рисков, обнаружении мошенничества, сегментации клиентов, прогнозировании в реальном времени и рекомендательных системах. Предиктивная аналитика также используется для таких критически важных показателей, как кредитные рейтинги.
-
Наука о данных в здравоохранении - включает такие приложения, как медицинская визуализация (например, МРТ, рентген, КТ-сканирование), геномика (секвенирование ДНК), разработка лекарств (оценка рисков, прогнозирование успеха), предиктивная аналитика (уход за пациентами и логистика поставок), отслеживание и предотвращение заболеваний и т.д.
Источник изображения: Data Flair: 6 Amazing Data Science Applications
На рисунке показаны другие области и примеры применения методов науки о данных. Хотите изучить другие приложения? Ознакомьтесь с разделом Обзор и самостоятельное изучение ниже.
Наука о данных + Исследования
![]() |
---|
Наука о данных и исследования - Sketchnote от @nitya |
Хотя реальные приложения часто сосредоточены на масштабных промышленных кейсах, исследовательские проекты могут быть полезны с двух точек зрения:
- возможности для инноваций - исследование прототипирования передовых концепций и тестирование пользовательского опыта для приложений следующего поколения.
- вызовы внедрения - изучение потенциального вреда или непредвиденных последствий технологий науки о данных в реальных условиях.
Для студентов такие исследовательские проекты могут предоставить как возможности для обучения, так и для сотрудничества, что улучшит ваше понимание темы и расширит осведомленность и взаимодействие с людьми или командами, работающими в интересующих вас областях. Как выглядят исследовательские проекты и как они могут повлиять?
Рассмотрим один пример - Исследование Gender Shades от MIT Джой Буоламвини (MIT Media Labs) с знаковым исследовательским документом, написанным в соавторстве с Тимнит Гебру (тогда в Microsoft Research), который сосредоточился на:
- Что: Целью исследования было оценить предвзятость в алгоритмах и наборах данных для автоматического анализа лиц на основе пола и типа кожи.
- Почему: Анализ лиц используется в таких областях, как правоохранительные органы, безопасность в аэропортах, системы найма и другие - в контекстах, где неточные классификации (например, из-за предвзятости) могут нанести экономический и социальный вред затронутым лицам или группам. Понимание (и устранение или смягчение) предвзятости является ключом к справедливости в использовании.
- Как: Исследователи заметили, что существующие эталоны в основном использовали светлокожих субъектов, и создали новый набор данных (1000+ изображений), который был более сбалансирован по полу и типу кожи. Этот набор данных использовался для оценки точности трех продуктов для классификации пола (от Microsoft, IBM и Face++).
Результаты показали, что, хотя общая точность классификации была хорошей, наблюдалась заметная разница в уровнях ошибок между различными подгруппами - с ошибками определения пола, которые были выше для женщин или людей с более темным цветом кожи, что указывает на предвзятость.
Ключевые результаты: Исследование подчеркнуло необходимость более репрезентативных наборов данных (сбалансированных подгрупп) и более инклюзивных команд (разнообразных по происхождению), чтобы распознавать и устранять или смягчать такие предвзятости на ранних этапах разработки решений на основе ИИ. Такие исследования также способствуют формированию принципов и практик ответственного ИИ в организациях для повышения справедливости их продуктов и процессов.
Хотите узнать о соответствующих исследованиях в Microsoft?
- Ознакомьтесь с исследовательскими проектами Microsoft в области искусственного интеллекта.
- Изучите студенческие проекты из Летней школы науки о данных Microsoft Research.
- Ознакомьтесь с проектом Fairlearn и инициативами Ответственного ИИ.
Наука о данных + Гуманитарные науки
![]() |
---|
Наука о данных и цифровые гуманитарные науки - Sketchnote от @nitya |
Цифровые гуманитарные науки определяются как "совокупность практик и подходов, объединяющих вычислительные методы с гуманитарным исследованием". Проекты Стэнфорда, такие как "перезагрузка истории" и "поэтическое мышление", иллюстрируют связь между цифровыми гуманитарными науками и наукой о данных, подчеркивая такие методы, как анализ сетей, визуализация информации, пространственный и текстовый анализ, которые помогают нам переосмыслить исторические и литературные наборы данных, чтобы получить новые инсайты и перспективы.
Хотите изучить и расширить проект в этой области?
Ознакомьтесь с "Эмили Дикинсон и метром настроения" - отличным примером от Джен Лупер, который задается вопросом, как мы можем использовать науку о данных, чтобы переосмыслить знакомую поэзию и переоценить ее значение и вклад автора в новых контекстах. Например, можем ли мы предсказать сезон, в который было написано стихотворение, анализируя его тон или настроение, и что это говорит нам о состоянии автора в соответствующий период?
Чтобы ответить на этот вопрос, мы следуем этапам жизненного цикла науки о данных:
Сбор данных
- для сбора релевантного набора данных для анализа. Варианты включают использование API (например, Poetry DB API) или парсинг веб-страниц (например, Project Gutenberg) с помощью инструментов, таких как Scrapy.Очистка данных
- объясняет, как текст может быть отформатирован, очищен и упрощен с использованием базовых инструментов, таких как Visual Studio Code и Microsoft Excel.Анализ данных
- объясняет, как мы можем импортировать набор данных в "ноутбуки" для анализа с использованием Python-библиотек (таких как pandas, numpy и matplotlib) для организации и визуализации данных.Анализ настроений
- объясняет, как мы можем интегрировать облачные сервисы, такие как Text Analytics, используя инструменты с низким кодом, такие как Power Automate для автоматизации рабочих процессов обработки данных.
Используя этот рабочий процесс, мы можем исследовать сезонные влияния на настроение стихотворений и помочь нам сформировать собственные взгляды на автора. Попробуйте сами, а затем расширьте ноутбук, чтобы задать другие вопросы или визуализировать данные по-новому!
Вы можете использовать некоторые инструменты из набор инструментов цифровых гуманитарных наук для изучения этих направлений.
Наука о данных + Устойчивое развитие
![]() |
---|
Наука о данных и устойчивое развитие - Sketchnote от @nitya |
Повестка дня на период до 2030 года в области устойчивого развития, принятая всеми членами ООН в 2015 году, определяет 17 целей, включая те, которые направлены на защиту планеты от деградации и воздействия изменения климата. Инициатива Microsoft Sustainability поддерживает эти цели, исследуя способы, с помощью которых технологические решения могут способствовать созданию более устойчивого будущего, с фокусом на 4 цели: стать углеродно-отрицательными, водоположительными, безотходными и биоразнообразными к 2030 году.
Решение этих задач в масштабах и в срок требует облачного подхода и работы с большими объемами данных. Инициатива Planetary Computer предоставляет 4 компонента, которые помогут ученым данных и разработчикам в этом направлении:
-
Каталог данных - с петабайтами данных о системах Земли (бесплатно и размещено в Azure).
-
Planetary API - для поиска релевантных данных по пространству и времени.
-
Хаб - управляемая среда для ученых для обработки массивных геопространственных наборов данных.
-
Приложения - демонстрируют кейсы и инструменты для получения инсайтов в области устойчивого развития. Проект Planetary Computer в настоящее время находится в стадии предварительного просмотра (по состоянию на сентябрь 2021 года) - вот как вы можете начать вносить вклад в устойчивые решения с помощью науки о данных.
-
Запросите доступ, чтобы начать исследование и наладить связь с единомышленниками.
-
Изучите документацию, чтобы понять, какие наборы данных и API поддерживаются.
-
Ознакомьтесь с приложениями, такими как Мониторинг экосистем, чтобы найти вдохновение для идей приложений.
Подумайте, как вы можете использовать визуализацию данных, чтобы выявить или усилить важные инсайты в таких областях, как изменение климата и вырубка лесов. Или подумайте, как эти инсайты могут быть использованы для создания новых пользовательских опытов, которые мотивируют на изменения поведения для более устойчивого образа жизни.
Наука о данных + студенты
Мы обсудили реальные приложения в индустрии и исследованиях, а также рассмотрели примеры применения науки о данных в цифровых гуманитарных науках и устойчивом развитии. Так как же вам развивать свои навыки и делиться своим опытом, если вы только начинаете изучать науку о данных?
Вот несколько примеров студенческих проектов в области науки о данных, которые могут вас вдохновить.
- Летняя школа науки о данных MSR с проектами на GitHub, посвященными таким темам, как:
- Оцифровка материальной культуры: исследование социально-экономических распределений в Сиркапе - проект Орнеллы Алтуньян и команды из Клермонта, выполненный с использованием ArcGIS StoryMaps.
🚀 Задание
Найдите статьи, которые рекомендуют проекты по науке о данных для начинающих, например, эти 50 тем, эти 21 идею проекта или эти 16 проектов с исходным кодом, которые вы можете разобрать и переработать. И не забудьте вести блог о своем обучении и делиться своими инсайтами с нами.
Викторина после лекции
Обзор и самостоятельное изучение
Хотите изучить больше примеров использования? Вот несколько полезных статей:
- 17 приложений и примеров науки о данных - июль 2021
- 11 впечатляющих приложений науки о данных в реальном мире - май 2021
- Наука о данных в реальном мире - сборник статей
- Наука о данных в: образовании, сельском хозяйстве, финансах, кино и других областях.
Задание
Изучите набор данных Planetary Computer
Отказ от ответственности:
Этот документ был переведен с использованием сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникшие в результате использования данного перевода.