26 KiB
Постскриптум: Машинное обучение в реальном мире
Скетчноут от Tomomi Imura
В этом курсе вы узнали множество способов подготовки данных для обучения и создания моделей машинного обучения. Вы создали серию классических моделей регрессии, кластеризации, классификации, обработки естественного языка и временных рядов. Поздравляем! Теперь вы, возможно, задаетесь вопросом, для чего все это... какие реальные приложения существуют для этих моделей?
Хотя в индустрии большой интерес вызывает искусственный интеллект, который обычно использует глубокое обучение, классические модели машинного обучения все еще имеют ценные приложения. Возможно, вы уже используете некоторые из них сегодня! В этом уроке вы узнаете, как восемь различных отраслей и предметных областей используют эти типы моделей, чтобы сделать свои приложения более производительными, надежными, интеллектуальными и полезными для пользователей.
Тест перед лекцией
💰 Финансы
Финансовый сектор предлагает множество возможностей для применения машинного обучения. Многие задачи в этой области можно моделировать и решать с помощью ML.
Обнаружение мошенничества с кредитными картами
Мы изучали кластеризацию методом k-средних ранее в курсе, но как ее можно использовать для решения задач, связанных с мошенничеством с кредитными картами?
Кластеризация методом k-средних полезна в технике обнаружения аномалий, применяемой для выявления мошенничества с кредитными картами. Аномалии или отклонения в наблюдениях за набором данных могут показать, используется ли кредитная карта в обычном режиме или происходит что-то необычное. Как показано в статье по ссылке ниже, вы можете сортировать данные о кредитных картах с помощью алгоритма кластеризации методом k-средних и назначать каждой транзакции кластер на основе того, насколько она является аномалией. Затем можно оценить самые рискованные кластеры на предмет мошеннических или законных транзакций. Источник
Управление капиталом
В управлении капиталом физическое лицо или фирма занимается инвестициями от имени своих клиентов. Их задача — сохранять и увеличивать капитал в долгосрочной перспективе, поэтому важно выбирать инвестиции, которые показывают хорошие результаты.
Один из способов оценить, как работает конкретная инвестиция, — это статистическая регрессия. Линейная регрессия — полезный инструмент для понимания того, как фонд работает относительно некоторого эталона. Мы также можем определить, являются ли результаты регрессии статистически значимыми, то есть насколько они могут повлиять на инвестиции клиента. Вы даже можете расширить свой анализ, используя множественную регрессию, где можно учитывать дополнительные факторы риска. Пример того, как это работает для конкретного фонда, можно найти в статье ниже о оценке эффективности фонда с помощью регрессии. Источник
🎓 Образование
Образовательный сектор также представляет собой очень интересную область для применения ML. Здесь можно решать такие задачи, как выявление мошенничества на тестах или эссе, а также управление предвзятостью, намеренной или нет, в процессе проверки.
Прогнозирование поведения студентов
Coursera, онлайн-платформа открытых курсов, ведет отличный технический блог, где обсуждаются многие инженерные решения. В этом кейсе они построили линию регрессии, чтобы исследовать возможную корреляцию между низким рейтингом NPS (Net Promoter Score) и удержанием или отсеиванием курса. Источник
Снижение предвзятости
Grammarly, помощник для письма, который проверяет орфографию и грамматику, использует сложные системы обработки естественного языка в своих продуктах. Они опубликовали интересное исследование в своем техническом блоге о том, как они справились с гендерной предвзятостью в машинном обучении, о чем вы узнали в нашем вводном уроке о справедливости. Источник
👜 Розничная торговля
Сектор розничной торговли определенно может извлечь выгоду из использования ML, начиная от создания лучшего клиентского пути и заканчивая оптимальным управлением запасами.
Персонализация клиентского пути
В Wayfair, компании, продающей товары для дома, такие как мебель, помощь клиентам в поиске подходящих продуктов для их вкусов и потребностей является первоочередной задачей. В этой статье инженеры компании описывают, как они используют ML и NLP для "предоставления подходящих результатов для клиентов". В частности, их Query Intent Engine был создан для использования извлечения сущностей, обучения классификаторов, извлечения активов и мнений, а также тегирования настроений в отзывах клиентов. Это классический пример того, как NLP работает в онлайн-розничной торговле. Источник
Управление запасами
Инновационные, гибкие компании, такие как StitchFix, сервис коробок, отправляющий одежду потребителям, сильно зависят от ML для рекомендаций и управления запасами. Их команды стилистов работают вместе с командами мерчандайзинга: "один из наших специалистов по данным экспериментировал с генетическим алгоритмом и применил его к одежде, чтобы предсказать, какой предмет одежды будет успешным, хотя он еще не существует. Мы представили это команде мерчандайзинга, и теперь они могут использовать это как инструмент." Источник
🏥 Здравоохранение
Сектор здравоохранения может использовать ML для оптимизации исследовательских задач, а также логистических проблем, таких как повторная госпитализация пациентов или предотвращение распространения заболеваний.
Управление клиническими испытаниями
Токсичность в клинических испытаниях является серьезной проблемой для производителей лекарств. Какой уровень токсичности допустим? В этом исследовании анализ различных методов клинических испытаний привел к разработке нового подхода для прогнозирования вероятности исходов клинических испытаний. В частности, они смогли использовать случайный лес для создания классификатора, который способен различать группы лекарств. Источник
Управление повторной госпитализацией
Госпитальная помощь обходится дорого, особенно когда пациентов приходится повторно госпитализировать. В этой статье обсуждается компания, которая использует ML для прогнозирования вероятности повторной госпитализации с помощью кластеризации алгоритмов. Эти кластеры помогают аналитикам "обнаруживать группы повторных госпитализаций, которые могут иметь общую причину". Источник
Управление заболеваниями
Недавняя пандемия ярко продемонстрировала, как машинное обучение может помочь в предотвращении распространения заболеваний. В этой статье вы узнаете о применении ARIMA, логистических кривых, линейной регрессии и SARIMA. "Эта работа представляет собой попытку рассчитать скорость распространения этого вируса и, таким образом, предсказать количество смертей, выздоровлений и подтвержденных случаев, чтобы помочь нам лучше подготовиться и выжить." Источник
🌲 Экология и зеленые технологии
Природа и экология состоят из множества чувствительных систем, где взаимодействие между животными и природой выходит на первый план. Важно уметь точно измерять эти системы и действовать соответствующим образом, если что-то происходит, например, лесной пожар или снижение численности животных.
Управление лесами
Вы изучали обучение с подкреплением в предыдущих уроках. Оно может быть очень полезным при попытке прогнозировать природные явления. В частности, его можно использовать для отслеживания экологических проблем, таких как лесные пожары и распространение инвазивных видов. В Канаде группа исследователей использовала обучение с подкреплением для создания моделей динамики лесных пожаров на основе спутниковых изображений. Используя инновационный "процесс пространственного распространения (SSP)", они представили лесной пожар как "агента в любой ячейке ландшафта". "Набор действий, которые пожар может предпринять из определенного местоположения в любой момент времени, включает распространение на север, юг, восток или запад или отсутствие распространения."
Этот подход переворачивает обычную настройку RL, поскольку динамика соответствующего процесса принятия решений Маркова (MDP) является известной функцией для немедленного распространения пожара. Подробнее о классических алгоритмах, использованных этой группой, читайте по ссылке ниже. Источник
Отслеживание движений животных
Хотя глубокое обучение произвело революцию в визуальном отслеживании движений животных (вы можете создать свой собственный трекер белых медведей здесь), классическое ML все еще имеет место в этой задаче.
Датчики для отслеживания движений сельскохозяйственных животных и IoT используют этот тип визуальной обработки, но более базовые методы ML полезны для предварительной обработки данных. Например, в этой статье позы овец были отслежены и проанализированы с использованием различных алгоритмов классификации. Вы можете узнать кривую ROC на странице 335. Источник
⚡️ Управление энергией
В наших уроках по прогнозированию временных рядов мы упоминали концепцию умных парковочных счетчиков для генерации дохода для города на основе понимания спроса и предложения. В этой статье подробно обсуждается, как кластеризация, регрессия и прогнозирование временных рядов в совокупности помогли предсказать будущие потребности в энергии в Ирландии на основе данных умного учета. Источник
💼 Страхование
Сектор страхования — еще одна область, где используется ML для построения и оптимизации жизнеспособных финансовых и актуарных моделей.
Управление волатильностью
MetLife, поставщик страхования жизни, открыто рассказывает о том, как они анализируют и снижают волатильность в своих финансовых моделях. В этой статье вы найдете визуализации бинарной и порядковой классификации. Также вы обнаружите визуализации прогнозирования. Источник
🎨 Искусство, культура и литература
В искусстве, например в журналистике, существует множество интересных задач. Выявление фейковых новостей — огромная проблема, так как доказано, что они влияют на мнение людей и даже могут подрывать демократию. Музеи также могут извлечь выгоду из использования ML, начиная от поиска связей между артефактами и заканчивая планированием ресурсов.
Выявление фейковых новостей
Выявление фейковых новостей стало игрой в кошки-мышки в сегодняшних медиа. В этой статье исследователи предлагают систему, объединяющую несколько изученных нами техник ML, которую можно протестировать и выбрать лучшую модель для развертывания: "Эта система основана на обработке естественного языка для извлечения признаков из данных, а затем эти признаки используются для обучения классификаторов машинного обучения, таких как Naive Bayes, Support Vector Machine (SVM), Random Forest (RF), Stochastic Gradient Descent (SGD) и Logistic Regression (LR)." Источник
Эта статья показывает, как объединение различных областей ML может дать интересные результаты, которые помогут остановить распространение фейковых новостей и предотвратить реальный ущерб; в данном случае импульсом стало распространение слухов о лечении COVID, вызвавших насилие в толпе.
ML в музеях
Музеи находятся на пороге революции в области искусственного интеллекта, где каталогизация и оцифровка коллекций, а также поиск связей между артефактами становятся проще благодаря развитию технологий. Проекты, такие как In Codice Ratio, помогают раскрыть тайны недоступных коллекций, таких как Ватиканские архивы. Но бизнес-аспект музеев также выигрывает от моделей ML.
Например, Институт искусств Чикаго создал модели для прогнозирования интересов аудитории и времени посещения выставок. Цель — создать индивидуализированный и оптимизированный опыт для каждого посетителя музея. "В течение 2017 финансового года модель предсказала посещаемость и доходы с точностью до 1 процента, говорит Эндрю Симник, старший вице-президент Института искусств." Источник
🏷 Маркетинг
Сегментация клиентов
Наиболее эффективные маркетинговые стратегии нацелены на клиентов по-разному, основываясь на различных группировках. В этой статье обсуждаются применения алгоритмов кластеризации для поддержки дифференцированного маркетинга. Дифференцированный маркетинг помогает компаниям улучшить узнаваемость бренда, охватить больше клиентов и заработать больше денег. Источник
🚀 Задание
Определите еще одну отрасль, которая извлекает выгоду из некоторых техник, изученных в этом курсе, и узнайте, как она использует ML.
Тест после лекции
Обзор и самостоятельное изучение
Команда специалистов по данным компании Wayfair подготовила несколько интересных видео о том, как они используют машинное обучение в своей работе. Стоит ознакомиться!
Задание
Охота за сокровищами в области машинного обучения
Отказ от ответственности:
Этот документ был переведен с использованием сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия по обеспечению точности, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникающие в результате использования данного перевода.