{ "cells": [ { "cell_type": "markdown", "source": [ "## **Música Nigeriana extraída do Spotify - uma análise**\n", "\n", "Clustering é um tipo de [Aprendizado Não Supervisionado](https://wikipedia.org/wiki/Aprendizado_n%C3%A3o_supervisionado) que presume que um conjunto de dados não possui rótulos ou que suas entradas não estão associadas a saídas predefinidas. Ele utiliza vários algoritmos para organizar dados não rotulados e fornecer agrupamentos com base em padrões identificados nos dados.\n", "\n", "[**Questionário pré-aula**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Introdução**\n", "\n", "[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) é muito útil para a exploração de dados. Vamos ver se ele pode ajudar a descobrir tendências e padrões no modo como o público nigeriano consome música.\n", "\n", "> ✅ Reserve um minuto para pensar sobre os usos do clustering. Na vida real, o clustering acontece sempre que você tem uma pilha de roupas para lavar e precisa separar as peças de cada membro da família 🧦👕👖🩲. Na ciência de dados, o clustering ocorre ao tentar analisar as preferências de um usuário ou determinar as características de um conjunto de dados não rotulado. O clustering, de certa forma, ajuda a dar sentido ao caos, como organizar uma gaveta de meias.\n", "\n", "Em um ambiente profissional, o clustering pode ser usado para determinar coisas como segmentação de mercado, identificando, por exemplo, quais faixas etárias compram determinados itens. Outro uso seria a detecção de anomalias, talvez para identificar fraudes em um conjunto de dados de transações com cartão de crédito. Ou você poderia usar o clustering para identificar tumores em um lote de exames médicos.\n", "\n", "✅ Pense por um minuto sobre como você já encontrou clustering \"no mundo real\", em um banco, e-commerce ou ambiente de negócios.\n", "\n", "> 🎓 Curiosamente, a análise de clusters teve origem nos campos da Antropologia e Psicologia na década de 1930. Você consegue imaginar como ela pode ter sido usada?\n", "\n", "Alternativamente, você poderia usá-lo para agrupar resultados de busca - por links de compras, imagens ou avaliações, por exemplo. O clustering é útil quando você tem um grande conjunto de dados que deseja reduzir e no qual deseja realizar uma análise mais detalhada. Assim, a técnica pode ser usada para aprender sobre os dados antes de construir outros modelos.\n", "\n", "✅ Depois que seus dados são organizados em clusters, você atribui a eles um Id de cluster. Essa técnica pode ser útil para preservar a privacidade de um conjunto de dados; você pode se referir a um ponto de dados pelo Id do cluster, em vez de usar dados identificáveis mais reveladores. Consegue pensar em outros motivos para usar um Id de cluster em vez de outros elementos do cluster para identificá-lo?\n", "\n", "### Começando com clustering\n", "\n", "> 🎓 A forma como criamos clusters tem muito a ver com a maneira como agrupamos os pontos de dados. Vamos explorar alguns conceitos:\n", ">\n", "> 🎓 ['Transdutivo' vs. 'indutivo'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> A inferência transdutiva é derivada de casos de treinamento observados que mapeiam para casos de teste específicos. A inferência indutiva é derivada de casos de treinamento que mapeiam para regras gerais, que só então são aplicadas aos casos de teste.\n", ">\n", "> Um exemplo: Imagine que você tem um conjunto de dados parcialmente rotulado. Alguns itens são 'discos', outros 'CDs' e alguns estão em branco. Sua tarefa é fornecer rótulos para os itens em branco. Se você escolher uma abordagem indutiva, treinaria um modelo procurando por 'discos' e 'CDs' e aplicaria esses rótulos aos dados não rotulados. Essa abordagem teria dificuldade em classificar itens que na verdade são 'fitas cassete'. Uma abordagem transdutiva, por outro lado, lida com esses dados desconhecidos de forma mais eficaz, agrupando itens semelhantes e, em seguida, aplicando um rótulo ao grupo. Nesse caso, os clusters poderiam refletir 'coisas musicais redondas' e 'coisas musicais quadradas'.\n", ">\n", "> 🎓 ['Geometria não plana' vs. 'plana'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Derivado da terminologia matemática, geometria não plana vs. plana refere-se à medição de distâncias entre pontos por métodos geométricos 'planos' ([Euclidianos](https://wikipedia.org/wiki/Geometria_euclidiana)) ou 'não planos' (não Euclidianos).\n", ">\n", "> 'Plana', neste contexto, refere-se à geometria Euclidiana (partes da qual são ensinadas como geometria 'plana'), enquanto 'não plana' refere-se à geometria não Euclidiana. O que a geometria tem a ver com aprendizado de máquina? Bem, como ambos os campos têm raízes na matemática, deve haver uma maneira comum de medir distâncias entre pontos em clusters, e isso pode ser feito de forma 'plana' ou 'não plana', dependendo da natureza dos dados. [Distâncias Euclidianas](https://wikipedia.org/wiki/Dist%C3%A2ncia_euclidiana) são medidas como o comprimento de um segmento de linha entre dois pontos. [Distâncias não Euclidianas](https://wikipedia.org/wiki/Geometria_n%C3%A3o_euclidiana) são medidas ao longo de uma curva. Se seus dados, quando visualizados, parecem não existir em um plano, você pode precisar usar um algoritmo especializado para lidar com eles.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"