{ "cells": [ { "cell_type": "markdown", "source": [ "# Desafio: Analisando Texto sobre Ciência de Dados\n", "\n", "> *Neste notebook, experimentamos usar diferentes URLs - artigo da Wikipedia sobre Aprendizado de Máquina. Você pode perceber que, ao contrário de Ciência de Dados, este artigo contém muitos termos, tornando a análise mais problemática. Precisamos encontrar outra maneira de limpar os dados após a extração de palavras-chave, para eliminar algumas combinações de palavras frequentes, mas sem significado.*\n", "\n", "Neste exemplo, vamos fazer um exercício simples que cobre todas as etapas de um processo tradicional de ciência de dados. Você não precisa escrever nenhum código, basta clicar nas células abaixo para executá-las e observar o resultado. Como desafio, você é incentivado a testar este código com dados diferentes.\n", "\n", "## Objetivo\n", "\n", "Nesta lição, discutimos diferentes conceitos relacionados à Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados fazendo um pouco de **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e, em seguida, tentaremos visualizar o resultado.\n", "\n", "Como texto, usarei a página sobre Ciência de Dados da Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Etapa 1: Obtendo os Dados\n", "\n", "O primeiro passo em todo processo de ciência de dados é obter os dados. Usaremos a biblioteca `requests` para isso:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "