{ "cells": [ { "cell_type": "markdown", "source": [ "# Desafio: Analisar Texto sobre Ciência de Dados\n", "\n", "> *Neste notebook, vamos experimentar usar diferentes URLs - artigo da Wikipédia sobre Aprendizagem Automática. Pode-se notar que, ao contrário da Ciência de Dados, este artigo contém muitos termos, tornando a análise mais problemática. Precisamos encontrar outra forma de limpar os dados após realizar a extração de palavras-chave, para eliminar algumas combinações de palavras frequentes, mas pouco significativas.*\n", "\n", "Neste exemplo, vamos fazer um exercício simples que cobre todos os passos de um processo tradicional de ciência de dados. Não é necessário escrever nenhum código, basta clicar nas células abaixo para executá-las e observar o resultado. Como desafio, é incentivado que experimente este código com dados diferentes.\n", "\n", "## Objetivo\n", "\n", "Nesta lição, discutimos diferentes conceitos relacionados à Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados ao realizar **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e, em seguida, tentaremos visualizar o resultado.\n", "\n", "Como texto, utilizarei a página sobre Ciência de Dados da Wikipédia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Passo 1: Obter os Dados\n", "\n", "O primeiro passo em qualquer processo de ciência de dados é obter os dados. Vamos utilizar a biblioteca `requests` para isso:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "