{ "cells": [ { "cell_type": "markdown", "source": [ "# Desafio: Analisando Texto sobre Ciência de Dados\n", "\n", "Neste exemplo, vamos fazer um exercício simples que cobre todas as etapas de um processo tradicional de ciência de dados. Você não precisa escrever nenhum código, basta clicar nas células abaixo para executá-las e observar o resultado. Como desafio, você é incentivado a testar este código com diferentes dados.\n", "\n", "## Objetivo\n", "\n", "Nesta lição, discutimos diferentes conceitos relacionados à Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados fazendo uma **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e, em seguida, tentaremos visualizar o resultado.\n", "\n", "Como texto, utilizarei a página sobre Ciência de Dados da Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Etapa 1: Obtendo os Dados\n", "\n", "O primeiro passo em todo processo de ciência de dados é obter os dados. Usaremos a biblioteca `requests` para isso:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "