{ "cells": [ { "cell_type": "markdown", "source": [ "# Desafío: Analizando Texto sobre Ciencia de Datos\n", "\n", "En este ejemplo, hagamos un ejercicio sencillo que cubre todos los pasos de un proceso tradicional de ciencia de datos. No necesitas escribir ningún código, simplemente puedes hacer clic en las celdas a continuación para ejecutarlas y observar el resultado. Como desafío, se te anima a probar este código con datos diferentes.\n", "\n", "## Objetivo\n", "\n", "En esta lección, hemos estado discutiendo diferentes conceptos relacionados con la Ciencia de Datos. Vamos a intentar descubrir más conceptos relacionados haciendo un poco de **minería de texto**. Comenzaremos con un texto sobre Ciencia de Datos, extraeremos palabras clave de él y luego intentaremos visualizar el resultado.\n", "\n", "Como texto, usaré la página sobre Ciencia de Datos de Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Paso 1: Obtener los Datos\n", "\n", "El primer paso en todo proceso de ciencia de datos es obtener los datos. Usaremos la biblioteca `requests` para hacerlo:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "