{ "cells": [ { "cell_type": "markdown", "source": [ "# Desafío: Analizando Texto sobre Ciencia de Datos\n", "\n", "> *En este cuaderno, experimentamos con el uso de diferentes URL - artículo de Wikipedia sobre Aprendizaje Automático. Puedes ver que, a diferencia de Ciencia de Datos, este artículo contiene muchos términos, lo que hace que el análisis sea más problemático. Necesitamos idear otra forma de limpiar los datos después de realizar la extracción de palabras clave, para deshacernos de algunas combinaciones de palabras frecuentes pero poco significativas.*\n", "\n", "En este ejemplo, hagamos un ejercicio sencillo que cubre todos los pasos de un proceso tradicional de ciencia de datos. No necesitas escribir ningún código, solo puedes hacer clic en las celdas a continuación para ejecutarlas y observar el resultado. Como desafío, se te anima a probar este código con diferentes datos.\n", "\n", "## Objetivo\n", "\n", "En esta lección, hemos estado discutiendo diferentes conceptos relacionados con la Ciencia de Datos. Intentemos descubrir más conceptos relacionados haciendo un poco de **minería de texto**. Comenzaremos con un texto sobre Ciencia de Datos, extraeremos palabras clave de él y luego intentaremos visualizar el resultado.\n", "\n", "Como texto, usaré la página sobre Ciencia de Datos de Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Paso 1: Obtener los Datos\n", "\n", "El primer paso en todo proceso de ciencia de datos es obtener los datos. Usaremos la biblioteca `requests` para hacerlo:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "