|
|
|
@ -1,99 +1,102 @@
|
|
|
|
|
# Introduction to Data Science in the Cloud
|
|
|
|
|
# Introducción a la Ciencia de Datos en la Nube
|
|
|
|
|
|
|
|
|
|
| ](../../sketchnotes/17-DataScience-Cloud.png)|
|
|
|
|
|
| ](../../../sketchnotes/17-DataScience-Cloud.png)|
|
|
|
|
|
|:---:|
|
|
|
|
|
| Data Science In The Cloud: Introduction - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
| Ciencia de Datos en la Nube: Introducción - _Sketchnote de [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
|
|
|
|
En esta lección, aprenderás los principios fundamentales de la Nube, luego verás por qué puede ser interesante para ti usar los servicios de la Nube para ejecutar tus proyectos de ciencia de datos y veremos algunos ejemplos de proyectos de ciencia de datos ejecutándose en la Nube.
|
|
|
|
|
|
|
|
|
|
In this lesson, you will learn the fundamental principles of the Cloud, then you will see why it can be interesting for you to use Cloud services to run your data science projects and we'll look at some examples of data science projects run in the Cloud.
|
|
|
|
|
## [Examen previo a la lección](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/32)
|
|
|
|
|
|
|
|
|
|
## ¿Qué es la Nube?
|
|
|
|
|
|
|
|
|
|
## [Pre-Lecture Quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/32)
|
|
|
|
|
La Nube o Cómputo en la Nube, es la distribución de un amplio rango de servicios de cómputo de pago por uso alojados en una infraestructura a través de internet. Los servicios incluyen soluciones tales como almacenamiento, bases de datos, redes, software, analítica y servicios inteligentes.
|
|
|
|
|
|
|
|
|
|
Solemos diferenciar las nubres Públicas, Privadas e Híbridas como sigue:
|
|
|
|
|
|
|
|
|
|
## What is the Cloud?
|
|
|
|
|
* Nube pública: una nuve pública pertenece y es operada por un proveedor de servicios de terceros el cual distribuye sus recursos de cómputo a través de internet al público.
|
|
|
|
|
* Nube privada: se refiere a los recursos de cómputo en la nube usados de forma exclusiva por un único negocio u organización, con servicios y una infrestructura mantenida en una red privada.
|
|
|
|
|
* Nube híbrida: la bure híbrida es una sistema que combina las nubes públicas y privadas. Los usuarios optan por centros de datos en sus instalaciones, mientras permiten que datos y aplicaciones se ejecuten en una o más nubes públicas.
|
|
|
|
|
|
|
|
|
|
The Cloud, or Cloud Computing, is the delivery of a wide range of pay-as-you-go computing services hosted on an infrastructure over the internet. Services include solutions such as storage, databases, networking, software, analytics, and intelligent services.
|
|
|
|
|
La mayoría de servicios de cómputo en la nube caen en tres categorías: Infraestructura como servicio (IaaS), Plataforma como servicio (PaaS) y Software como servicio (SaaS).
|
|
|
|
|
|
|
|
|
|
We usually differentiate the Public, Private and Hybrid clouds as follows:
|
|
|
|
|
* Infraestructura como Servicio (IaaS): los usuarios rentan una infraestructura de TI tales como servidores y máquinas virtuales (VMs), almacenamiento, redes, sistemas operativos.
|
|
|
|
|
* Plataforma como Servicio (PaaS): los usuarios rentan un ambiente para desarroller, probar, liberar y administrar aplicaciones de software. Los usuarios no necesitan preocuparse por configurar y administrar la infraestructura subyacente de los servidores, almacenamiento, red y bases de datos necesarias para el desarrollo.
|
|
|
|
|
* Software como Servicio (SaaS): los usuarios obtienen acceso a aplicaciones de software a través de Internet, bajo demanda y típicamente por una suscripción. Los usuarios no necesitan preocuparse por el alojamiento y administración de las aplicaciones software, la infraestructura subyacente o el mantenimiento, como actualizaciones de software y parches de seguridad.
|
|
|
|
|
|
|
|
|
|
* Public cloud: a public cloud is owned and operated by a third-party cloud service provider which delivers its computing resources over the Internet to the public.
|
|
|
|
|
* Private cloud: refers to cloud computing resources used exclusively by a single business or organization, with services and an infrastructure maintained on a private network.
|
|
|
|
|
* Hybrid cloud: the hybrid cloud is a system that combines public and private clouds. Users opt for an on-premises datacenter, while allowing data and applications to be run on one or more public clouds.
|
|
|
|
|
Algunos de los más grandes proveedores de la Nube son Amazon Web Services, Google Cloud Platform y Microsoft Azure.
|
|
|
|
|
|
|
|
|
|
Most cloud computing services fall into three categories: Infrastructure as a Service (IaaS), Platform as a Service (PaaS) and Software as a Service (SaaS).
|
|
|
|
|
## ¿Por qué elegir la Nube para Ciencia de Datos?
|
|
|
|
|
|
|
|
|
|
* Infrastructure as a Service (IaaS): users rent an IT infrastructure such as servers and virtual machines (VMs), storage, networks, operating systems
|
|
|
|
|
* Platform as a Service (PaaS): users rent an environment for developing, testing, delivering, and managing software applications. Users don’t need to worry about setting up or managing the underlying infrastructure of servers, storage, network, and databases needed for development.
|
|
|
|
|
* Software as a Service (SaaS): users get access to software applications over the Internet, on demand and typically on a subscription basis. Users don’t need to worry about hosting and managing the software application, the underlying infrastructure or the maintenance, like software upgrades and security patching.
|
|
|
|
|
Los desarrolladores y profesionales de TI eligen trabajar con la Nube for diversas razones, incluyendo las siguientes:
|
|
|
|
|
|
|
|
|
|
Some of the largest Cloud providers are Amazon Web Services, Google Cloud Platform and Microsoft Azure.
|
|
|
|
|
## Why Choose the Cloud for Data Science?
|
|
|
|
|
* Innovación: puedes potenciar tus aplicaciones al integrar servicios innovadores creados por los proveedores de la Nube agregándolos directamente a tus apps.
|
|
|
|
|
* Flexibilidad: sólo pagas por los servicios que necesitas y puedes elegir entre un amplio rango de servicios. Típicamente pagas por consumo y adaptas tus servicios de acuerdo a cómo evolucionan tus necesidades.
|
|
|
|
|
* Presupuesto: no necesitas realizar inversiones iniciales para pagar hardware y software, configurar y ejecutar centros de datos y sólo pagas por lo que usas.
|
|
|
|
|
* Escalabilidad: tus recursos escalan de acuerdo a las necesidades de tu proyecto, lo cual significa que tus apps pueden usar más o menos poder de cómputo, almacenamiento y ancho de banda, al adaptarse a los factores externos par aun tiempo especificado.
|
|
|
|
|
* Productividad: puedes enfocarte en un negocio en lugar de invertir tiempo en tareas que pueden ser gestionadas por alguien más, tal como la administración de centros de datos.
|
|
|
|
|
* Fiabilidad: el Cómputo en la Nube ofrece varias formas de respaldar tus datos de forma continua y configurar planes de cuperación ante desastres para mantener tu negocio y servicios en marcha, aún en tiempos de crisis.
|
|
|
|
|
* Seguridad: te puedes beneficiar de políticas, tecnologías y controles que fortalezcan la seguridad de tu proyecto.
|
|
|
|
|
|
|
|
|
|
Developers and IT professionals chose to work with the Cloud for many reasons, including the following:
|
|
|
|
|
Estas son algunas de las razones más comunes por qué la gente elige usar los servicios en la Nube. Ahora que tienes un mejor entendimiento de qué es la Nube y cuáles son sus principales beneficios, veamos más específicamente acerca de los trabajos de los Científicos de Datos y desarrolladores que trabajan con datos, y cómo la Nube puede ayudarlos con varios desafíos que pueden enfrentar:
|
|
|
|
|
|
|
|
|
|
* Innovation: you can power your applications by integrating innovative services created by Cloud providers directly into your apps.
|
|
|
|
|
* Flexibility: you only pay for the services that you need and can choose from a wide range of services. You typically pay as you go and adapt your services according to your evolving needs.
|
|
|
|
|
* Budget: you don’t need to make initial investments to purchase hardware and software, set up and run on-site datacenters and you can just pay for what you use.
|
|
|
|
|
* Scalability: your resources can scale according to the needs of your project, which means that your apps can use more or less computing power, storage and bandwidth, by adapting to external factors at any given time.
|
|
|
|
|
* Productivity: you can focus on your business rather than spending time on tasks that can be managed by someone else, such as managing datacenters.
|
|
|
|
|
* Reliability: Cloud Computing offers several ways to continuously back up your data and you can set up disaster recovery plans to keep your business and services going, even in times of crisis.
|
|
|
|
|
* Security: you can benefit from policies, technologies and controls that strengthen the security of your project.
|
|
|
|
|
* Almacenar grandes cantidades de datos: en lugar de comprar, administrar y proteger grandes servidores, puedes almacenar tus datos directamente en la nube, con soluciones tales como Azure Cosmos DB, Azure SQL Database y el almacenamiento de Azure Data Lake.
|
|
|
|
|
* Realizar Integración de Datos: la integración de datos es una parte esencial de la Ciencia de Datos, que te permite realizar una transición desde recolectar datos hasta la toma de acciones. Con los servicios de integración de datos que ofrece la nube, puedes recolectar, transformar e integrar datos desde varias fuentes en un sólo almacén de datos, con Data Factory.
|
|
|
|
|
* Procesamiento de datos: procesar vastas cantidades de datos requiere mucho poder de cómputo, y no cualquiera tiene acceso a máquinas lo suficientemente poderosas para ello, lo cual es el motivo para que mucha gente elija aprovechar directamente el gran poder de cómputo de la nube para ejecutar y desplegar sus soluciones.
|
|
|
|
|
* Usar servicios de analítica de datos: servicios de la nube como Azure Synapse Analytics, Azure Stream Analytics y Azure Databricks para ayudarte a convertir tus datos en conocimiento procesable.
|
|
|
|
|
* Usar srevicios de Aprendizaje Automático e Inteligecia de datos: En lugar de iniciar desde cero, puedes usar algoritmos de aprendizaje automático ofrecidos por el proveedor de la nube, con servicios como AzureML. También puedes suar servicios cognitivos como voz a texto, texto a voz, visión por computador y más.
|
|
|
|
|
|
|
|
|
|
These are some of the most common reasons why people choose to use Cloud services. Now that we have a better understanding of what the Cloud is and what its main benefits are, let's look more specifically into the jobs of Data scientists and developers working with data, and how the Cloud can help them with several challenges they might face:
|
|
|
|
|
## Ejemplos de Ciencia de Datos en la Nube
|
|
|
|
|
|
|
|
|
|
* Storing large amounts of data: instead of buying, managing and protecting big servers, you can store your data directly in the cloud, with solutions such as Azure Cosmos DB, Azure SQL Database and Azure Data Lake Storage.
|
|
|
|
|
* Performing Data Integration: data integration is an essential part of Data Science, that lets you make a transition from data collection to taking actions. With data integration services offered in the cloud, you can collect, transform and integrate data from various sources into a single data warehouse, with Data Factory.
|
|
|
|
|
* Processing data: processing vast amounts of data requires a lot of computing power, and not everyone has access to machines powerful enough for that, which is why many people choose to directly harness the cloud’s huge computing power to run and deploy their solutions.
|
|
|
|
|
* Using data analytics services: cloud services like Azure Synapse Analytics, Azure Stream Analytics and Azure Databricks to help you turn your data into actionable insights.
|
|
|
|
|
* Using Machine Learning and data intelligence services: Instead of starting from scratch, you can use machine learning algorithms offered by the cloud provider, with services such as AzureML. You can also use cognitive services such as speech-to-text, text to speech, computer vision and more.
|
|
|
|
|
Hagamos esto más tangible al mirar algunos escenarios.
|
|
|
|
|
|
|
|
|
|
## Examples of Data Science in the Cloud
|
|
|
|
|
### Análisis de sentimiento de medios sociales en tiempo real
|
|
|
|
|
|
|
|
|
|
Let’s make this more tangible by looking at a couple of scenarios.
|
|
|
|
|
Comenzaremos con un escenario comúnmente estudiado por la gente que comienza en el aprendizaje automático: análisis de sentimiento en medios sociales en tiempo real.
|
|
|
|
|
|
|
|
|
|
### Real-time social media sentiment analysis
|
|
|
|
|
We’ll start with a scenario commonly studied by people who start with machine learning: social media sentiment analysis in real time.
|
|
|
|
|
Digamos que manejas un sitio web de medios informativos y quieres aprovechar los datos en tiempo real para entender qué contenido podría interesarle a tus lectores. Para saber más acerca de ello, puedes construir un programa que realice análisis de sentimienot en tiempo real de los datos de publicaciones en Twitter, sobre temas que son relevantes para tus lectores.
|
|
|
|
|
|
|
|
|
|
Let's say you run a news media website and you want to leverage live data to understand what content your readers could be interested in. To know more about that, you can build a program that performs real-time sentiment analysis of data from Twitter publications, on topics that are relevant to your readers.
|
|
|
|
|
Los indicadores clave que buscarás es el volumen de tweets sobre temas específicos (hashtags) y sentimiento, el cual es establecido usando herramientas de analítica que realizan análisis de sentimiento alrededor de los temas especificados.
|
|
|
|
|
|
|
|
|
|
The key indicators you will look at is the volume of tweets on specific topics (hashtags) and sentiment, which is established using analytics tools that perform sentiment analysis around the specified topics.
|
|
|
|
|
Los pasos necesarios para crear este proyecto son los siguientes:
|
|
|
|
|
|
|
|
|
|
The steps necessary to create this project are as follows:
|
|
|
|
|
* Crea un centro de eventos para la entrada de transmisión, el cual recolectará los datos de Twitter
|
|
|
|
|
* Configura e inicia una aplicación cliente de Twitter, la cual llamará a las APIs de transmisión de Twitter
|
|
|
|
|
* Crea un job de Stream Analytics
|
|
|
|
|
* Especifica la entrada y query del job
|
|
|
|
|
* Crea un sink de salida y especifica la salida del job
|
|
|
|
|
* Inicia el job
|
|
|
|
|
|
|
|
|
|
* Create an event hub for streaming input, which will collect data from Twitter
|
|
|
|
|
* Configure and start a Twitter client application, which will call the Twitter Streaming APIs
|
|
|
|
|
* Create a Stream Analytics job
|
|
|
|
|
* Specify the job input and query
|
|
|
|
|
* Create an output sink and specify the job output
|
|
|
|
|
* Start the job
|
|
|
|
|
Para ver el proceso completo revisa la [documentación](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099).
|
|
|
|
|
|
|
|
|
|
To view the full process, check out the [documentation](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099).
|
|
|
|
|
### Scientific papers analysis
|
|
|
|
|
Let’s take another example of a project created by [Dmitry Soshnikov](http://soshnikov.com), one of the authors of this curriculum.
|
|
|
|
|
### Análisis de artículos científicos
|
|
|
|
|
|
|
|
|
|
Dmitry created a tool that analyses COVID papers. By reviewing this project, you will see how you can create a tool that extracts knowledge from scientific papers, gains insights and helps researchers navigate through large collections of papers in an efficient way.
|
|
|
|
|
Tomemos otro ejemplo de un proyecto creado por [Dmitry Soshnikov](http://soshnikov.com), uno de los autores de este curso.
|
|
|
|
|
|
|
|
|
|
Let's see the different steps used for this:
|
|
|
|
|
* Extracting and pre-processing information with [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
|
|
|
|
|
* Using [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) to parallelize the processing
|
|
|
|
|
* Storing and querying information with [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
|
|
|
|
|
* Create an interactive dashboard for data exploration and visualization using Power BI
|
|
|
|
|
Dmitry creó una herramienta que analiza artículos de COVID. Al revisar este proyecto, verás cómo puedes crear una herramienta que extraiga conocimiento de artículos científicos, obtenga conocimiento y ayude a los investigadores a navegar a través de grandes colecciones de artículos de una forma eficiente.
|
|
|
|
|
|
|
|
|
|
To see the full process, visit [Dmitry’s blog](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/).
|
|
|
|
|
Veamos los distintos pasos usados para esto:
|
|
|
|
|
|
|
|
|
|
As you can see, we can leverage Cloud services in many ways to perform Data Science.
|
|
|
|
|
## Footnote
|
|
|
|
|
* Extracción y pre-procesamiento de la información con [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
|
|
|
|
|
* Uso de [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) para paralelizar el procesamiento
|
|
|
|
|
* Almacén y consulta de la información con [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
|
|
|
|
|
* Crea un tablero interactivo para la exploración de datos y visualización usando Power BI
|
|
|
|
|
|
|
|
|
|
Sources:
|
|
|
|
|
Para ver el proceso completo, visita [Dmitry’s blog](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/).
|
|
|
|
|
|
|
|
|
|
Como puedes ver, podemos aprovechar los servicios en la Nube de muchas formas para realizar Ciencia de Datos.
|
|
|
|
|
|
|
|
|
|
## Nota al pie
|
|
|
|
|
|
|
|
|
|
Fuentes:
|
|
|
|
|
* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
|
|
|
|
|
* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
|
|
|
|
|
* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
|
|
|
|
|
|
|
|
|
|
## Post-Lecture Quiz
|
|
|
|
|
## Examen posterior a la lección
|
|
|
|
|
|
|
|
|
|
[Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/33)
|
|
|
|
|
[Examen posterior a la lección](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/33)
|
|
|
|
|
|
|
|
|
|
## Assignment
|
|
|
|
|
## Asignación
|
|
|
|
|
|
|
|
|
|
[Market Research](assignment.md)
|
|
|
|
|
[Investifación de mercado](../translations/assignment.es.md)
|
|
|
|
|