You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/es/6-Data-Science-In-Wild/20-Real-World-Examples
leestott 0f1def896e
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago

README.md

Ciencia de Datos en el Mundo Real

 Sketchnote por (@sketchthedocs)
Ciencia de Datos en el Mundo Real - Sketchnote por @nitya

¡Estamos casi al final de este viaje de aprendizaje!

Comenzamos con definiciones de ciencia de datos y ética, exploramos diversas herramientas y técnicas para el análisis y la visualización de datos, revisamos el ciclo de vida de la ciencia de datos y analizamos cómo escalar y automatizar flujos de trabajo de ciencia de datos con servicios de computación en la nube. Entonces, probablemente te estés preguntando: "¿Cómo exactamente puedo aplicar todo este aprendizaje en contextos del mundo real?"

En esta lección, exploraremos aplicaciones reales de la ciencia de datos en la industria y profundizaremos en ejemplos específicos en los contextos de investigación, humanidades digitales y sostenibilidad. También veremos oportunidades para proyectos estudiantiles y concluiremos con recursos útiles para ayudarte a continuar tu viaje de aprendizaje.

Cuestionario Previo a la Clase

Cuestionario previo a la clase

Ciencia de Datos + Industria

Gracias a la democratización de la IA, los desarrolladores ahora encuentran más fácil diseñar e integrar decisiones impulsadas por IA y conocimientos basados en datos en experiencias de usuario y flujos de trabajo de desarrollo. Aquí hay algunos ejemplos de cómo la ciencia de datos se "aplica" a aplicaciones reales en la industria:

  • Google Flu Trends utilizó la ciencia de datos para correlacionar términos de búsqueda con tendencias de gripe. Aunque el enfoque tuvo fallas, generó conciencia sobre las posibilidades (y desafíos) de las predicciones de salud basadas en datos.

  • Predicciones de Rutas de UPS - explica cómo UPS utiliza la ciencia de datos y el aprendizaje automático para predecir rutas óptimas de entrega, teniendo en cuenta condiciones climáticas, patrones de tráfico, plazos de entrega y más.

  • Visualización de Rutas de Taxis en NYC - datos recopilados utilizando Leyes de Libertad de Información ayudaron a visualizar un día en la vida de los taxis de NYC, ayudándonos a entender cómo navegan por la ciudad, el dinero que generan y la duración de los viajes en un período de 24 horas.

  • Uber Data Science Workbench - utiliza datos (sobre ubicaciones de recogida y destino, duración de viajes, rutas preferidas, etc.) recopilados de millones de viajes diarios de Uber para construir una herramienta de análisis de datos que ayuda con precios, seguridad, detección de fraudes y decisiones de navegación.

  • Analítica Deportiva - se centra en analítica predictiva (análisis de equipos y jugadores - piensa en Moneyball - y gestión de fanáticos) y visualización de datos (tableros de equipos y fanáticos, juegos, etc.) con aplicaciones como búsqueda de talentos, apuestas deportivas y gestión de inventarios/recintos.

  • Ciencia de Datos en la Banca - destaca el valor de la ciencia de datos en la industria financiera con aplicaciones que van desde modelado de riesgos y detección de fraudes, hasta segmentación de clientes, predicción en tiempo real y sistemas de recomendación. La analítica predictiva también impulsa medidas críticas como puntuaciones de crédito.

  • Ciencia de Datos en la Salud - destaca aplicaciones como imágenes médicas (por ejemplo, MRI, Rayos X, Tomografía), genómica (secuenciación de ADN), desarrollo de medicamentos (evaluación de riesgos, predicción de éxito), analítica predictiva (cuidado de pacientes y logística de suministros), seguimiento y prevención de enfermedades, entre otros.

Aplicaciones de Ciencia de Datos en el Mundo Real Crédito de la Imagen: Data Flair: 6 Amazing Data Science Applications

La figura muestra otros dominios y ejemplos para aplicar técnicas de ciencia de datos. ¿Quieres explorar otras aplicaciones? Consulta la sección Revisión y Autoestudio a continuación.

Ciencia de Datos + Investigación

 Sketchnote por (@sketchthedocs)
Ciencia de Datos e Investigación - Sketchnote por @nitya

Aunque las aplicaciones del mundo real suelen centrarse en casos de uso industrial a gran escala, las aplicaciones y proyectos de investigación pueden ser útiles desde dos perspectivas:

  • oportunidades de innovación - explorar prototipos rápidos de conceptos avanzados y probar experiencias de usuario para aplicaciones de próxima generación.
  • desafíos de implementación - investigar posibles daños o consecuencias no deseadas de las tecnologías de ciencia de datos en contextos reales.

Para los estudiantes, estos proyectos de investigación pueden proporcionar oportunidades de aprendizaje y colaboración que mejoren su comprensión del tema y amplíen su conciencia e interacción con personas o equipos relevantes que trabajan en áreas de interés. Entonces, ¿cómo son los proyectos de investigación y cómo pueden tener impacto?

Veamos un ejemplo: el Estudio Gender Shades del MIT de Joy Buolamwini (MIT Media Labs) con un artículo de investigación destacado coautorado con Timnit Gebru (entonces en Microsoft Research) que se centró en:

  • Qué: El objetivo del proyecto de investigación era evaluar el sesgo presente en algoritmos y conjuntos de datos de análisis facial automatizado basado en género y tipo de piel.
  • Por qué: El análisis facial se utiliza en áreas como la aplicación de la ley, seguridad en aeropuertos, sistemas de contratación y más - contextos donde clasificaciones inexactas (por ejemplo, debido al sesgo) pueden causar daños económicos y sociales a individuos o grupos afectados. Comprender (y eliminar o mitigar) los sesgos es clave para la equidad en el uso.
  • Cómo: Los investigadores reconocieron que los puntos de referencia existentes utilizaban predominantemente sujetos de piel más clara y crearon un nuevo conjunto de datos (más de 1000 imágenes) que estaba más equilibrado por género y tipo de piel. El conjunto de datos se utilizó para evaluar la precisión de tres productos de clasificación de género (de Microsoft, IBM y Face++).

Los resultados mostraron que, aunque la precisión general de la clasificación era buena, había una diferencia notable en las tasas de error entre varios subgrupos, con errores de clasificación de género más altos para mujeres o personas con piel más oscura, lo que indicaba sesgo.

Resultados Clave: Generó conciencia de que la ciencia de datos necesita más conjuntos de datos representativos (subgrupos equilibrados) y más equipos inclusivos (antecedentes diversos) para reconocer y eliminar o mitigar dichos sesgos en las soluciones de IA desde etapas tempranas. Esfuerzos de investigación como este también son fundamentales para que muchas organizaciones definan principios y prácticas para una IA responsable que mejore la equidad en sus productos y procesos de IA.

¿Quieres aprender sobre esfuerzos de investigación relevantes en Microsoft?

Ciencia de Datos + Humanidades

 Sketchnote por (@sketchthedocs)
Ciencia de Datos y Humanidades Digitales - Sketchnote por @nitya

Las Humanidades Digitales se han definido como "una colección de prácticas y enfoques que combinan métodos computacionales con investigación humanística". Los proyectos de Stanford como "rebooting history" y "poetic thinking" ilustran la conexión entre Humanidades Digitales y Ciencia de Datos, enfatizando técnicas como análisis de redes, visualización de información, análisis espacial y de texto que pueden ayudarnos a revisar conjuntos de datos históricos y literarios para derivar nuevas perspectivas e ideas.

¿Quieres explorar y ampliar un proyecto en este espacio?

Consulta "Emily Dickinson and the Meter of Mood" - un excelente ejemplo de Jen Looper que pregunta cómo podemos usar la ciencia de datos para revisar poesía familiar y reevaluar su significado y las contribuciones de su autora en nuevos contextos. Por ejemplo, ¿podemos predecir la estación en la que se escribió un poema analizando su tono o sentimiento - y qué nos dice esto sobre el estado de ánimo de la autora durante el período relevante?

Para responder a esa pregunta, seguimos los pasos del ciclo de vida de la ciencia de datos:

  • Adquisición de Datos - para recopilar un conjunto de datos relevante para el análisis. Las opciones incluyen usar una API (por ejemplo, Poetry DB API) o extraer páginas web (por ejemplo, Project Gutenberg) utilizando herramientas como Scrapy.
  • Limpieza de Datos - explica cómo el texto puede ser formateado, sanitizado y simplificado utilizando herramientas básicas como Visual Studio Code y Microsoft Excel.
  • Análisis de Datos - explica cómo podemos importar el conjunto de datos en "Notebooks" para análisis utilizando paquetes de Python (como pandas, numpy y matplotlib) para organizar y visualizar los datos.
  • Análisis de Sentimientos - explica cómo podemos integrar servicios en la nube como Text Analytics, utilizando herramientas de bajo código como Power Automate para flujos de trabajo automatizados de procesamiento de datos.

Usando este flujo de trabajo, podemos explorar los impactos estacionales en el sentimiento de los poemas y ayudarnos a formar nuestras propias perspectivas sobre la autora. ¡Pruébalo tú mismo y luego amplía el notebook para hacer otras preguntas o visualizar los datos de nuevas maneras!

Puedes usar algunas de las herramientas en el kit de herramientas de Humanidades Digitales para seguir estas líneas de investigación.

Ciencia de Datos + Sostenibilidad

 Sketchnote por (@sketchthedocs)
Ciencia de Datos y Sostenibilidad - Sketchnote por @nitya

La Agenda 2030 para el Desarrollo Sostenible - adoptada por todos los miembros de las Naciones Unidas en 2015 - identifica 17 objetivos, incluyendo aquellos que se centran en Proteger el Planeta de la degradación y el impacto del cambio climático. La iniciativa de Sostenibilidad de Microsoft apoya estos objetivos explorando formas en que las soluciones tecnológicas pueden respaldar y construir futuros más sostenibles con un enfoque en 4 metas: ser carbono negativo, agua positiva, cero residuos y biodiverso para 2030.

Abordar estos desafíos de manera escalable y oportuna requiere pensamiento a escala de nube y grandes volúmenes de datos. La iniciativa Planetary Computer proporciona 4 componentes para ayudar a los científicos de datos y desarrolladores en este esfuerzo:

  • Catálogo de Datos - con petabytes de datos de sistemas terrestres (gratuitos y alojados en Azure).

  • API Planetaria - para ayudar a los usuarios a buscar datos relevantes en espacio y tiempo.

  • Hub - entorno gestionado para que los científicos procesen conjuntos de datos geoespaciales masivos.

  • Aplicaciones - muestran casos de uso y herramientas para obtener conocimientos sobre sostenibilidad. El Proyecto Planetary Computer está actualmente en vista previa (a partir de septiembre de 2021) - aquí tienes cómo puedes comenzar a contribuir a soluciones de sostenibilidad utilizando ciencia de datos.

  • Solicita acceso para empezar a explorar y conectarte con otros.

  • Explora la documentación para entender los conjuntos de datos y APIs compatibles.

  • Explora aplicaciones como Ecosystem Monitoring para inspirarte en ideas de aplicaciones.

Piensa en cómo puedes usar la visualización de datos para exponer o amplificar ideas relevantes en áreas como el cambio climático y la deforestación. O reflexiona sobre cómo los conocimientos obtenidos pueden ser utilizados para crear nuevas experiencias de usuario que motiven cambios de comportamiento hacia una vida más sostenible.

Ciencia de Datos + Estudiantes

Hemos hablado sobre aplicaciones reales en la industria y la investigación, y explorado ejemplos de aplicaciones de ciencia de datos en humanidades digitales y sostenibilidad. Entonces, ¿cómo puedes desarrollar tus habilidades y compartir tu experiencia como principiante en ciencia de datos?

Aquí tienes algunos ejemplos de proyectos estudiantiles de ciencia de datos para inspirarte.

🚀 Desafío

Busca artículos que recomienden proyectos de ciencia de datos para principiantes - como estas 50 áreas temáticas o estas 21 ideas de proyectos o estos 16 proyectos con código fuente que puedes descomponer y adaptar. Y no olvides escribir en tu blog sobre tus aprendizajes y compartir tus ideas con todos nosotros.

Cuestionario Post-Clase

Cuestionario post-clase

Revisión y Autoestudio

¿Quieres explorar más casos de uso? Aquí tienes algunos artículos relevantes:

Tarea

Explora un conjunto de datos de Planetary Computer


Descargo de responsabilidad:
Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Aunque nos esforzamos por garantizar la precisión, tenga en cuenta que las traducciones automatizadas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.