Capítulo 1. Introducción a la Ciencia de Datos

 

Fundamentos de Ciencia de Datos Aplicada

Capítulo 1. Introducción a la Ciencia de Datos

1. Introducción

La Ciencia de Datos se ha consolidado en la última década como una de las disciplinas más influyentes en el ámbito académico, empresarial y científico. Su relevancia se debe a la creciente disponibilidad de grandes volúmenes de datos, así como a la necesidad de transformar dichos datos en conocimiento útil y accionable. Según Provost y Fawcett (2013), la ciencia de datos constituye la intersección de múltiples áreas: estadística, aprendizaje automático, ingeniería de software, gestión de bases de datos y conocimiento del dominio específico.

En un contexto caracterizado por la digitalización de procesos, la ciencia de datos no debe entenderse únicamente como un conjunto de algoritmos predictivos, sino como un marco metodológico integral que abarca la captura, procesamiento, análisis e interpretación de datos. Davenport y Patil (2012) ya advertían que el científico de datos debía combinar habilidades técnicas con una sólida capacidad analítica y de comunicación, de modo que pudiera traducir los hallazgos en valor estratégico para la organización.

Este capítulo tiene como propósito ofrecer una visión comprehensiva de la ciencia de datos, resaltando su relación con disciplinas afines, el ciclo metodológico más adoptado (CRISP-DM), y el ecosistema tecnológico predominante, con énfasis en Python como lenguaje estándar de facto en la práctica contemporánea. Asimismo, se incluirá un ejercicio introductorio que permitirá al lector iniciar la configuración de su entorno de trabajo.


2. Conceptualización de la Ciencia de Datos

Definir con precisión la ciencia de datos resulta un desafío, dado su carácter interdisciplinario y su rápida evolución. Sin embargo, de manera general puede considerarse como la disciplina orientada a extraer conocimiento y generar modelos predictivos o descriptivos a partir de datos estructurados y no estructurados, empleando técnicas estadísticas, computacionales y de inteligencia artificial (Schutt & O’Neil, 2014).

La ciencia de datos se distingue por su orientación a problemas prácticos y por la combinación de competencias que integra. Mientras la estadística se centra en la inferencia y validación de hipótesis, y la informática en la optimización de algoritmos y estructuras de datos, la ciencia de datos busca operacionalizar esas herramientas en contextos organizacionales complejos, donde la toma de decisiones debe estar sustentada en evidencia empírica obtenida de los datos.

En términos pragmáticos, puede afirmarse que la ciencia de datos constituye una extensión aplicada de la estadística y la informática al servicio de problemas contemporáneos como la predicción de demanda, la detección de anomalías en sistemas industriales, la optimización de rutas logísticas o el análisis de comportamiento de clientes en plataformas digitales (Cao, 2017).


3. Diferencias con disciplinas relacionadas

Es frecuente la confusión entre la ciencia de datos y otras disciplinas afines como la estadística, el Business Intelligence (BI) o el aprendizaje automático. A continuación, se explican sus diferencias y complementariedades:

  1. Estadística: se centra en la inferencia sobre poblaciones a partir de muestras, en la estimación de parámetros y en la validación de hipótesis. Aunque la estadística provee las bases metodológicas de gran parte de los modelos empleados en ciencia de datos, esta última amplía su alcance al integrar prácticas de ingeniería de software y técnicas de procesamiento masivo de datos (James et al., 2021).

  2. Business Intelligence (BI): se ocupa principalmente del análisis descriptivo de datos históricos, orientado a responder preguntas sobre lo que ocurrió y por qué ocurrió. Herramientas como dashboards e informes interactivos son características de este campo. La ciencia de datos, en contraste, va más allá al incorporar modelos predictivos y prescriptivos que buscan anticipar escenarios futuros y recomendar acciones (Chen, Chiang & Storey, 2012).

  3. Aprendizaje Automático (Machine Learning, ML): consiste en un conjunto de técnicas algorítmicas que permiten a las máquinas aprender patrones a partir de datos sin ser programadas explícitamente. El ML constituye una subdisciplina de la inteligencia artificial, y es uno de los pilares de la ciencia de datos, pero no la agota. La ciencia de datos también incluye la preparación de datos, el diseño de pipelines, la evaluación de modelos y la comunicación de resultados (Kelleher, Namee & D’Arcy, 2015).

De este modo, puede afirmarse que la ciencia de datos actúa como un marco integrador que absorbe elementos de estas disciplinas y los articula en un flujo de trabajo completo, desde la adquisición de datos hasta la entrega de productos analíticos listos para su implementación en sistemas organizacionales.


4. El ciclo de vida de un proyecto de datos: CRISP-DM

Una de las metodologías más aceptadas en la práctica profesional es CRISP-DM (Cross-Industry Standard Process for Data Mining), propuesta en 1996 como un estándar para el desarrollo de proyectos de minería de datos. A pesar de su antigüedad, sigue siendo vigente debido a su enfoque iterativo y orientado al negocio (Chapman et al., 2000).

El ciclo CRISP-DM consta de seis fases:

  1. Comprensión del negocio: definición de objetivos organizacionales y de los problemas que se busca resolver mediante los datos.

  2. Comprensión de los datos: exploración inicial, identificación de calidad, sesgos y limitaciones.

  3. Preparación de datos: limpieza, transformación y construcción de datasets listos para el modelado.

  4. Modelado: selección y entrenamiento de algoritmos.

  5. Evaluación: análisis de desempeño y validación frente a los objetivos de negocio.

  6. Despliegue: implementación de los resultados en entornos productivos y monitoreo.

Lo fundamental de este enfoque es que no se trata de un proceso lineal, sino de un ciclo en el cual los hallazgos en fases posteriores retroalimentan las etapas iniciales. Este carácter iterativo refleja la naturaleza experimental y adaptativa de la ciencia de datos.


📚 Referencias (Parte 1)

  • Cao, L. (2017). Data Science: A Comprehensive Overview. ACM Computing Surveys, 50(3), 43.

  • Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP-DM 1.0: Step-by-step data mining guide. SPSS.

  • Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business Intelligence and Analytics: From Big Data to Big Impact. MIS Quarterly, 36(4), 1165–1188.

  • Davenport, T. H., & Patil, D. J. (2012). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review, 90(10), 70–76.

  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning (2nd ed.). Springer.

  • Kelleher, J. D., Namee, B., & D’Arcy, A. (2015). Fundamentals of Machine Learning for Predictive Data Analytics. MIT Press.

  • Provost, F., & Fawcett, T. (2013). Data Science for Business. O’Reilly Media.

  • Schutt, R., & O’Neil, C. (2014). Doing Data Science: Straight Talk from the Frontline. O’Reilly Media.

No hay comentarios:

Con la tecnología de Blogger.