FdA #44 - Desentrañando la Ciencia de Datos: Una Guía para Entender Algunos de sus Términos
Sobre cómo el análisis y la analítica transforman los datos en decisiones estratégicas.
"El conocimiento nunca existe en su totalidad concentrado en una sola mente, sino que existe en forma dispersa, como los bits y piezas de información, en muchas mentes." - Friedrich Hayek
Esta cita puede aplicarse a la ciencia de datos en el sentido de que la información y el conocimiento están dispersos en vastas cantidades de datos y es tarea de los científicos y analistas de datos recopilar, procesar y analizar estos "bits y piezas de información" para obtener un entendimiento integral y significativo, similar a cómo Hayek describe el conocimiento en la sociedad.
Empieza a dominar la Ciencia de Datos
Actualmente es fácil ver y oír a diario términos relacionados con la ciencia de datos: Inteligencia Artificial (IA), Análisis de datos, Machine Learning (ML), Business Intellicenge (BI), analítica de datos, etc.
Estos términos a veces pueden ser confusos y según cómo se presenten quizá no quede claro su significado.
Por si fuera poco, muchas veces se utilizan en el contexto equivocado.
Análisis vs Analítica
Tener clara la diferencia entre estos dos términos es la base para empezar a ganar claridad.
El análisis consiste en estudiar un gran conjunto de datos dividido en partes más pequeñas y cómo cada una de estas partes se relaciona con las demás. El análisis se hace siempre sobre datos del pasado, con el objetivo de intentar explicar por qué motivo ha sucedido un evento.
La analítica, en cambio, explora posibles eventos futuros a partir de la información que hemos obtenido a partir del análisis, intentando buscar patrones.
El análisis extrae información de datos del pasado, la analítica explota esta información para proyectar eventos futuros.
También debes saber que tanto el análisis como la analítica pueden ser cualitativos o cuantitativos:
Análisis cualitativo: sirve para explicar por qué se ha llegado a un determinado resultado.
Análisis cuantitativo: trabajo con datos pasados para explicar algo relevante de los datos más recientes.
Analítica cualitativa: combina la experiencia y la intuición con el análisis para planear las próximas acciones a tomar.
Analítica cuantitativa: uso de fórmulas y algoritmos sobre datos recogidos durante el análisis.
Finalmente, es importante tener en cuenta que es muy habitual que el término “analítica” se use para referirse a la combinación de análisis y analítica.
Una vez se entiende la diferencia entre análisis y analítica, podemos subir un escalón y ver en qué consisten diferentes disciplinas relacionadas con estos términos.
Ciencia de datos
Es una disciplina con muchas ramas que depende de la disponibilidad de los datos. La analítica de datos es el objeto principal de la ciencia de datos, mediante herramientas matemáticas, estadísticas y de programación.
¿Pero qué son los datos? Pues podemos decir que son información almacenada en formato digital. Es la base para poder aplicar el análisis y toma de decisiones. Existen dos tipos de datos:
Tradicionales: datos en forma de tablas o valores estructurados en bases de datos que se pueden gestionar desde un ordenador.
Big Data: cantidad de datos relativamente elevada tanto en volumen como en diversidad de formatos. Puede contener datos estructurados, semi-estructurados o sin ninguna estructura. Normalmente el volumen es tan grande que se distribuye entre varios ordenadores.
Según el tipo de datos del que se disponga su procesado va a variar. Los datos tradicionales los podemos trabajar mediante la disciplina de Business Intelligence.
Cuando hablamos de Big Data, su procesado suele recaer en la disciplina del Machine Learning.
Business Intelligence
Es el proceso de analizar y reportar datos históricos para preparar informes estratégicos y decisiones de negocio tácticas. El objetivo principal es explicar eventos pasados usando datos de negocio. Es el paso preliminar a la analítica predictiva.
BI es una disciplina que forma parte de la ciencia de datos. Primero se analizan datos históricos y se extrae conocimiento, normalmente mediante reportes con gráficos o la creación de paneles o dashboards.
Machine Learning
Es un subcampo de la Inteligencia Artificial y consiste en la habilidad de las máquinas para predecir resultados sin ser programadas de forma explícita para ello.
Básicamente consiste en crear e implementar algoritmos que permiten a las máquinas recibir datos y usarlos para hacer predicciones, analizar patrones o hacer recomendaciones.
Un algoritmo de ML es un proceso de prueba-error donde cada prueba es, al menos, tan buena o mejor que la anterior. Entrena con datos, trabaja con un modelo que intenta optimizar, tiene un objetivo que cumplir y utiliza un algoritmo de optimización para las correcciones iterativas. Una de las técnicas más conocidas que utiliza es el Deep Learning.
Inteligencia Artificial
Trata de simular el conocimiento y toma de decisiones humanas mediante ordenadores. Es una rama de la ciencia de datos que busca desarrollar sistemas capaces de realizar tareas que normalmente requieren inteligencia humana. Estas tareas incluyen, entre otras, el reconocimiento de voz, el reconocimiento de imágenes, la toma de decisiones y la traducción de idiomas.
Tenemos muchas formas de clasificar la Inteligencia Artificial, pero quizá la principal es esta:
IA Débil o Estrecha: Diseñada para realizar tareas específicas, como asistentes virtuales o sistemas de recomendación. Estas IA están programadas para realizar una tarea muy particular y no tienen capacidades fuera de su ámbito específico.
IA Fuerte o General: En teoría, este tipo de IA tiene la capacidad de realizar cualquier tarea cognitiva que un ser humano puede realizar. Aunque aún estamos lejos de alcanzar una IA fuerte, es el objetivo a largo plazo de muchos investigadores.
El Machine Learning es una disciplina ampliamente usada dentro de la rama de la IA.
Roles profesionales
En los últimos años han aparecido algunos roles nuevos relacionados con estos campos, mientras que otros simplemente se han renombrado para adaptarse a los nuevos tiempos. Con las descripciones vistas, ya no será tan complicado entender las posibles diferencias entre ellos.
En el campo del análisis de datos tradicionales o Big Data podemos encontrar:
Arquitecto de datos: se encarga principalmente del diseño de las bases de datos desde cero, teniendo que establecer la forma en la que los datos serán recuperados, procesados y consumidos.
Ingeniero de datos: es quien se encarga de procesar y limpiar los datos en crudo obtenidos para que queden listos para ser analizados.
Administrador de base de datos: gestiona y controla las bases de datos tradicionales.
En el campo concreto del Business Intelligence podemos encontrar algunos roles específicos de esta disciplina:
Analista/Consultor BI: se encarga de realizar análisis y reportes de datos históricos.
Desarrollador BI: programador que, mediante diferentes lenguajes y herramientas, desarrolla análisis y reportes con un alto grado de personalización.
Una vez todos los datos históricos están bien curados, tenemos varios roles que se encargarán de facilitar la extracción de conocimiento táctico:
Científico de datos: usa métodos estadísticos tradicionales o técnicas no convencionales de ML para hacer predicciones o proyecciones a partir de los datos analizados previamente.
Analista de datos: se encarga del desarrollo de análisis de tipo más avanzado que requiere amplio conocimiento de herramientas de BI y SQL.
Ingeniero de ML: su principal objetivo es buscar formas de aplicar modelos computacionales actuales en el campo de ML para solucionar tareas complejas de ciencia de datos y negocio.
En resumen
A lo largo de este post, hemos explorado diversas disciplinas y roles profesionales relacionados con la ciencia de datos. La comprensión clara de términos como análisis, analítica, Inteligencia Artificial y Machine Learning es esencial para aprovechar al máximo el potencial de los datos en la toma de decisiones.
Es fundamental reconocer que la Inteligencia Artificial y sus subcampos, como el ML, están transformando significativamente cómo abordamos y resolvemos problemas complejos. La IA, con sus capacidades para simular tareas humanas, ofrece oportunidades sin precedentes para innovar y mejorar procesos en diversas industrias.
En resumen, el entendimiento profundo y la correcta aplicación de estos conceptos y roles no solo facilitan la extracción de conocimiento táctico, sino que también permiten una toma de decisiones más informada y estratégica en el entorno empresarial actual.
Recomendaciones de la Semana
🎧️ Podcasts
Hoy vengo a recomendar un nuevo podcast que llevo escuchando desde hace poco y que, si te interesa lo más mínimo la relación entre ciencia, religión y filosofía, te va a encantar. Se trata de Por el amor de Higgs, con el científico agnóstico Javier Santaolalla y el filósofo creyente Enric F. Gel.
Con la IA habrá más periodistas, no menos. El impacto de la IA en la cultura, la creatividad y el periodismo. Transparencia y límites éticos de la inteligencia artificial y el periodismo.
📚️ Lecturas
La búsqueda de la verdad es fundamental para evitar la tiranía y promover la justicia, aunque encontrarla es complicado y está plagado de desafíos. La verdad no es absoluta ni fácilmente accesible, ya que la ciencia y la filosofía han mostrado que solo podemos aspirar a teorías verosímiles y perspectivas parciales.
Reflexión sobre la insignificancia del ser humano en el vasto universo y cómo, a pesar de nuestra naturaleza minúscula, hemos logrado convertirnos en la especie dominante.
Buenas aclaraciones Pol, al final son términos que si uno no esta dentro del mundillo de ciencia de datos es fácil que se confundan.
Es un mundo cada vez más grande e interesante!!
Saludos!
Gracias por la divulgación y en particular por la referencia.