24 Sep

¿Qué es un Dato?

Un dato es una representación simbólica, objetiva y registrable de un hecho, característica o situación del mundo real. Puede expresarse mediante números, palabras, imágenes, sonidos o señales. Sin embargo, un dato no tiene valor por sí solo; necesita un contexto que le dé significado.

Tipos de Representación de Datos

  • Numéricos
  • Visuales
  • Auditivos
  • Binarios

La Importancia Fundamental de los Datos

Los datos son la base de todo sistema informático, científico, estadístico o empresarial. Sin ellos, no podríamos:

  • Calcular un promedio sin datos numéricos.
  • Tomar decisiones en una empresa sin registros de ventas.
  • Medir la temperatura sin sensores y números.

De Datos a Información: El Poder del Contexto

La relación fundamental es: Dato + Contexto = Información

La información es el resultado de procesar, estructurar e interpretar uno o más datos dentro de un contexto determinado. En esencia, los datos son la materia prima, y la información es el producto final.

Tipos de Presentación de la Información

  • Texto narrativo
  • Tabla
  • Gráfico
  • Dashboard

El Salto al Conocimiento

El conocimiento es el resultado de comprender, conectar y aplicar información. Representa un nivel superior: no solo interpretamos los datos, sino que los usamos para entender fenómenos complejos, tomar decisiones informadas o resolver problemas.

Tipos de Conocimiento

  • Conocimiento Explícito: Aquello que puede documentarse, explicarse y compartirse (ej: manuales, informes).
  • Conocimiento Implícito o Tácito: Surge de la experiencia, la intuición o el análisis profundo.

Proceso de Transformación: Del Dato al Conocimiento Aplicable

El objetivo principal es transformar los datos en información útil, y esa información en conocimiento aplicable.

Etapas Clave del Proceso

  1. Recolección: Obtener los datos (formularios, sensores, sistemas).
  2. Limpieza: Corregir errores y inconsistencias.
  3. Organización: Estructurar los datos en tablas.
  4. Análisis: Aplicar operaciones, comparar y detectar patrones.
  5. Visualización: Crear gráficos, tablas y dashboards.
  6. Conclusión y Acción: Tomar decisiones basadas en los hallazgos.

Clasificación de los Datos

Datos Cualitativos

Representan una categoría, cualidad o descripción. Ejemplos: Color: “rojo”, Género: “femenino”, Estado civil: “casado”.

  • Nominales: Sin orden lógico (ej: color, nacionalidad).
  • Ordinales: Con orden lógico (ej: bajo, medio, alto / secundario, terciario, universitario).

Datos Cuantitativos

Representan una cantidad numérica. Ejemplos: Edad: 21, Altura: 1,75 m, Ingresos: $120.000.

  • Discreto: Valores enteros y contables (ej: Hijos: 2).
  • Continuo: Valores decimales o fraccionarios (ej: Peso: 68,3 kg, Tiempo: 4,57 minutos).

Conceptos Fundamentales en el Manejo de Datos

Definiciones Clave

  • Variable: Característica observable de un objeto, persona o situación que puede tomar distintos valores.
  • Conjunto de Datos (Dataset): Colección organizada de datos, a menudo vinculados a variables comunes, dispuestos en tablas, bases de datos o archivos. Un dataset es una colección de datos en formato digital, lista para ser procesada, descargada o analizada, muy usado en proyectos de aprendizaje automático o estadísticas.
  • Base de Datos: Sistema estructurado para almacenar, organizar, consultar y actualizar conjuntos de datos.

Métricas y Indicadores

  • Métrica: Valor numérico que resume, mide o compara una característica o fenómeno. Permiten interpretar conjuntos de datos con mayor claridad y tomar decisiones basadas en hechos.
  • Gráfico de Datos: Representación visual de datos, útil para resumir, comparar y detectar patrones (ej: Gráfico de barras, Histograma, Gráfico de líneas, Gráfico de torta).
  • KPI (Key Performance Indicator): Indicador Clave de Desempeño. Una métrica específica que mide el avance hacia un objetivo determinado.
    • Características: Siempre medible y cuantificable, directamente relacionado con una meta, utilizado para evaluar resultados y rendimiento.
    • Ejemplos: Porcentaje de asistencia mensual, Promedio de satisfacción de los usuarios (escala 1 a 10).
  • OKR (Objectives and Key Results): Metodología para establecer metas claras y seguir su progreso a través de indicadores específicos.
    • Estructura: O (Objective): Qué queremos lograr (claro, ambicioso, inspirador). KR (Key Results): Cómo sabremos que lo logramos (resultados medibles).
    • Ejemplo: O: Mejorar la participación estudiantil en clase. KR1: Aumentar al 80% la entrega de tareas en fecha. KR2: Lograr que el 90% participe al menos una vez por clase. KR3: Aplicar al menos 2 encuestas de seguimiento en el cuatrimestre.
    • Diferencia con KPI: El OKR plantea un objetivo global con múltiples resultados medibles, mientras que el KPI es una métrica puntual que puede usarse dentro de un OKR.

Herramientas para la Gestión y el Estudio de Datos

Herramientas de Recolección

  • Encuestas
  • Observación directa
  • Entrevistas estructuradas o semiestructuradas
  • Registros automáticos
  • Fuentes secundarias
  • Crawlers y scrapers web

Herramientas de Análisis

  • Excel
  • Python
  • Scripts (Jupyter Notebooks)
  • SQL

Hojas de Cálculo

Herramientas informáticas diseñadas para organizar, analizar y manipular datos de forma tabular (ej: Excel, OpenOffice). Una celda puede contener texto, números, fechas y horas, valores booleanos o fórmulas.

Medidas de Tendencia Central

Media

Suma de todos los valores dividida por la cantidad de datos. Resume un conjunto de datos en un solo valor representativo.

Uso: Ideal cuando se necesita una idea general del valor típico, especialmente si los datos están distribuidos de forma equilibrada.

Mediana

Valor central de un conjunto de datos ordenados. El 50% de los valores están por debajo y el otro 50% por encima.

Uso: Representativo cuando los datos tienen valores extremos o asimetría, ya que no se ve afectada por ellos.

Moda

Valor o categoría que aparece con mayor frecuencia en un conjunto de datos.

Uso: Identificar el valor más común, especialmente útil para datos cualitativos o categóricos.

Medidas de Dispersión

Rango

Diferencia entre el valor máximo y el valor mínimo de un conjunto de datos. Indica la amplitud total de los datos.

Uso: Obtener una idea rápida de la variabilidad total y detectar posibles valores extremos.

Varianza

Promedio de los cuadrados de las diferencias entre cada valor y la media. Cuantifica la variabilidad total de los datos.

Uso: Análisis estadísticos avanzados y modelos predictivos; base para la desviación estándar.

Desviación Estándar

Raíz cuadrada de la varianza. Indica, en promedio, cuánto se alejan los valores de la media, en las mismas unidades que los datos.

Uso: Interpretar fácilmente la variabilidad y comparar dispersión entre conjuntos de datos con la misma escala.

Coeficiente de Variación

Medida de dispersión relativa (desviación estándar en relación con la media, usualmente como porcentaje). Mide la variabilidad en comparación con el valor promedio.

Uso: Comparar la dispersión de conjuntos de datos con medias muy diferentes o unidades distintas.

Análisis de Distribución de Datos

Cuartiles y Percentiles

  • Cuartiles: Dividen los datos ordenados en 4 partes iguales (Q1: 25%, Q2: 50% -mediana-, Q3: 75%).
    Uso: Entender la distribución y dispersión, analizar la posición relativa sin depender exclusivamente de promedios, especialmente con datos extremos o asimétricos.
  • Percentiles: Dividen los datos ordenados en 100 partes iguales (P90 = percentil 90 = supera el 90% de los datos).
    Uso: Identificar la posición relativa exacta de un valor, útil para grandes volúmenes de datos o análisis comparativos detallados.

Tipos de Gráficos para Visualización de Datos

Gráficos Comunes y sus Usos

  • Gráfico de Columnas (Vertical): Representa valores categóricos mediante columnas verticales.
    Objetivo: Comparar valores individuales entre distintas categorías.
    Cuándo elegirlo: Para comparar cantidades absolutas entre diferentes grupos.
  • Gráfico de Barras (Horizontal): Similar al de columnas, pero con barras horizontales.
    Objetivo: Comparar categorías, especialmente cuando los nombres son largos o hay muchas filas de datos.
    Cuándo elegirlo: Cuando los rótulos de las categorías son extensos.
  • Gráfico de Líneas: Une puntos de datos con líneas para mostrar una evolución en el tiempo.
    Objetivo: Observar tendencias, subidas, bajadas o patrones repetitivos.
    Cuándo elegirlo: Para datos secuenciales (fechas, meses, años).
  • Gráfico de Torta: Muestra las proporciones o porcentajes de un total.
    Objetivo: Visualizar cómo se reparte un total entre sus partes.
    Cuándo elegirlo: Cuando el total suma 100%.
  • Gráfico de Dispersión: Muestra pares de valores (X, Y) como puntos en un plano.
    Objetivo: Explorar si existe una correlación entre dos variables numéricas.
    Cuándo elegirlo: Cuando se quiere investigar la relación entre dos variables numéricas.

Ejemplo de Consulta SQL (Query)

Objetivo

Detectar qué categorías fueron más vendidas en el mes más reciente de datos.

SELECT
    categoria,
    SUM(cantidad * precio_unitario) AS total_facturado
FROM
    ventas
WHERE
    MONTH(fecha) = (
        SELECT MONTH(MAX(fecha)) FROM ventas
    )
GROUP BY
    categoria
ORDER BY
    total_facturado DESC
LIMIT 3;

Deja un comentario