12 Jun

Conceptos Fundamentales de Almacenes de Datos

1. ¿Qué es un Almacén de Datos?

Los almacenes de datos son un conjunto de herramientas que nos ayudan en el análisis de información para la toma de decisiones. Sus principales características son:

  • Orientado a la información.
  • Integrado.
  • Variante en el tiempo.
  • No volátil.

2. Características Principales de un Almacén de Datos

A continuación, se explican las cuatro características principales de un almacén de datos:

  • Orientado a la información:
    • Se centra en el modelado y el análisis de la información para los tomadores de decisiones.
    • Su diseño está enfocado en responder eficientemente a consultas estratégicas.
    • Excluye la información de datos que no son útiles.
  • Integrado:
    • Se construye a partir de la integración de múltiples fuentes de datos.
  • Variante en el tiempo:
    • Contiene datos relativos a un determinado periodo de tiempo, los cuales se incrementan periódicamente.
  • No volátil:
    • Los datos no suelen ser actualizados o modificados; solo se insertan nuevos datos.

3. ¿Cuáles son los Componentes Principales de un Almacén de Datos?

Los componentes principales de un almacén de datos son:

  • Sistema ETL (Extraction, Transformation, Load).
  • Repositorio propio de datos.
  • Interfaces y gestores de consulta.
  • Sistemas de integridad y seguridad.

Modelado Multidimensional en Almacenes de Datos

4. Partes de un Modelo Multidimensional

Las partes de un modelo multidimensional son: Hechos, Dimensiones, Actividad, Atributos de Hecho y Atributos de Dimensión.

5. ¿Qué es un Hecho en un Modelo Multidimensional de Almacenes de Datos?

Es la representación de la actividad a analizar.

6. ¿Qué es una Dimensión en un Modelo Multidimensional de un Almacén de Datos?

Son los puntos que caracterizan la actividad a analizar.

7. ¿Qué es un Atributo en un Modelo Multidimensional?

Es la información que representa cada dimensión.

8. ¿Qué es una Medida en un Modelo Multidimensional?

Es un conjunto de indicadores que representan la información relevante.

Data Marts y Herramientas de Procesamiento de Datos

9. ¿Qué es un Data Mart?

Es un subconjunto de datos de toda la empresa que es de valor para un grupo específico de usuarios. Ejemplo: Data Mart de Marketing.

10. ¿Qué son las Herramientas OLAP?

OLAP (Online Analytical Processing) es una solución en el campo de la llamada inteligencia empresarial (Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos.

11. ¿Qué son las Herramientas OLTP?

OLTP (Online Transaction Processing) se refiere a los sistemas transaccionales tradicionales. Son inapropiados para el soporte a las decisiones; suelen realizar tareas repetitivas muy bien estructuradas e implican transacciones cortas y, generalmente, actualizaciones.

12. ¿Cuáles son las Diferencias entre OLAP y OLTP?

Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transacción genera un proceso atómico que puede involucrar operaciones de inserción, modificación y borrado de datos. Los sistemas OLAP son bases de datos orientadas al procesamiento analítico. Este análisis suele implicar, generalmente, la lectura de grandes cantidades de datos para extraer información útil.

13. Instrucciones Drill y Roll en OLAP

  • Drill: Permite agregar un nuevo criterio de agrupación en el análisis, profundizando en los datos.
  • Roll: Permite eliminar un criterio de agrupación en el análisis, agregando los grupos actuales (resumiendo o consolidando datos).

14. Herramientas Slice & Dice y Pivot en OLAP

  • Slice & Dice: Permite seleccionar y proyectar datos en el informe, creando subconjuntos de información.
  • Pivot: Permite la reorientación de las dimensiones en el informe, cambiando la perspectiva de los datos.

15. Características de las Herramientas OLAP

  1. Ofrecen una visión multidimensional de los datos.
  2. No imponen restricción sobre el número de dimensiones.
  3. Permiten definir de forma flexible las dimensiones.
  4. Ofrecen operadores intuitivos de manipulación.
  5. Son transparentes al tipo de tecnología que soporta el almacén de datos.

16. ¿Qué son los Sistemas ROLAP y MOLAP?

  • ROLAP: Se implementan sobre tecnología relacional, pero disponen de facilidades para mejorar el rendimiento.
  • MOLAP: Disponen de estructuras de almacenamiento específicas y técnicas de compactación de datos que favorecen el rendimiento del almacén.

Sistemas ETL y Diseño de Almacenes de Datos

17. ¿Qué son los Sistemas ETL?

ETL (Extracción, Transformación y Carga) es el sistema encargado del mantenimiento del almacén de datos.

18. ¿En qué Consiste la Extracción en los Sistemas ETL?

Consiste en identificar los datos que han cambiado, extraer los datos, obtener agregados y mantener los metadatos.

19. ¿En qué Consiste la Transformación en los Sistemas ETL?

Consiste en la limpieza y transformación de datos, integración de datos, creación de claves, obtención de agregados y mantenimiento de metadatos.

20. ¿En qué Consiste la Carga en un Sistema ETL?

Consiste en la carga, indexación, obtención de datos agregados, realización de pruebas de calidad de la carga, gestión de errores y mantenimiento de metadatos.

21. Fases del Diseño de un Almacén de Datos

  1. Recogida y análisis de requisitos.
  2. Diseño conceptual.
  3. Diseño lógico específico.
  4. Diseño físico.
  5. Implementación.

22. Pasos para el Diseño de un Almacén de Datos

Los cuatro pasos a seguir para el diseño de un almacén de datos son:

  • Paso 1: Elegir un proceso de la organización para modelar.
  • Paso 2: Decidir el nivel de detalle de representación del proceso.
  • Paso 3: Identificar las dimensiones que caracterizan el proceso.
  • Paso 4: Decidir la información a almacenar sobre el proceso.

23. Paso 1: Elegir un Proceso de la Organización

El proceso es una actividad de la organización soportada por un sistema OLTP del cual se puede extraer información con el fin de construir el almacén de datos.

24. Paso 2: Decidir el Nivel de Detalle

Es el nivel de detalle al que se desea almacenar información sobre la actividad a modelar.

25. Paso 3: Identificar las Dimensiones

Se identifican las dimensiones que caracterizan la actividad al nivel de detalle elegido. De cada dimensión se elegirán los atributos relevantes para el análisis de la actividad.

26. Paso 4: Decidir la Información a Almacenar

Los hechos son la información sobre la actividad que se desea almacenar en cada tupla de la tabla de hechos y que será el objeto de análisis.

Deja un comentario