11 Mar

Segmentación con K-medias (Clustering)

La segmentación con K-medias es una técnica que genera centroides, los cuales definen la pertenencia de los datos a diferentes segmentos o clústeres. Una segmentación agrupa casos similares, donde cada grupo comparte características comunes, diferenciándose de los demás. Un ejemplo práctico es el análisis de compras en un evento como CyberDay en Falabella. Se puede identificar grupos de clientes basándose en sus compras, asociando cada transacción con el RUT del cliente (por eso se solicita en caja si no se paga con la tarjeta CMR, que lo asocia automáticamente). Cuantas más variables se utilicen en la descripción, menos representativos serán los individuos dentro de cada segmento, pero se podrán generar más segmentos. Una menor distancia entre los grupos y sus centroides indica una mejor calidad del clúster, reflejando una mayor similitud en las características de los miembros. Esta segmentación permite implementar estrategias de marketing diferenciadas para cada grupo, según sus particularidades.

Reglas de Asociación

El análisis de asociación busca examinar el comportamiento de diferentes conjuntos de datos. Se analiza la frecuencia (usando el soporte, que indica cuántas veces ocurre un evento en relación con el total) y la causalidad. Los indicadores clave son:

  • Soporte: Indica la frecuencia con la que aparece una regla en el total de transacciones.
  • Confianza: Representa la probabilidad de que se adquiera un producto A, dado que se compró un producto B.
  • Lift: Mide la fuerza de la asociación. Un valor de Lift mayor que 1 indica que la ocurrencia de A y B juntos es más probable de lo que se esperaría si fueran independientes. Cuanto mayor sea el Lift, más fuerte es la asociación.

Clasificación con Árboles de Decisión

Los árboles de decisión son una herramienta para clasificar datos. Se les proporciona un conjunto de variables, incluyendo la «etiqueta» o categoría que se desea clasificar. Durante la fase de entrenamiento, el árbol se construye utilizando probabilidades basadas en las variables proporcionadas, generando una descripción o predicción de la etiqueta. Existen dos tipos principales, diferenciados por su tipo de ramificación:

  • Binario: Produce dos resultados posibles.
  • N-Ways (Multivía): Genera múltiples ramificaciones.

Aplicaciones y Características de los Árboles de Decisión

Los árboles de decisión sirven tanto para predecir como para clasificar. La predicción permite anticipar eventos futuros, mientras que la clasificación segmenta datos, tanto presentes como futuros, identificando la pertenencia a grupos específicos. La predicción se realiza mediante regresiones, y la clasificación, mediante los propios árboles. El árbol muestra, a través de sus divisiones, las probabilidades relevantes. Para predecir, es necesario entrenar el modelo, estableciendo previamente «marcas» o «etiquetas» que representen la categoría a predecir o clasificar. Esta etiqueta es fundamental, ya que proporciona la información necesaria para el proceso. Las características clave de los árboles de decisión son:

  1. Ranking de observaciones: Permiten crear una clasificación de las observaciones según su grado de pertenencia a una clase (función de pertenencia).
  2. Asignación de probabilidad: Asignan una probabilidad a cada observación según su intensidad de pertenencia a una clase.
  3. Descripción del camino: Describen las relaciones históricas entre las variables y las clases de la variable objetivo, mostrando el camino para la pertenencia a cada clase.
  4. Clasificación de nuevas observaciones: Permiten clasificar nuevas observaciones basándose en las reglas históricas (predicción).
  5. Estimación de valores numéricos: Permiten estimar valores numéricos, no solo clases (cuando la variable dependiente es continua).
  6. Selección automática de variables: Seleccionan automáticamente las variables más relevantes para clasificar los datos en grupos homogéneos.
  7. Orden de importancia de variables: Ordenan las variables explicativas según su importancia, presentándolas en el árbol de forma descendente.
  8. Comprensión de la pertenencia a una clase (Caja abierta): Permiten entender por qué una observación pertenece a una clase específica.
  9. Reglas de decisión en lenguaje humano: Presentan reglas de decisión en un formato comprensible, que explican la separación de los grupos.

Sistemas de Recomendación

Los sistemas de recomendación utilizan información, generalmente histórica, para ofrecer sugerencias futuras. Son sistemas dinámicos que se actualizan continuamente con cada interacción del usuario. Características principales:

  • Se basan en información histórica.
  • Son dinámicos.
  • Ofrecen sugerencias a futuro.
  • Pueden aplicar técnicas de cross-selling (venta cruzada) y up-selling (venta adicional).

Tipos de Sistemas de Recomendación

  1. Basados en popularidad: Recomiendan los productos más vistos o comprados, basándose únicamente en la frecuencia. Es el tipo más simple.
  2. Basados en características: Utilizan las características de los usuarios (requiriendo su identificación) y su comportamiento histórico, ofreciendo un mayor grado de personalización.

Diseño de Investigación

Un diseño de investigación efectivo sigue estos pasos:

  1. Definir la información necesaria.
  2. Planear las fases de la investigación: exploratoria, descriptiva (concluyente) y causal.
  3. Especificar el plan de medición.
  4. Construir el cuestionario o instrumento de recolección de datos.
  5. Diseñar el proceso de muestreo.
  6. Crear un plan de análisis de datos.

Deja un comentario