Tipologia de respondentes - Parte 3: classificação K-Means

I – O que é a classificação K-means?

O agrupamento K-means é um método de agrupamento baseado em partição, onde o número de clusters (k) que queremos obter é especificado antecipadamente. O algoritmo então agrupa as observações em torno de centros calculados iterativamente.

No algoritmo K-means, uma iteração corresponde a várias etapas:

Agrupe os indivíduos em grupos com base na proximidade dos centros.
Recalcule os centros de cluster com base nos indivíduos atribuídos.
Repita esses dois passos até que os agrupamentos não mudem mais (os centros estejam estáveis).

Diferentemente do agrupamento hierárquico ascendente (CHA) e do agrupamento hierárquico descendente (CHD), o K-means não constrói uma estrutura hierárquica, mas busca minimizar a variância intracluster (ou seja, minimizar a diferença dentro dos grupos) enquanto maximiza a variância intercluster (ou seja, maximizar a diferença entre os grupos). Dessa forma, a análise otimiza a posição dos centros dos clusters para torná-los o mais homogêneos possível entre si e o mais heterogêneos possível entre eles.

N.B.: A posição dos centros do cluster é uma referência que indica a média de indivíduos pertencentes a um cluster.

III – Interpretação dos resultados

Vários elementos devem ser analisados.

Primeiro, a variância intracluster , que é um indicador da homogeneidade (=similaridade) observada dentro dos clusters. Um baixo nível de variância intracluster indica que as observações são homogêneas dentro de cada cluster.
Depois, a distância entre os clusters nos permite ver quão distintos os segmentos são . Em marketing, isso ajuda a criar perfis bem diferenciados, como clientes engajados e clientes casuais.

Além desses indicadores globais, o objetivo continua sendo analisar as características associadas a cada um dos clusters , para obter insights úteis. Para fazer isso, devemos tentar observar como as principais variáveis influenciam a participação em um cluster ou outro.
Exemplos de aplicação: Divida uma base de clientes com base em seu comportamento (por exemplo, compras, preferências, idade, etc.) em 2 grupos: “Clientes fiéis” vs. “Compradores ocasionais”.

IV – CHA, CHD, K-means: Como escolher?

Essas três classificações se distinguem principalmente por sua abordagem e aplicação.

A Classificação Hierárquica Ascendente (CHA) é, portanto, ideal para análises exploratórias nas quais buscamos visualizar agrupamentos naturais. Este método de análise é recomendado quando o número de clusters é desconhecido ou para pequenos conjuntos de dados, pois é limitado no número de observações processadas.

A Classificação Hierárquica Descendente (CHD) fornece controle sobre a divisão de grupos e é adequado para dados de pequeno a médio porte. Assim como acontece com o CHA, o desempenho diminui com grandes conjuntos de dados.

A Classificação K-means, por outro lado, é mais adequado para grandes bancos de dados com um número pré-definido de clusters e para objetivos específicos, como segmentação de clientes ou análise de satisfação. Este é o algoritmo mais famoso em clusterização. Geralmente converge muito rapidamente. Não é incomum que ele atinja a convergência após 10 iterações, mesmo com muitos pontos.

Esses três métodos têm em comum a capacidade de criar grupos homogêneos. No entanto, CHA e CHD se distinguem por sua abordagem hierárquica, fornecendo flexibilidade para analisar diferentes níveis de agrupamento, mas podem perder eficiência em grandes conjuntos de dados. Por outro lado, a K-means, não hierárquico, é rápido e requer a fixação antecipada do número de grupos. A escolha, portanto, depende das necessidades específicas do projeto, como o tamanho dos dados, a importância da hierarquia ou a velocidade de execução.

É a sua vez 😉!

Texto traduzido e adaptado de:

https://www.lesphinx-developpement.fr/blog/les-typologies-des-repondants-la-classification-k-means/

Tipologia de respondentes - Parte 3: classificação K-Means

I – O que é a classificação K-means?

II – Para que serve a classificação K-means?

III – Interpretação dos resultados

IV – CHA, CHD, K-means: Como escolher?

Veja Também:

Conectividade: Integrações em Inteligência de Negócio

CX e IA: como potencializar seu processo!

CX, dos dados à decisão: dashboards

Teste o Sphinx iQ3 hoje mesmo

Place an image or any other element you want

Tipologia de respondentes - Parte 3: classificação K-Means

I – O que é a classificação K-means?﻿

II – Para que serve a classificação K-means?

III – Interpretação dos resultados

IV – CHA, CHD, K-means: Como escolher?

Veja Também:

Conectividade: Integrações em Inteligência de Negócio

CX e IA: como potencializar seu processo!

CX, dos dados à decisão: dashboards

Place an image or any other element you want

I – O que é a classificação K-means?