Herdando a compreensão
Temos uma necessidade inerente de classificar as coisas. Queremos saber se uma pessoa é mulher ou homem, queremos saber que tipo de música nossos amigos ouvem, e até mesmo queremos saber as tendências políticas de nosso atual governo. Alguns diriam que gostamos de categorizar as coisas. Mas por que se preocupar? O que ganhamos classificando as coisas? Simplificando, obtemos informações. Adquirimos conhecimento sobre nosso mundo e as coisas nele. O processo de classificação nos fornece informações sobre o objeto ou item em questão. Ou, para ser mais preciso, as particularidades da classe também se aplicam ao item.
O que é clustering?
Outro nome para uma classe ou categoria é cluster . Quando você divide um grupo de itens onde a diferença entre os itens no cluster é pequena e a diferença entre os próprios clusters é grande, você tem o processo chamado clustering .
Por exemplo, digamos que temos a lista de cores (amarelo claro, roxo, amarelo, roxo escuro, amarelo escuro, roxo claro). Se os classificarmos com base na tonalidade da cor, podemos terminar com dois grupos, um com uma cor de base amarela (amarelo claro, amarelo, amarelo escuro) e outro com uma cor de base roxa (roxo claro, roxo, roxo escuro ) O delta (mudança) entre os elementos em cada cluster é pequeno (tom) e o delta entre os clusters é grande (cor de base).
O que é clustering hierárquico?
Ao impor uma ordem, o clustering hierárquico leva o conceito de clustering um passo além do próprio clustering. A ordenação hierárquica não é nova, você provavelmente já viu isso antes. Considere o sistema de arquivamento em seu computador pessoal. É organizado em uma hierarquia. No nível superior, o armazenamento é dividido em pastas e, dentro de cada pasta, há mais pastas e arquivos. Entrar em cada uma dessas pastas pode revelar mais do mesmo. Isso pode se repetir muitas vezes. O clustering hierárquico é semelhante, basta substituir as pastas no exemplo por clusters.
Clustering Hierárquico Aglomerativo
O Clustering Hierárquico Aglomerativo é uma forma de clustering hierárquico onde cada um dos itens começa em seu próprio cluster. Os deltas (mudanças) entre os itens são calculados e dois ou mais itens são combinados com base no menor delta. Depois que uma passagem é concluída e o menor delta é determinado, o processo é repetido para cada cluster. Isso continua até que todos os itens estejam no mesmo cluster. Efetivamente oferecendo uma abordagem ascendente.
Exemplo
Agora que vimos a explicação desse tipo de agrupamento, vejamos um exemplo. Digamos que temos uma lista de idades para 5 pessoas. Os valores são os seguintes: 11, 19, 25, 34 e 41. O agrupamento aglomerativo pode ser semelhante a:
- Etapa 1: (11) (19) (25) (34) (41)
- Etapa 2: (11) (19, 25) (34) (41)
- Etapa 3: (11) (19, 25) (34, 41)
- Etapa 4: (11, 19, 25) (34, 41)
- Etapa 5: (11, 19, 25, 34, 41)
Resumo da lição
Para recapitular, um cluster é uma classe ou categoria. Clustering é um processo de agrupamento em que a diferença entre os itens do cluster é pequena e a diferença entre os próprios clusters é grande. O clustering hierárquico impõe uma ordem entre os clusters. O Clustering Hierárquico Aglomerativo é uma forma de cluster em que os itens começam em seu próprio cluster e são repetidamente mesclados em clusters maiores. Esta é uma abordagem de baixo para cima.