Introdução à Entropia
Vivemos em um mundo onde gostamos de saber os resultados com antecedência. Gostaríamos de saber se vai chover amanhã, gostaríamos de saber se nosso time favorito vai ganhar o próximo jogo e saber os números ganhadores da loteria no fim de semana. Saber se vamos precisar desse guarda-chuva ou saber que nossa equipe vai vencer, com certeza seria legal. Isso não é provável, é claro. Muitas variáveis e muitos dados, muitas vezes tornam chegar a uma conclusão virtualmente impossível para a pessoa média. Mas se pudéssemos, poderíamos mudar radicalmente o curso de nossas vidas.
O que é entropia?
A entropia , no que se refere ao aprendizado de máquina, é uma medida da aleatoriedade das informações que estão sendo processadas. Quanto mais alta a entropia, mais difícil é tirar qualquer conclusão dessa informação. Jogar uma moeda é um exemplo de ação que fornece informações aleatórias. Para uma moeda que não tem afinidade com cara ou coroa, o resultado de qualquer número de lançamentos é difícil de prever. Por quê? Porque não há relação entre a inversão e o resultado. Essa é a essência da entropia.
O que é aprendizado de máquina?
O aprendizado de máquina é o ramo da ciência da computação que lida com reconhecimento de padrões, computação e previsão de resultados a partir dos dados coletados. Seu objetivo é tirar conclusões que não eram conhecidas anteriormente sobre os dados em questão. Normalmente, o conjunto de dados é muito grande. Isso dificulta o manuseio por uma pessoa e é ideal para uma máquina. Este é um assunto quente nas notícias hoje em dia, especialmente em áreas como gastos do consumidor e gestão da cadeia de suprimentos.
Vejamos alguns exemplos. Empresas como o Walmart estão constantemente interessadas nos hábitos de consumo dos consumidores. Se puderem prever o que as pessoas comprarão e quando, poderão ajustar os níveis de estoque. Além disso, eles podem fazer acordos de compra com fornecedores pelas quantidades e preços ideais. Acho que você pode ver como isso pode ser vantajoso. Da mesma forma, empresas como a Ford ou a GM estão preocupadas com suas cadeias de suprimentos. Eles precisam saber quem pode fornecer peças e materiais e quando, para que possam gerenciar seus processos de montagem. Em cada um desses exemplos, um grande número de variáveis complexas deve ser balanceado: ideal para máquinas.
Entropia e aprendizado de máquina
Nos preocupamos com a entropia no aprendizado de máquina por dois motivos principais. Primeiro, porque queremos que as máquinas nos ensinem algo novo, especialmente em situações em que, pessoalmente, não podemos derivar nenhum significado significativo. As máquinas têm a capacidade de processar grandes quantidades de dados em curtos períodos de tempo. Por causa disso, eles também podem reconhecer padrões e tirar conclusões onde uma pessoa talvez não. É aqui que as máquinas brilham.
Em segundo lugar, porque atualmente existem limitações ao que a tecnologia pode fazer, entropia em excesso e uma máquina pode ficar atolada no volume de dados ou ser incapaz de tirar quaisquer conclusões. Certamente, isso mudará com o tempo. Novas pesquisas e hardware mais rápido estão disponíveis constantemente. Mas, enquanto isso, deve-se tomar cuidado para aplicar a tecnologia onde for realista e apropriada.
Resumo da lição
Para recapitular, a entropia é uma medida da aleatoriedade das informações que estão sendo processadas. Quanto mais alta a entropia, mais difícil é tirar qualquer conclusão dessa informação. O aprendizado de máquina é o ramo da ciência da computação que lida com reconhecimento de padrões, computação e previsão de resultados a partir dos dados coletados.
Nos preocupamos com a entropia no aprendizado de máquina por dois motivos principais. Primeiro, porque queremos que as máquinas nos ensinem algo novo – principalmente em situações em que pessoalmente não podemos derivar nenhum significado significativo. Em segundo lugar, porque atualmente existem limitações para o que a tecnologia pode fazer, como uma máquina recebendo entropia em excesso, fazendo com que ela fique atolada com o volume de cisalhamento de dados. Isso nos incentiva a criar uma tecnologia melhor e mais eficaz que possa lidar com essas limitações.