Fórmula e Terminologia
O teorema de Bayes pode ser usado para calcular probabilidades condicionais e é expresso como p (A | B) = (p (B | A) * p (A)) / p (B).
Se p (B) não for conhecido diretamente, podemos usar: p (A | B) = p (B | A) * (p (A) / (p (B | A)) * p (A) + p (B | não A) * p (não A).
Ok, isso é um pouco complicado, então vamos revisar o significado dos termos-chave.
- p (A) = probabilidade de o evento A acontecer; por exemplo, p (cara) = 0,5 para um lançamento de moeda justo. Se X for igual ao resultado de um lance de dado de 6 lados, p (X = 1) = 1/6.
- p (A | B) = a probabilidade de o evento A ocorrer dado que o evento B ocorreu.
Ok, aqui está um exemplo do mundo real para ajudar a tornar as coisas mais claras. Suponhamos que em uma determinada cidade chova 15% do tempo. Portanto, poderíamos dizer, em qualquer dia escolhido aleatoriamente, p (R) = 0,15. No entanto, em dias nublados, chove 75% do tempo, então a probabilidade de chuva quando está nublado é de 0,75.
Escrevemos isso como p (R | C) = .75.
Agora, e quanto à probabilidade de estar nublado quando está chovendo? Vamos supor que raramente chova se não estiver nublado, então p (C | R) = .99. Observe que p (C | R) não é necessariamente p (R | C). Em última análise, o teorema de Bayes pode nos ajudar a calcular e comparar essas probabilidades.
Problema prático um
Ok, agora vamos examinar alguns problemas práticos para nos ajudar a entender melhor como usar o teorema de Bayes. Para nosso primeiro problema, veremos os resultados de um teste de câncer. Esse teste para um certo tipo de câncer é considerado 99% preciso. Por exemplo, se uma pessoa está doente, o teste será positivo 99% das vezes. Portanto, podemos afirmar que o teste possui uma sensibilidade de 99%. Se a pessoa não estiver doente, o teste será negativo em 92% das vezes. Portanto, podemos dizer que o teste possui uma especificidade de 92%.
Suponha que seu teste seja positivo para esse tipo de câncer. Você deveria estar preocupado? Como vimos, p (A | B) não é o mesmo que p (B | A). Antes de continuar, vamos definir os seguintes eventos:
- Um sinal de mais (+) indica um resultado de teste positivo.
- Um sinal negativo (-) indica um resultado de teste negativo.
- Um S maiúsculo indica que uma pessoa está doente.
- Um H maiúsculo indica que uma pessoa não está doente (H significa saudável).
A sensibilidade dada nos diz que p (+ | S) = .99 e a especificidade dada nos diz que p (- | H) = .92, mas precisamos descobrir p (S | +). Ainda estamos perdendo uma informação: p (+), ou a porcentagem da população que realmente sofre dessa doença. Vamos supor que 1/200 pessoas estejam doentes, então p (+) = 0,005. A raridade da doença é a principal razão pela qual p (S | +) é tão diferente de p (+ | S).
Então, vamos substituir nossos números pelas variáveis:
- p (S) = 0,005.
- p (H) = 0,995. Como todo mundo está doente ou não, as probabilidades de adoecimento e saúde devem somar 100%, ou 1.
- p (+ | S) = 0,99.
- p (- | H) = 0,92, portanto p (+ | H) = 0,08. Esses dois devem somar 1. Se uma pessoa é saudável, o teste será positivo ou negativo.
Agora, vamos completar a equação:
- p (S | +) = (p (+ | S) * p (S)) / ((p (+ | S) * p (S) + p (+ | H) * p (H)); lembre-se de que p (não S) = p (H)
- p (S | +) = 0,99 * 0,005 / (0,99 * 0,005 + 0,08 * 0,995)
- p (S | +) = 0,00495 / (0,00495 + 0,0796)
- p (S | +) = 0,00495 / 0,08455
- p (S | +) = 0,059
- p (S | +) = 6%
Sim está certo; você tem menos de 6% de probabilidade de estar doente. Por que é que? Bem, principalmente porque a doença é muito rara para começar. Aqui, 99% dos 5% das pessoas que estão doentes e 8% dos 95% que estão bem terão o teste positivo. Portanto, cerca de 12% terão teste positivo quando menos de 1% realmente tem a doença. Agora, em vez de uma em cada 200 pessoas, suponha que a taxa de doença na população fosse de uma em cada dez pessoas, ou p (S) = 0,1.
Vamos refazer nossos cálculos com esta nova informação:
- p (S | +) = (.99 * .1) / (.99 * .1 + .08 * .9)
- p (S | +) = 0,099 / (0,099 + 0,072)
- p (S | +) = 0,099 / 0,171
- p (S | +) = 0,579
- p (S | +) = 58%
Agora, quase 58% das pessoas com teste positivo estão doentes. A probabilidade aumentou porque, para começar, há mais pessoas doentes na população.
Problema prático dois
Para nosso segundo problema, veremos a fabricação de widgets. Nossos widgets são fabricados em três fábricas: A, B e C. A proporção de widgets com defeito de cada fábrica é a seguinte:
- Fábrica A: .01
- Fábrica B: 0,04
- Fábrica C: 0,02
As fábricas A e B produzem 30% dos widgets cada um, e os 40% restantes vêm da Fábrica C. Imagine que um cliente chateado devolve um widget com defeito para nossa empresa. Como gerente, você precisa descobrir a probabilidade de cada fábrica produzir um widget com defeito. Embora tenhamos três fábricas, não duas, ainda podemos usar a forma básica do teorema de Bayes, dado que Z representa o evento de que um widget está com defeito.
Começaremos substituindo nossos números pelas variáveis:
- p (A) = 0,3
- p (B) = 0,3
- p (C) = 0,4
- p (Z | A) = 0,01
- p (Z | B) = 0,04
- p (Z | C) = 0,02
Em seguida, completaremos a equação usando o teorema de Bayes, que será configurado assim: p (A | Z) = (p (Z | A) * p (A)) / p (Z).
Já sabemos que p (A) = .3 e p (Z | A) = .01, mas precisamos encontrar p (Z), ou a probabilidade geral de um widget com defeito para cada 100 widgets:
- A fábrica A produziu 30 widgets e 1% estão com defeito, então 30 * 1% = 0,3 widgets com defeito.
- A fábrica B produziu 30 widgets e 4% estão com defeito, então 30 * 4% = 1,2 widgets com defeito.
- A fábrica C produziu 40 widgets e 2% estão com defeito, então 40 * 2% = 0,8 widgets com defeito.
Ao somar o número de widgets com defeito produzidos nas três fábricas, chegamos a um total de 2,3 widgets com defeito em 100 produzidos. Portanto, p (Z) = 2,3 / 100 = 0,023. Quando inserimos os números, vemos que: p (A | Z) = .01 * .30 / .023 = .130, ou uma chance de 13% de que o widget com defeito foi produzido na Fábrica A. Como p (Z) permanecerá o mesmo, podemos completar os cálculos para as outras duas fábricas. Para a fábrica B, temos:
- p (B | Z) = p (Z | B) * p (B) / p (Z)
- p (B | Z) = 0,04 * 0,30 / 0,023 = 0,522
E para a fábrica C, temos:
- p (C | Z) = p (Z | C) * p (C) / p (Z)
- p (C | Z) = 0,02 * 0,40 / 0,023 = 0,348
Como resultado de nossos cálculos, temos os seguintes números:
- Fábrica A: p (A | Z) = 0,130
- Fábrica B: p (B | Z) = 0,522
- Fábrica C: p (C | Z) = 0,348
Quando somamos os resultados, obtemos 1. Isso faz sentido porque existem apenas três fábricas, e o produto defeituoso deve ter vindo de uma delas.
Resumo da lição
Nesta lição, resolvemos dois problemas práticos que nos mostraram como aplicar o teorema de Bayes , uma das fórmulas do mundo real mais úteis usadas para calcular probabilidade. Vimos que podemos encontrar a probabilidade de ter uma doença com um resultado de teste positivo e a probabilidade de uma unidade com defeito vir de três fábricas diferentes se você souber a taxa de falhas em cada fábrica individual. Para resolver esses problemas, usamos a seguinte fórmula: p (A | B) = (p (B | A) * p (A)) / p (B).