Em 2019, mais de 40 milhões de americanos apostaram dinheiro entre parênteses de Março Madness, de acordo com a American Gaming Association. A maior parte deste dinheiro foi apostado em “parênteses”, que consistem num grupo de pessoas, cada uma delas, a participar nas suas previsões dos jogos do torneio NCAA, juntamente com um buy-in. O parêntesis que mais se aproxima de estar certo, ganha. Se considerarmos também os escalões onde apenas o orgulho está em jogo, o número de participantes é muito maior. Apesar de toda esta atenção, a maioria não se dá a si própria a melhor hipótese de ganhar porque está concentrada na pergunta errada.
A pergunta certa
Merro #3 no Top 10 Erros da Data Science do Dr. John Elder é fazer a pergunta errada. Uma pedra angular de qualquer projecto analítico bem sucedido começa por ter o objectivo certo do projecto; ou seja, apontar para o alvo certo. Se for como a maioria das pessoas, quando preenche o seu parêntese, pergunta-se: “O que é que eu penso que é mais provável que aconteça”? Esta é a pergunta errada a fazer se estiver a competir numa piscina, porque o objectivo é ganhar dinheiro, NÃO fazer o escalão mais correcto. A pergunta correcta a fazer é: “Que parênteses me dá a melhor hipótese de ganhar $?”¹ Embora estas perguntas pareçam semelhantes, os parênteses que produzem serão significativamente diferentes.
Se ignorar os seus adversários e escolher as equipas com a melhor hipótese de ganhar jogos – reduzirá a sua hipótese de ganhar dinheiro. Mesmo a equipa mais forte tem poucas probabilidades de ganhar tudo, e mesmo que o façam, muitos dos seus oponentes provavelmente também os escolheram. A melhor maneira de optimizar as suas hipóteses de ganhar dinheiro é escolher uma equipa campeã com uma boa hipótese de ganhar quem é impopular com os seus adversários.
Saber como outras pessoas na sua piscina estão a preencher os seus parênteses é crucial, porque ajuda a identificar as equipas que têm menos probabilidade de ser escolhidas. Uma forma de ver como os outros estão a preencher os seus parênteses é através da página Quem Escolheu Quem (Figura 1) da ESPN. Resume a frequência com que cada equipa é escolhida para avançar em cada ronda através de todos os parênteses da ESPN e é um grande primeiro passo para identificar equipas negligenciadas.
Figure 1. A página Who Picked Whom Tournament Challenge da ESPN
Para uma equipa ser ignorada, a sua hipótese de ganhar deve ser inferior à sua hipótese real de ganhar. A página Quem Escolheu Quem fornece uma estimativa da probabilidade percebida de ganhar, mas para encontrar equipas subvalorizadas também precisamos de estimativas da sua probabilidade real de ganhar. Isto pode variar desde um modelo de previsão complexo até ao seu próprio sentimento instintivo. Duas fontes nas quais confio são as previsões de 538 de Março Madness e as probabilidades de apostas futuras em Vegas. As previsões do 538 baseiam-se numa combinação de classificações computorizadas e tem previsto bem o desempenho em torneios passados. Há também razões para prestar atenção às probabilidades de Vegas, porque se estivessem muito longe, as casas de apostas perderiam dinheiro.
No entanto, ambas as fontes têm as suas falhas. 538 baseia-se em classificações informáticas, pelo que, embora evitem preconceitos humanos, perdem a intuição de especialistas. A maioria das casas de apostas desportivas de Las Vegas utiliza provavelmente tanto as classificações informáticas como a intuição de peritos para criar as suas probabilidades de aposta, mas estão fortemente motivadas para terem apostas iguais em todos os lados, pelo que são significativamente afectadas pela percepção humana. Por exemplo, se todos apostassem na Duke para ganhar o torneio da NCAA, aumentariam as probabilidades de aposta da Duke para que mais pessoas apostassem noutras equipas para evitar grandes perdas. Ao calcular as probabilidades de vitória para este artigo, optei por uma média de 538 e as previsões de Vegas para obter um equilíbrio com que me sentia confortável.
Vejamos o ano passado. A figura 2 compara a probabilidade de uma equipa ganhar (baseada no Who Picked Whom da ESPN) com a sua probabilidade real de ganhar (baseada nas previsões médias de 538-Vegas) para as equipas líderes do Torneio NCAA de 2019. (As probabilidades para todas as 64 equipas do torneio aparecem na Tabela 6 no Apêndice.)
Figure 2. A oportunidade real versus percepção de ganhar a Loucura de Março para 8 equipas de topo
Como mostrado na Figura 2, os participantes escolheram em excesso o Duque e a Carolina do Norte como campeões e escolheram em baixo o Gonzaga e a Virgínia. Muitos factores contribuíram para estas selecções; por exemplo, a maioria dos modelos preditivos, ávidos fãs do desporto, e apostadores concordaram que a Duke foi a melhor equipa no ano passado. Se foi a escolha que mais provavelmente ocorreria, então a escolha da Duke como campeã foi a escolha natural. Mas ignorar as selecções feitas por outros na sua piscina não o ajudará a ganhar a sua piscina.
Embora este gráfico seja interessante, como podemos transformá-lo em takeaways concretos? Gonzaga e Virginia parecem boas picareta, mas e o resto das equipas escondidas naquele canto inferior esquerdo? Faz algum dia sentido escolher equipas como a Texas Tech, que teve 2,6% de hipóteses de ganhar tudo, e apenas 0,9% de parênteses a escolhê-las? Quanto é que escolher um favorito sobrevalorizado como a Duke prejudica as suas hipóteses de ganhar a sua piscina?
Para responder a estas perguntas, simulei muitas piscinas de parênteses e descobri que as equipas nos lugares do Gonzaga e da Virginia são geralmente as melhores selecções – as mais subvalorizadas das quatro primeiras a cinco favoritas. No entanto, à medida que o tamanho do seu agrupamento de escalões aumenta, as sementes mais baixas, como a terceira semente da Texas Tech ou a quarta semente da Virginia Tech, tornam-se mais atractivas. A lógica para isto é simples: a hipótese de uma destas equipas ganhar tudo é pequena, mas se ganharem, então provavelmente ganhará o seu agrupamento independentemente do número de participantes, porque é provável que mais ninguém os tenha escolhido.
Metodologia de simulações
Para simular agrupamentos de parênteses, primeiro tive de simular parênteses. Utilizei uma média das previsões de Vegas e 538 para executar muitas simulações dos eventos reais de March Madness. Como discutido acima, este método não é perfeito, mas é uma boa aproximação. A seguir, utilizei a página Quem Escolheu Quem para simular muitos parênteses criados pelo homem. Para cada parêntese humana, calculei a hipótese de ganhar uma reserva de tamanho n ao encontrar primeiro a sua classificação percentil entre todos os parênteses humanos, assumindo que um dos parênteses simulados de 538-Vegas eram os eventos reais. Este percentil é basicamente a hipótese de ser melhor do que um parêntesis aleatório. Aumentei o percentil para a potência n-1, e depois repeti-o para todos os parênteses simulados de 538-Vegas, calculando a média dos resultados para obter uma única probabilidade de ganho por parêntesis.
Por exemplo, digamos que para uma simulação de 538-Vegas, o meu parêntesis está no percentil 90 de todos os parênteses humanos, e há mais nove pessoas na minha piscina. A hipótese de eu ganhar a piscina seria de 0,99=0,387. Se assumíssemos uma simulação diferente, então o meu escalão poderia estar apenas no 20º percentil, o que faria a minha probabilidade de ganhar 0,29≈0.0. Calculando a média destas probabilidades para todas as simulações de 538-Vegas, podemos calcular uma estimativa da probabilidade de ganho de um parêntesis num agrupamento de tamanho n, assumindo que confiamos nas nossas fontes de entrada.
Resultados
Utilizei esta metodologia para simular agrupamentos de parêntesis com 10, 20, 50, 100, e 1000 participantes. Os resultados detalhados das simulações são apresentados nas Tabelas 1-6 do Anexo. Virgínia e Gonzaga foram as melhores escolhas de campeões quando a piscina tinha 50 ou menos participantes. No entanto, curiosamente, Texas Tech e Purdue (3 sementes) e Virginia Tech (4 sementes) foram tão boas ou melhores escolhas de campeões quando a piscina tinha 100 ou mais participantes.
Takeaways das simulações:
- Independentemente do tamanho da piscina de parênteses, a escolha do campeão é mais importante para determinar a hipótese de ganhar uma piscina de parênteses. As escolhas antes dos Quatro Finalistas têm importância limitada.
- Na maioria das piscinas, escolher os quatro ou cinco favoritos mais subvalorizados para ser o campeão dá-lhe a melhor hipótese de ganhar.
- Em piscinas maiores de parênteses, escolher as equipas com menor valor de sementes subvalorizadas dá-lhe a melhor hipótese de ganhar. Mesmo em piscinas muito grandes, há uma boa hipótese de tais equipas (aqui, como a Virginia Tech) não serem escolhidas como campeãs por ninguém. Mesmo que a sua hipótese real de ganhar tudo isto seja pequena, se o fizerem, é provável que ganhe a sua piscina, independentemente do número de participantes.
Pensamentos Adicionais
Temos assumido que a sua piscina local faz as suas selecções tal como o resto da América, o que provavelmente não é verdade. Se vive perto de uma equipa que está no torneio, então essa equipa será provavelmente escolhida em excesso. Por exemplo, eu vivo em Charlottesville (casa da Universidade da Virgínia), e Virginia foi escolhida como campeã em cerca de 40% dos parênteses das minhas piscinas nos últimos anos. Se viver perto de uma equipa com uma semente elevada, uma estratégia é começar com a ESPN Who Picked Whom, e depois aumentar as probabilidades da popular equipa local e, consequentemente, baixar as probabilidades para todas as outras equipas. Outra estratégia que utilizei foi perguntar às pessoas da minha piscina quem estão a escolher. É mutuamente benéfico, uma vez que seria menos provável escolher quem quer que estejam a escolher.
Como pensamento de despedida, quero descrever um cenário do torneio NCAA de 2019 com o qual alguns de vós poderão estar familiarizados. Auburn, uma semente de cinco, estava a ganhar por dois pontos nos momentos de declínio do jogo, quando inexplicavelmente falhou a outra equipa no acto de disparar um tiro de três pontos a um segundo de distância. O jogador adversário, um atirador de 78% de lançamento livre, avançou para a linha e falhou dois dos três tiros, permitindo a Auburn avançar. Esta não é uma realidade alternativa; foi assim que Auburn ganhou o seu jogo da primeira volta contra o Estado do Novo México, com 12-linhas. Eles prosseguiram para vencer os poderosos Kansas, Carolina do Norte, e Kentucky a caminho dos Quatro Finalistas, onde enfrentaram exactamente a mesma situação contra a Virgínia. Kyle Guy da Virgínia fez os seus três lances livres, e a Virgínia continuou a ganhar o campeonato.
Eu acrescento isto para destacar um importante qualificador desta análise – é impossível prever com precisão a Loucura de Março. Foram as pessoas que escolheram Auburn para ir aos quatro génios finais? Claro que não. Se Terrell Brown, do Estado do Novo México, tivesse feito os seus lances livres, eles teriam parecido tolos. Não existe um modelo perfeito que possa prever o futuro, e aqueles que se dão bem nas piscinas não são gurus do basquetebol, são apenas sortudos. A implementação das estratégias aqui faladas não garante uma vitória; apenas reduz a quantidade de sorte de que se precisa para vencer. E mesmo com os melhores modelos – ainda vai precisar de muita sorte. Afinal de contas, é March Madness.
Anexo: Análises detalhadas por tamanho da piscina
Na base (aleatoriamente), um parêntese numa piscina de dez pessoas tem uma probabilidade de 10% de ganhar. A tabela 1 mostra como essa probabilidade muda com base na ronda seleccionada para uma dada equipa perder. Por exemplo, os parênteses que tiveram a Virgínia a perder na ronda de 64 ganharam um grupo de dez pessoas 4,2% do tempo, enquanto que os parênteses que os escolheram para ganhar tudo isso ganharam 15,1% do tempo. Como lembrete, estas simulações foram feitas apenas com informação prévia ao torneio – não tinham dados indicando que a Virgínia era a eventual campeã, claro.
Quadro 1 – Probabilidade de um parêntesis ganhar um agrupamento de dez pessoas, dado que tinha uma determinada equipa (fila) que a fazia a uma determinada ronda (coluna) e sem mais
Nos agrupamentos de dez pessoas, os melhores resultados foram aqueles que escolheram Virginia ou Gonzaga como campeão, ganhando 15% do tempo. Notavelmente, as primeiras escolhas redondas não tiveram grande influência na hipótese de ganhar o pool, com excepção dos parênteses que tiveram uma ou duas sementes a perder na primeira volta. Os parênteses que tinham três sementes ou menos como campeão tiveram um desempenho muito fraco, mas ter sementes mais baixas fazendo com que os Quatro Finalistas não tiveram um impacto significativo nas hipóteses de ganhar.
Table 2 mostra a mesma informação para os parênteses com 20 pessoas. A hipótese de base é agora de 5%, e mais uma vez os parênteses com melhor desempenho são aqueles que escolheram Virginia ou Gonzaga para ganhar. Da mesma forma, as selecções nas primeiras rondas não têm muita influência. Michigan State subiu agora para a terceira melhor escolha de campeão, e curiosamente Purdue é a terceira melhor escolha de vice-campeão.
Table 2 – Probabilidade de um parêntesis ganhar um agrupamento de 20 pessoas, dado que tinha uma determinada equipa (fila) que a torna numa determinada ronda (coluna) e não mais
Quando o tamanho do agrupamento aumenta para 50, como mostra a Tabela 3, escolher os favoritos sobrevalorizados (Duke e Carolina do Norte) como campeões reduz significativamente as suas hipóteses de base (2%). As duas e três sementes ligeiramente subvalorizadas aumentam agora as suas hipóteses de base quando seleccionadas como campeãs, mas Virginia e Gonzaga continuam a ser as melhores escolhas.
Table 3 – Probabilidade de um parêntesis ganhar um agrupamento de 50 pessoas dado que tinha uma determinada equipa (fila), chegando a uma determinada rodada (coluna) e sem mais
Com o agrupamento de 100 (Tabela 4), Virginia e Gonzaga são unidas por três sementes subavaliadas Texas Tech e Purdue. Escolher qualquer uma destas quatro aumenta as suas hipóteses de base de 1% para perto de 2%. Escolher Duke ou Carolina do Norte prejudica novamente as suas hipóteses.
Tabela 4 – Probabilidade de um parêntese ganhar um agrupamento de 100 pessoas, dado que tinha uma determinada equipa (linha) que a torna numa determinada ronda (coluna) e não mais
Quando o agrupamento de parêntese cresce para 1000 pessoas (Tabela 5), há uma mudança completa do guarda. Virginia Tech é agora a melhor escolha de campeão, elevando a sua hipótese de base de 0,1% para 0,4%, seguida das três sementes e da sexta semente do estado de Iowa são as melhores escolhas de campeão.
Table 5 – Probabilidade de um parêntesis ganhar um agrupamento de 1000 pessoas dado que tinha uma determinada equipa (linha), chegando a uma determinada ronda (coluna) e sem mais
Para referência, a Tabela 6 mostra a probabilidade real de ganhar versus a hipótese de ser escolhido para todas as equipas com sétima ou melhor semente. Estas hipóteses são derivadas da página da ESPN Who Picked Whom e das previsões 538-Vegas. Os dados para as oito melhores equipas da Tabela 6 estão representados na Figura 2. Notavelmente, Duke e Carolina do Norte estão sobrevalorizadas, enquanto que as restantes estão todas pelo menos ligeiramente subvalorizadas.
As equipas em negrito na Tabela 6 são exemplos de equipas que são boas escolhas de campeões em piscinas maiores. Todas elas têm uma elevada proporção de probabilidade real de ganhar a probabilidade de serem escolhidas para ganhar, mas uma probabilidade real global baixa de ganhar.
Table 6 – As probabilidades reais de ganhar Campeonato vs Equipa de Oportunidade são escolhidas para ganhar o Campeonato. Equipas subvalorizadas em verde; sobrevalorizadas em vermelho.
- Isto requer o estudo da fórmula de pagamento. Utilizei a pontuação padrão ESPN (320 pontos possíveis por ronda) com todo o dinheiro do pool dado ao vencedor. (10 pontos são atribuídos por cada vitória correcta na ronda de 64, 20 na ronda de 32, e assim por diante, duplicando até serem atribuídos 320 para uma chamada correcta ao campeonato.)