Lei de Benford como ferramenta para análise de dados
Descoberta ao acaso, a Lei de Benford é um método rápido e fácil para determinar se um conjunto de dados é suspeito de ter sido manipulado. Quer conhecer mais sobre método? Então continue lendo esse artigo.
Como detectar se um conjunto de dados é constituído de números verdadeiros ou se em algum momento os números foram objeto de manipulação?
No decorrer dos séculos, a necessidade de responder esta pergunta, particularmente com relação a números financeiros, forçou matemáticos, estatísticos e auditores a desenvolverem e utilizarem variadas técnicas de detecção de fraudes em conjuntos de dados, como:
- Regressão
- Árvores de decisão
- Redes neurais
- Redes Bayesianas
- Support Vector Machines
De forma geral, os processos de auditoria e detecção de fraudes são complexos, caros e focados especificamente no assunto ou problema em questão (auditoria financeira, por exemplo), além de não serem facilmente adaptáveis para outros cenários ou outros tipos de conjuntos de dados.
Contudo, o que muitos não sabem é que existe um método rápido e fácil de identificar um conjunto de dados como “suspeito” que pode ser aplicado em diversos casos de uso.
O que é a lei de Benford?
Em síntese, a lei de Benford define que os números de praticamente qualquer conjunto de dados humano (ou até mesmo da natureza) tendem a começar mais frequentemente com algarismos menores (1, 2, 3, …) do que com algarismos maiores (…, 7, 8, 9).
Descoberta completamente ao acaso em 1881, a lei de Benford foi observada pela primeira vez pelo astrônomo canadense Simon Newcomb. Ele reparou que o livro de logaritmos que utilizava para seus cálculos estava com as primeiras páginas mais gastas do que as páginas próximas ao final.
Foi a partir de então que Newcomb percebeu que as probabilidades de ocorrência de algarismos como primeiros dígitos de números seguiam uma curva logarítmica, sendo os algarismos menores mais prováveis e algarismos maiores menos prováveis.
Todavia, mesmo após Newcomb observar e publicar suas anotações, incluindo uma fórmula para cálculo das frequências esperadas, foi somente em 1938 que a “lei” ganhou notoriedade, quando foi novamente observada pelo físico americano Frank Benford.
De acordo com as observações de Benford, a distribuição de algarismos do primeiro dígito de um conjunto de números é totalmente contraintuitiva:
E as mesmas informações graficamente:
Já que se espera que uma distribuição de algarismos do primeiro dígito de números completamente aleatórios seja linear:
Dessa forma, a primeira pergunta que vem à mente é: Por que a distribuição de números ocorre de acordo com a lei de Benford? A resposta tem a ver com:
- A notação moderna dos números, que é posicional, com o dígito mais significante à esquerda (em contraste à notação romana, por exemplo);
- A ordem natural dos algarismos (1 é o primeiro e vem antes do 2, que vem antes do 3, etc);
- Como os primeiros dígitos dos números se distribuem dado um intervalo de números (ex: quantos “1”s existem como primeiro dígito entre 1 e N);
Aplicabilidade da Lei de Benford
A lei de Benford não é aplicável em qualquer situação. Existem regras que determinam a aplicabilidade ou não da lei em um conjunto de dados. São elas:
- Domínio de dados: os números que compõem o conjunto de dados devem cobrir várias magnitudes de grandeza;
- Limites impostos (naturais ou não): os números não devem estar sujeitos a nenhum tipo de restrição prévia imposta pelo processo de escolha dos números;
- Aleatoriedade: os números do conjunto de dados não devem ser compostos por sequências ordenadas, por exemplo: números de notas fiscais;
- Quantidade de amostragem: devido à aleatoriedade, quanto menor a quantidade de observações do conjunto de dados, maior a probabilidade de distorção ou descolamento da curva de distribuição de Benford. Se tendermos a quantidade de observações a infinito, a distorção tende a zero;
- Invariabilidade de escala: ao mudar a unidade de medida de um conjunto de números aderente à lei de Benford, é provável que o conjunto de dados permaneça aderente à lei.
Do ponto de vista estatístico, um conjunto de dados se mostra altamente aderente à aplicação da lei quando:
- A média é maior que a mediana e a obliquidade (ou simetria) é positiva;
- Os números do conjunto de dados são formados pela combinação matemática de fatores (ex: quantidade x preço);
- Os números do conjunto de dados representam dados em nível de transações individuais (faturas, despesas, etc).
Como exemplos de aplicações reais temos:
- Análise de declarações de imposto de renda nos Estados Unidos;
- Auditoria dos números fornecidos pelo governo grego durante o processo de entrada da Grécia na UE;
- Análise das eleições iranianas de 2009;
- Composição de evidência em casos criminais nos Estados Unidos;
- Auditoria dos números financeiros divulgados da empresa americana Enron;
- Análise de casos de COVID-19 reportados pelos países.
Aplicação da lei de Benford em um conjunto de dados Real
Antes de mais nada, escolhemos um conjunto de dados de domínio público para usar como exemplo.
Tratam-se de dados declarados pelos candidatos (eleitos ou não) a cargo de deputado federal nas eleições brasileiras de 2006 e 2010, totalizando 7.622 linhas de observação.
Nesse artigo, selecionamos o campo “Total de receitas” para realização da análise de distribuição do primeiro dígito.
Ao todo foram consideradas 7.620 observações do total de 7.622, devido à remoção de 2 amostras menores que R$ 1,00 (começando com zero).
Os resultados obtidos foram:
Com o propósito de testar a aderência à curva de Benford, usamos os testes estatísticos Z e qui-quadrado (ou teste x²).
Como resultado, concluímos que:
- De acordo com o teste Z, somente o algarismo 6 apresenta um desvio estatisticamente relevante em sua distribuição;
- De acordo com o teste qui-quadrado, as distribuições analisadas estão em conformidade com a distribuição de referência de Benford.
Portanto, podemos considerar que o conjunto de dados de exemplo está em conformidade com a distribuição de primeiros dígitos segundo a lei de Benford.
Aplicação da lei Benford em um dataset manipulado
Será que a lei de Benford realmente funciona?
A partir de uma fórmula do Excel, cerca de 30% dos números do conjunto original de dados tiveram seus primeiros dígitos modificados aleatoriamente por meio de um fator de redução.
Os resultados foram:
Assim como no teste anterior, também realizamos os testes Z e qui-quadrado, que apresentaram os seguintes resultados:
De acordo com o teste Z, somente os algarismos 3 e 4 têm suas distribuições aderentes à distribuição de Benford, sendo todos os demais algarismos não aderentes.
E de acordo com o teste qui-quadrado, a curva como um todo não possui comportamento aderente à distribuição de Benford.
Portanto, se estivéssemos realizando uma pré-seleção de conjuntos de dados para uma análise detalhada no sentido de detectar fraudes ou manipulações, este conjunto de dados seria um candidato óbvio.
E sobre a pergunta feita anteriormente, “será que a lei de Benford realmente funciona?”, sim, a lei de Benford realmente funciona!
Para saber mais sobre a Lei de Benford, sugerimos o documentário ‘A Era dos Dados’, episódio 4 – ‘Dígitos’ disponível no Netflix.