Grandes dados, grandes erros

Naturalmente, nós humanos acreditamos que para que uma coisa seja comprovada como verdadeira, ela deve se repetir mais de uma vez, rejeitando-se assim a influência do acaso. Apesar dos nossos vieses psicológicos nessa questão, fica claro que quanto mais evidências temos de algo, mais fidedigno isso é. Baseando-se nessa premissa, estudos científicos e empresariais são conduzidos com o objetivo de obter o maior número de dados para que seja alcançada a resposta mais correta, ou pelo menos a mais próxima do correto. Com o advento de tecnologias capazes de realizar múltiplas observações e quantificações, muitos profissionais acabam se deparando com um volume de dados exorbitante em suas mãos. Esse mar de dados, algumas vezes indecifráveis, agora é carinhosamente chamado de Big Data.

O Big Data (em português, Grandes Dados) refere-se à uma quantidade muito grande de dados observacionais obtidos através de um aparato ou mais aparatos de mensuração. Talvez você nunca tenha ouvido falar desse termo, mas nesse exato momento, provavelmente você está provendo informações para a criação de um banco de dados Big Data. Atualmente, uma das maiores fontes de dados é o Facebook. Imaginem-se na frente de uma planilha do Excel com o banco de dados de 1,19 bilhões de pessoas, assustador né? Fazer o seu imposto de renda não parece tão assustador agora. Além de informações simples como idade, sexo e cidade de origem, através de você, essa rede social também é capaz de descobrir qual a música mais ouvida por pessoas que acabaram de iniciar um namoro ou levaram um pé na bunda.

As aplicações de Big Data são muitas, e algumas já são utilizadas por nós (ou contra nós): aplicativos de smartphones que fazem a contagem de calorias ou horas de sono, feedback da performance em um determinado esporte, proposição de campanhas publicitárias mais eficazes ou espionagem em larga escala. Uma das aplicações de Big Data mais recentes, e que vem dando o que falar no meio científico, é o Google Flu Trends (em português, Google Tendências da Gripe) (GFT). Considerando que cada vez mais as pessoas se consultam com o Dr. Google, a empresa identificou uma ótima oportunidade para criar um modelo preditivo dos casos de gripe e auxiliar na prevenção e tratamento da doença.

É muito simples, quando determinados termos relacionados à gripe são buscados pelo mecanismo de procura do Google, esta pesquisa serve como indicador de um evento associado à gripe. Caso muitas pessoas da mesma região procurem por esses termos em um período de tempo curto, é possível inferir que um surto de gripe está ocorrendo nesta região. Apesar da aparente qualidade técnica do GFT, este vem apresentando uma série de falhas sucessivas no seu resultado. Ao ser comparado com os relatórios de vigilância da gripe feitos pelo Centers for Disease Control and Prevention (em português, Centro para Controle e Prevenção de Doenças, CDC), o GFT superestimou por uma boa margem os reais casos de gripe realmente observados, provocando um alarde desnecessário na população e na mídia. Isso abalou bastante a confiança depositada no modelo do Google, pois os relatórios do CDC se baseiam nos reais casos de gripe relatados por médicos ao redor dos EUA e não em mecanismos de busca. Os equívocos gerados pelo GFT botaram as análises de Big Data em uma posição desconfortável, tendo em vista que o modelo criado pelo Google era um dos carros-chefes desse tipo de análise.

- Estimativa da porcentagem de ILI's (Influenza like illness - doenças tipo gripe) pelo GFT, GFT + CDC, CDC e modelo com 3 semanas de atraso do CDC (lagged CDC) (Fonte: Lazer et al Science DOI: 10.1126/science.1248506)

– Estimativa da porcentagem de ILI’s (Influenza like illness – doenças tipo gripe) pelo GFT, GFT + CDC, CDC e modelo com 3 semanas de atraso do CDC (lagged CDC) (Fonte: Lazer et al Science DOI: 10.1126/science.1248506)

A partir dessas falhas, os pesquisadores começaram a se perguntar se o uso de bancos de dados gigantescos realmente são fontes seguras de informação por si só, ou se são apenas um complemento para aquelas análises realizadas com bancos menores, porém mais precisas. Uma resposta possível para o erro cometido pelo GFT seja a sua fonte primária de dados: o relato humano leigo. É razoável considerarmos que por não terem um conhecimento médico capaz de discernir um caso de gripe de um resfriado, por exemplo, algumas pessoas possam ter se confundido. Por isso nem todos os casos de gripe relatados pelo GFT realmente tenham sido reais casos de gripe, o chamado erro do tipo I na estatística. No entanto, o algoritmo do GFT não foi capaz de discernir um caso real de um caso errôneo apenas pelos termos usados na busca do usuário.

Alguns cientistas argumentam que a culpa pelos erros do GFT não seja da população leiga, mas sim do próprio Google. Segundo esses cientistas, a política da empresa de não divulgar os termos usados para a criação do GFT e nem o algoritmo por trás do modelo representam um empecilho para o aprimoramento do próprio modelo. Além disso, o próprio Google pode estar se sabotando ao induzir um resultado de pesquisa que aponte para um caso de gripe sem que este tenha sido o objetivo do usuário, aumentando ainda mais a inespecificidade do modelo.

Trabalhar com um banco de dados exorbitante pode não ser tão fácil nem tão conclusivo quanto achávamos que seria. O uso de Big Data para as pesquisas científicas se apresenta como uma importante ferramenta para a expansão do conhecimento, porém não podemos achar que ela é o suficiente para responder todas as perguntas. Testes preliminares combinando o GFT com os relatórios do CDC apresentaram uma predição muito mais próxima do observado, apontando que o caminho a ser seguido seja uma união entre o Big e o Small Data. O conhecimento acerca dessa metodologia de manipulação de dados ainda está se desenvolvendo, e assim como disse o Dr. Dan Ariely, o fanfarrão da psicologia e economia comportamental do MIT:

“Big data é igual ao sexo na adolescência: todo mundo fala sobre ele, ninguém realmente sabe como fazer, todo mundo pensa que todos os outros estão fazendo, por isso todo mundo diz que também está fazendo”

Fontes:

O andar do bêbado, Editora Zahar, 2009

Butler D, 2013 When Google got flu wrong Nature

Lazer D et al., 2014 The parable of Google Flu: Traps in Big Data analysis Science

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s