FISL18: Big Data pode agilizar produção de estatísticas públicas e oficiais

Foto: Thomaz Rodriguez

O uso de Big Data na produção de estatísticas públicas e oficiais foi o tema central da palestra de Marcelo Pitta, coordenador de métodos quantitativos do Centro Regional de Estudos para o Desenvolvimento da Sociedade da Informação (Cetic.br). Pitta falou sobre a experiência da instituição e a forma como ela tem buscado integrar e tratar essas novas informações em seus métodos na tarde desta quarta-feira (11) no Fórum Internacional Software Livre 18 (FISL 18).

Atualmente, o Cetic desenvolve 10 pesquisas, todas de acordo com as referências metodológicas internacionais e com diferentes periodicidades. “Nós coletamos informações da mesma forma como o IBGE faz no Brasil e seus respectivos pares fazem no resto do mundo. Trazemos artigos, indicadores, metodologia e análise dos dados”, explicou Pitta. Esse processo se divide em cinco etapas: planejamento; coleta de dados; processamento; análise de dados e apresentação; e disseminação.

A parte mais custosa é a coleta de dados e, por isso, se buscam alternativas. Segundo Pitta, dois problemas são enfrentados na produção de estatísticas de tecnologias de informação e comunicação: os recursos vêm diminuindo, assim como a taxa de resposta. Ao mesmo tempo, se exige que a periodicidade seja maior. “Muitas pessoas que utilizam nossos dados para criar políticas públicas gostariam que nossas pesquisas bienais passassem a ser anuais ou mesmo intra-anuais. Então pensamos: existe muita informação por aí, não podemos usá-las para melhorar as nossas estatísticas oficiais?”, expôs.

Passou-se a estudar, então, o uso de web scraping, técnica de extração de informações para coletar dados de sites, para produzir indicadores de comércio eletrônico. Para delimitar bem a população, optou-se por usar como base os dados coletados da maneira tradicional na pesquisa TIC Empresas 2017, a partir do contato com sete mil companhias com 10 ou mais pessoas ocupadas.

Na primeira fase, a equipe desenvolveu um modelo logístico com base nesses dados, considerando se a empresa realizava ou não vendas pela internet e os dados, palavras e informações coletados nos sites das empresas. A partir dessa coleta de dados, construíram um dicionário de palavras, deixando apenas o radical (por exemplo: apenas compr, se a palavra for comprando ou comprar). Atualmente, acredita-se que o modelo obtenha 73% de acerto.

Na fase dois, serão coletadas de maneira automatizada amostras de 35 mil empresas, sendo que 7 mil serão as que deram origem ao modelo. A partir daí, então, haverá uma amostra com um tamanho que permita a estimativa do indicador por unidade da federação, ramo de atividade e cruzamentos, possibilite a coleta contínua e resultados com frequência intra-anual.

“A ideia é que as 7 mil empresas que deram origem ao modelo sempre estejam presentes, para sabermos se ele ainda funciona ao longo do tempo”, explicou, acrescentando que esse é um dos principais desafios da pesquisa. A ideia é que o modelo seja validado a cada dois anos, uma vez que os termos e formatos das páginas mudam constantemente e que, então, seja reajustado.

 

Texto: Márcia Schuler