Onde encontrar datasets com dados brasileiros?

Muitos dados entrando em um computador

E aí galera! Tudo certo? Espero que sim!

Recentemente fiquei muito frustrado em não poder atingir um objetivo pessoal e profissional por não ter dados suficientes para treinar um modelo de inteligência artificial.

Esse projeto era muito importante porque estava totalmente e acordo com a minha atual filosofia de vida que é fazer com que as micro e pequenas empresas brasileiras perseverem e não se encerrem junto com os sonhos dos seus idealizadores.

Analisando os relatórios do censo das empresas brasileiras proposto pelo SEBRAE, pude observar que as micro e pequenas empresas tem uma grande representatividade na economia do país e isso é muito importante.

Muita gente sonha em ter um emprego em uma multinacional ou em trabalhar em uma empresa gigante. Ok! Isso é muito válido, mas os dados nos dizem que no final das contas, a maior representatividade na economia brasileira é dos pequenos empresários que lutam dia-a-dia deslealmente com palitos de dentes em punho contra gigantes com tanques de guerra.

E por esse motivo, tenho uma missão de empoderar esses guerreiros com ferramentas de acesso a informação e educação. É por esse motivo que sou sócio da ConnectBe Contabilidade Proativa, um escritório de contabilidade bem diferente e que tem uma proposta bem bacana para esse público.

Mas como empoderar esses empresários?

Você já ouviu falar que os “dados são o novo petróleo”, correto?

Os dados são o novo petróleo

Eu também acredito nisso e é dessa forma que pretendo realizar esse feito. Muitos empresários simplesmente seguem contato com a sorte e simplesmente administrando o seu negócio apenas com o feeling as vezes acreditando no que está fazendo e outras vezes torcendo para dar certo. Isso é muito ruim para a saúde do negócio (e do empreendedor também heheh)

Como a inteligência artificial pode ajudar?

A inteligência artificial não é nenhuma novidade nem algo de outro mundo, na verdade as pesquisas iniciais datam da década de 50 e sendo bem sucinto, trata-se apenas da interpretação matemática de dados através de estatística, gerando informação para solucionar alguma necessidade de negócio.

Mesmo sendo um estudo consideravelmente antigo, em um determinado tempo, além de falta de investimento e assuntos filosóficos, chegou-se a conclusão de que não haveriam dados suficientes para que os modelos propostos fossem treinados adequadamente. Esse período é conhecido como o inverno da inteligência artificial.

Entretanto, já faz um tempo em que vivemos em um mundo cheio de dados, na verdade que mede dados, porque eles sempre existiram, apenas nunca foram mensurados. Hoje, a sua geladeira pode te fornecer dados importantes sobre a sua alimentação, o seu carro sobre o seu consumo e até os brinquedos dos seus filhos podem te trazer alguma informação útil. Esse fenômeno é conhecido como big data, onde temos muitos dados disponíveis para fazermos coisas incríveis.

Beleza e os dados?

Os dados são a alma do negócio e toda essa introdução foi para compartilhar com vocês a necessidade que eles tem para todos nós, especificamente, para mim e nesse projeto, para os micro e pequenos empresários brasileiros.

Agora pare para pensar que se para fazer um bom treinamento de um modelo preditivo a gente precisa de milhões de exemplos e isso muitas vezes não é tão fácil nem para as gigantes do mercado, imagina como que eu vou fazer isso para o dono da padaria do bairro?

Essa foi a minha frustração, de certa forma quem está no “inverno da IA” agora, sou eu! Justamente por que esse mercado não gera dados suficientes para que eu coloque meus modelos em produção de forma confiável.

Tenho certeza que muita gente que trabalha com IA compartilha dos mesmos anseios, mas como encontrar datasets com informações importantes para darmos o primeiro passo?

Como encontrar os datasets?

No post anterior eu compartilhei uma busca de datasets oeferecida pelo Google, mas dando uma olhada no GitHub hoje, vi que meu amigo começou a seguir um repositório interessante e fui ver o que era.
Aí que a mágica aconteceu! Era um repositório do Felipe Deschamps com a iniciativa de criar um repositório com dados sobre o Brasil e tornar uma API aberta. Olha que maravilha!

Inicialmente ele está propondo a elaboração de uma API para CEP, para contornar um “problema” técnico na API atual dos Correios.

Mas a ideia do projeto é maravilinda e pretende abordar outros aspectos.

A comunidade inclusive já está adicionando várias dicas além de contribuir para o projeto, alias, foi dentro de uma das issues que eu encontrei também esses dois links https://brasil.io/home e https://catalogo.conecta.gov.br/store/apis/list fornecidos pela comunidade que dão uma mão na roda para treinarmos nossos modelos e resolver grandes problemas.

Você tem alguma experiência desse tipo para compartilhar com a gente?

Comenta aí em baixo pra gente trocar uma ideia.