Google disponibilizou mais de 25 milhões de datasets gratuitos

Tela de busca de datasets gratuitos do Google

Há muitos anos tivemos o apagão da inteligência artificial pela escassez de dados. Haviam os algoritmos, mas poucos dados para o treinamento dos modelos propostos. O tempo passou, desenvolvemos novos sensores e os incluímos em tudo (com IoT por exemplo), assim passando a gerar muitos dados em qualquer coisa que antes nem sequer pensávamos que poderia nos dar alguma ideia importante, como uma geladeira por exemplo que pode monitorar os produtos dentro dela e fazer as compras de forma automática para você.

De fato, vivemos em uma época maravilhosa de BIG DATA, entretanto, dados qualificados não fazem parte do cotidiano da vida de pequenas e médias empresas. Falo isso com propriedade porque possuo uma startup de contabilidade que atua com inteligência artificial para micro, pequenos e médios empresários e mesmo com um bom movimento em seus empreendimentos ainda não geram dados suficientes para um treinamento de um modelo de inteligência artificial.

Existem diversas outras possibilidades de uso e aplicação, mas de fato, datasets específicos e qualificados são ouro na mão da gente. Se vierem “limpos” melhor ainda.

Mas afinal o que são datasets

Se você chegou até aqui e ainda está meio perdido, datasets são conjuntos de dados, estruturados ou não, sobre assuntos específicos.

Para aplicação e treinamento de modelos de inteligência artificial, é necessária uma massa de dados consideravelmente grande para que você consiga os resultados esperados e quem tem esse dados para você validar seu modelo são os datasets.

Não desdenhe dos datasets, você só sabe o quanto são necessários quando precisar deles hehehe

Talk is cheap, show me the “code”

Não é um “code”, mas a citação é boa heheh

Você pode acessar os datasets através desse link https://datasetsearch.research.google.com/ e pasmem: é como se fosse uma busca do Google.

Explore a vontade! Busque o dataset pelo assunto que tens interesse, avalie as fontes, autor, licença e leia a descrição para saber de fato o que contém e divirta-se!

Muito obrigado por ler esse artigo e diga aí se você testou os datasets e como foi a sua experiência! Vai ser legal compartilharmos conhecimento.

Grande abraço e vamos fazer coisas incríveis!

Fonte

Essa dica foi passada pelo Miguel Neves que foi meu colega no MBA sobre Inteligência Artificial aqui na PUCRS. Valeu Miguel!!!

Link passado pelo Miguel https://towardsdatascience.com/google-just-published-25-million-free-datasets-d83940e24284

Easter Egg do Thanos no Google

Easter Egg do Thanos no Google

Não sei quem surpreende mais, o Google ou a Marvel. Na ocasião do lançamento do filme da Capitã Marvel, eu fiz um post sobre o site do filme que causou uma nostalgia tremenda nos programadores tiozões como eu, você pode conferir esse post aqui.

Se na vez da Capitã Marvel foi a vez da Marvel, agora é o Google quem surpreende. Vai lá, teste você mesmo! Entre no google, pesquise por thanos e clique na manopla…

Tour nos datacenters da Google Streetview

E ai galera do café!

Se você está passando por aqui certamente você gosta de tecnologia e hoje em dia em se tratando de tecnologia não podemos deixar de falar em Google.

Estava passeando peloYoutube quando encontrei um vídeo que mostrava o interior dos datacenters do Google, ai foi fácil perder alguns minutos passeando por lá.

Se você quiser conferir, entra lá http://www.google.com/about/datacenters/inside/streetview/

Até a próxima 😉

robots.txt – Restrições aos buscadores

Por quê?

Muitas vezes precisamos “esconder” determinados diretórios, arquivos e até mesmo sites inteiros dos gulosos robôs de busca, também conhecidos como robots e webcrawlers. Com um simples arquivo texto chamado robots.txt, podemos fazer isso!

Esse arquivo deve ser salvo no diretório ROOT do seu servidor web com o nome de robots.txt de forma que possa ser acessível a todos como esse exemplo:

http://www.seusite.com.br/robots.txt

O que são Robot’s?

Robot (ou robô) é um programa de computador que percorre automaticamente as páginas da Internet em busca de documentos, a fim de indexá-los, validá-los ou monitorar alterações de conteúdo.
Hoje em dia, alguns robôs estão tão avançados que podem aceitar um sitemap e até preencher um formulário para ver a saída no navegador, como é o caso do GoogleBot, motor de busca do Google.
O arquivo robots.txt foi proposto como um padrão para esses mecanismos, onde nós, desenvolvedores podemos informar diretórios e arquivos que possam ou não ser indexados por eles. Não podemos confundir com possibilidade de acesso, esse arquivo, simplesmente faz como que o conteúdo não seja indexado. Para proibir acesso, utilizamos as permissões de arquivos e/ou o arquivo .htaccess.

O arquivo robots.txt

Existem alguns sites que geram esse arquivo conforme o preenchimento de um formulário, mas vou explicar aqui como você mesmo pode criar o seu.

Basicamente ele é dividido em três partes:

  1. Definição dos motores
  2. Permissões
  3. Sitemap (somente para Yahoo, Google e MSN)
Você pode criar esse arquivo em qualquer editor de texto, como o NOTEPAD ou VI por exemplo.
1. Definições de motores
É possível setar diferentes permissões para motores de busca distintos, por exemplo, deixar o motor do Yahoo ver o diretório “produtos” mas o Google não. Essas definições são feitas com a diretiva:
User-agent

Possíveis valores para User-agent, são:

  • Google: User-agent: Googlebot
  • Yahoo: User-agent: Slurp
  • MSN: User-agent: msnbot
  • Todos os mecanismos: User-agent: *

Seguindo nosso exemplo, nosso robots.txt ficaria da seguinte forma:

User-agent:Slurp
Disallow: /
Allow: /produtos

User-agent:Googlebot
Allow: /
Disallow: /produtos

2. Permissões

As permissões são facilmente definidas pelas diretivas Allow e Disallow, para permitir e negar, respectivamente os diretórios ou arquivos sequentes.

User-agent:*
Allow:/
Disallow: /admin
Disallow: /fotos
Allow: /produtos
Allow: /artigos

O Exemplo acima utiliza o caractere “/” para definir todo o site e nega a indexação dos diretórios admin e fotos, liberando os diretórios produtos e artigos.

Assim como em expressões regulares, temos os caractéres “*” (asterísco) e “$” (sifrão), que indicam,  “qualquer coisa” e “terminado com” respectivamente, alguns exemplos abaixo:

User-agent:*
Disallow:produtos/*.png$
Allow:produtos/
Disallow:admin/*.js
Disallow:fotos/*?*cat=cordas

O Googlebot, preenche os formulários contidos na página para verificar a resposta obtida. Para bloquearmos esse tipo de ação, caso estejamos utilizando o método GET, podemos fazer da seguinte forma.

</pre>
<form action="search.php?s=" method="get">...</form>
<pre>

Nesse caso precisamos negar a indexação de “search.php?s” para isso acrescentaremos a seguinte linha na seção do googlebot no nosso robots.txt

User-agent: Googlebot
Disallow: /search.php?s=*

Quando especificar mais de um motor ele ignora o resto e passa a utilizar somente as especificações daquele motor, isto é, NÃO HÁ HERANÇA!

Meta-tag’s e links

Também é possível especificar uma META-TAG para fazer a proibição diretamente na página:

<meta name="robots" content="noindex,nofollow">
<a href="foo.php" rel="nofollow">Foo</a>

O “parâmetro” noindex, diz ao bot que o site não deve ser indexado e o parâmetro nofollow, que o site no link não deve ser seguido.
Nofollow é muito útil em seções de comentários, onde os spans abusam da nossa paciência. Essa forma não é eficaz para acabar com essa praga, mas pelo menos o eles não ganham pontos com links no Googlebot por exemplo.

Links para testar

É possível testar se os caminhos especificados no robots.txt realmente existem. Fora a identificação de prováveis erros de sintaxe em arquivos muito grandes e gerados manualmente, não vejo muita utilidade nesses caras. Para testar utilize o próprio arquivo robots do Google, até nele eles apontam erros, principalmente relacionados ao ‘*’.

http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php
http://www.frobee.com/robots-txt-check

Exemplos

Podemos visualizar alguns bons exemplos nos links abaixo:

http://www.google.com.br/robots.txt
http://www.facebook.com.br/robots.txt (leia os direitos)
http://www.marketingdebusca.com.br/robots.txt
http://www.mestreseo.com.br/robots.txt (bem humorado hehe)

Segundo o site BrPoint, o seguinte robots.txt é ideal para quem utiliza WordPress.

User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /tags/
User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# qualquer endereco que contenha ?
Disallow: /*?*
# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
#Sitemap
Sitemap: http://www.brpoint.net/sitemap.xml

Geradores de robots.txt

Fontes:

Como instalar o botão +1 do Google

Pessoal,

Para instalar o botão +1 do Google, em seu site ou blog, basta seguir esses passos:

1º) Copie e cole o código abaixo entre as tag’s head do seu código

<script type="text/javascript" src="https://apis.google.com/js/plusone.js">
  {lang: 'pt-BR'}
</script>

2º) Inclua esse código onde você quer que apareça o botão do [b]Google +1[/b]

<g:plusone></g:plusone>

Mais informações no site do Google

Abraço

Mark Zuckerberg, o mais seguido no Google+ (?!)

Mark Zuckerberg no Google+

Verdade!

Segundo o site Socialstatistics.com Mark Zuckerberg, sócio fundador do Facebook é seguido, hoje por 110,820 pessoas.

Mark está superando os próprios fundadores do Google Larry Page em 2º com 61678 seguidores e Sergey Brin em 3º 47,033 seguidores. O idealista do próprio Google+, Vic Gundotra, aparece na 5º posição com 32,144 seguidores.

Mas e agora, será que é ele mesmo? Dizem que sim, até mesmo pelas pessoas que estão adicionadas como amigos, todas existem!

 

 

Lista Google+
Lista Google+

Mark Zuckerberg no Google+
Mark Zuckerberg – O mais seguido no Googl+