Dicas Vas-y.com
Menu

Forum

motore de Pesquisa (Search Engines):

Como e Onde achar a informação que você está procurando.
Introdução

Eles são fundamentais para você achar na web a informação ou o " site " que você está procurando. Mas são tantos os search engines (tanto nacionais quanto estrangeiros), que duas perguntas se tornam inevitáveis: " Afinal, quais as diferenças entre eles? " e " Quais são os melhores? ".

Nos textos a seguir vou tentar responder, ao menos em parte, a estas perguntas.

Diferenças entre os " Search Engines "

Tamanho e alcance do banco de dados:

  • Ele indexa só a home-page de cada site, só algumas páginas de cada site ou todas as páginas de cada site?
  • Ele faz indexação automática? Ou depende da inclusão manual de cada endereço? No segundo caso, se o responsável por uma página não souber que determinado " search engine " existe, não se cadastrará nele e sua página não será listada... Portanto, um indexador automático tem mais chances de ter um banco de dados de fato abrangente.
  • Ele está limitado a um determinado país ou região?
  • Ele está limitado às páginas de uma determinada língua?
  • Actualidade e fiabilidade do banco de dados.
  • Páginas feitas, digamos, há menos de dois dias, já poderão ser encontradas nele? Alguns search engines levam semanas para cadastrar uma página (ou alterar seu endereço/descrição); outros levam menos de 24 horas, como o AltaVista e o Infoseek.
  • As respostas dele incluirão muitos " dead links ", ou seja, links para páginas que já não existem ou mudaram de endereço? Muitos " dead links " significa perda de tempo...

Capacidade de encontrar as informações solicitadas no banco de dados

  • Ele indexa todas as palavras de cada página ? Ele será capaz de encontrar a palavra pesquisada, por exemplo, " Brasília ", em todas as suas páginas que têm esta palavra ? Muitos search engines só indexam o conteúdo e a descrição do site.
  • Ele permite buscas sofisticadas? Permite por exemplo, excluir uma certa palavra, procurar uma palavra apenas quando perto de outra, ou ainda, limitar as buscas às páginas que estejam em determinado idioma?
  • Ele leva em consideração as meta-tags da página? Com meta-tags, aumentam a facilidade de o dono da página catalogar palavras-chaves sinónimas (ex: " foto " e " imagem " num site de fotografia) e relacionadas ao assunto (ex: " arquitectura ", numa página sobre monumentos de Brasília). Ao mesmo tempo, com meta-tags aumentam as chances de pessoas sem escrúpulos associarem às suas páginas palavras que nada têm a ver com o conteúdo das mesmas (ex: " sexo ") para assim conseguir mais acessos.

Velocidade da busca:

  • Ele pesquisa rapidamente seu banco de dados?
  • Ele lhe obriga a carregar muitos gráficos (propaganda), tornando o carregamento demorado, cada vez que retorna os resultados?

Relevância das informações retornadas:

  • Suponhamos que ele achou 500 páginas com a palavra " Brasília ". As realmente ligadas ao assunto aparecem primeiro ou boa parte das primeiras páginas trazidas " não têm nada a ver "?

Estrutura: hierárquicos versus não hierárquicos:

  • Search engines " hierárquicos " organizam as páginas por assunto (Artes, Governo, Turismo), etc. Exemplo: a maioria dos search engines nacionais (Cadê, Surf, etc.) e alguns estrangeiros, sendo o exemplo clássico o Yahoo.
  • Os search engines hierárquicos tendem a facilitar o encontro de páginas de um determinado assunto; por outro lado, não abrangem tantas páginas (URL's) quanto os procuradores não hierárquicos. Os hierárquicos talvez tenham, por exemplo, uma secção " Praias " e mesmo uma secção " Búzios ". Porém, talvez sejam incapazes de achar páginas sobre uma praia mais exótica, cujo nome só apareça no meio de uma página secundária de alguns sites. Para achar a praia exótica do exemplo, um search engine não hierárquico, que indexasse todas as palavras de inúmeras URL's, seria a melhor opção. Exemplos: o AltaVista e o nacional Bookmarks.
Prós e Contras de alguns " search engines "

Bookmarks

  • Prós: (1) faz indexação automática; (2) indexa todas as palavras de cada página.
  • Contras: (1) só indexa páginas que estejam em domínios brasileiros (deixa de fora, por exemplo, páginas de brasileiros que estejam em Geocities, páginas localizadas em domínios " .com " que não sejam " .com.br ", etc.).

Cadê

  • Prós: (1) homepage muito amigável e simpática; (2) por ser muito conhecido, o brasileiro que tem uma homepage quase certamente a cadastrou ao menos no Cadê (o que o torna, para algumas finalidades, um índice mais abrangente que os demais).
  • Contras: (1) só indexa o título e a descrição do site. Portanto, se a palavra-chave que você procura não estiver no título ou na descrição, o Cadê não acha; (2) o cadastramento de novas páginas chega a levar meses. Ou seja: um site excelente, mas que exista há apenas algumas semanas, pode simplesmente não constar no Cadê.

(*) Por exemplo: se você procurar por " Kubitschek ", o Cadê só mostrará sites que tenham esta palavra fazendo parte do título ou do pequeno parágrafo que descreve cada endereço. Caso contrário, mesmo que o site fale exaustivamente do ex-presidente, será simplesmente ignorado. Já outros mecanismos de busca, como AltaVista e Radar UOL, encontrarão todas as páginas que citam a palavra " kubitschek ", mesmo que numa simples frase de um texto enorme.

Radar UOL

  • Prós: (1) faz indexação automática; (2) indexa todas as palavras de cada página; (3) indexa sites inteiros e não apenas algumas URLs de cada um; (4) recursos de pesquisa poderosos; (5) respeita os " meta tags "; (6) é " personalizável ".
  • Contras: (1) por default, só pesquisa páginas " no Brasil ", o que não é o ideal; (2) pode ser difícil, para usuários pouco experientes, conseguir resultados relevantes; (3) dá a prioridade a documentos pequenos, ao apresentar os resultados. Páginas com bastante conteúdo dificilmente aparecerão entre os primeiros resultados; (4) a interface é tão feia quanto a do " pai " HotBot; (5) a base de dados, ao menos em relação a páginas brasileiras, é bastante defasada. Páginas que não existem há mais de 3 meses ainda são encontradas, desmentindo a alegação do site de que " a base é actualizada a cada 2 semanas ".

, páginas brasileiras hospedadas em domínios " .com " (sem o " .br ") não são apresentadas nos resultados!(*) Penso que o ideal seria que o default do Radar UOL fosse pesquisar páginas " no mundo todo ". Como o default é " pesquisar no Brasil "

Surf

  • Prós: (1) indexa título, descrição e conteúdo. Retorna em 1o lugar sites que tenham a palavra pesquisada no título ou no conteúdo, conseguindo assim relevância e alcance de resultados.
  • Contras: (1) indexa potencialmente qualquer URL, inclusive aquelas sem conteúdo prático; (2) o " design " da Homepage pode ser aprimorado.
Problemas com páginas Geocities e similares
  • Alguns search engines estrangeiros (ex: Infoseek) não estão mais cadastrando páginas localizadas no servidor Geocities, ou só os estão cadastrando com restrições (ex: HotBot e AltaVista). Na verdade, o problema não é com Geocities apenas, mas com vários dos servidores que hospedam gratuitamente milhares de páginas.
  • problema é que na maioria dos sites localizados em Geocities as informações são pouco confiáveis. Muitos não têm qualquer informação relevante. Os search engines talvez tenham concluído que não vale a pena indexar, digamos, 10.000 URL's boas de Geocities se para isso tiverem que indexar, digamos, 500.000 URL's ruins.
  • Para quem tem um domínio virtual (www.qualquercoisa.com) apontando para Geocities, o problema continua. O AltaVista, por exemplo, na hora de cadastrar o " www.qualquercoisa.com " vai ser direccionado para Geocities e não irá cadastrar a URL.
Afinal, qual " search engine " devo usar ?

Depende do tipo de informação que você está procurando.

  • Se você procura algo em português, talvez possa começar a pesquisa por ferramentas de pesquisa brasileiras. Destas, eu particularmente prefiro o Surf, por combinar a pesquisa " hierárquica " (como fazem também o " Cadê " e o " Achei ", por exemplo), com a pesquisa do conteúdo do site (como faz também o " BookMarks ").

Se o que você procura pode estar em inglês ou outra língua...

  • se for uma palavra (ou expressão ou conjunto de palavras) que provavelmente terá poucas ocorrências, valeria a pena usar os search engines que contêm maior número de URL's e indexam todas as palavras - AltaVista, Infoseek e Radar UOL, por exemplo.
  • se for uma palavra mais comum, talvez os anteriores retornem páginas demais (a não ser que você saiba usar bem operadores boleanos - " and ", " or ", etc - junto de outras palavras-chave), e você tenha que ficar caçando as poucas relevantes. Nesse caso, um índice hierárquico e com menos URL's, como o Yahoo, fosse a melhor opção.
  • Experimente, por curiosidade, pesquisar " Brasília " nos vários search engines. Search engines como AltaVista e Excite retornarão algumas poucas páginas relevantes misturadas a um monte de " lixo " (páginas que podem até ser excelentes, mas são poucos relevantes em relação à palavra buscada).
  • Se você resolver pesquisar uma palavra/expressãomais rara, como " Ajman " (um emirado árabe) ou " Bruno Giorgi ", os resultados serão bem diferentes.
  • A performance de engines como o AltaVista melhorará bastante se a sua busca for mais específica: se você deseja, por exemplo, informações turísticas e fotos sobre Brasília, em inglês, experimente colocar " +Brasilia +information +images ". Com estas três palavras, os resultados serão bem mais relevantes.

Conclusão? Dificilmente um único search engine atenderá a todos os casos. Eu, particularmente, uso principalmente o " AltaVista, o " Infoseek ", o " Radar UOL " e o " Yahoo ", e, quanto estou interessado em páginas brasileiras, uso também os search engines brasileiros.

Um último detalhe: alguns search engines desconsideram acentos e maiúsculas, outros não. Para o AltaVista, por exemplo, " Brasília " e " Brasilia " são palavras diferentes, devido ao acento. O melhor é procurar " brasilia " (sem acento e sem nenhuma maiúscula) para encontrar todas as formas da palavra. Portanto, é importante saber como funciona, em relação a acentos e a maiúsculas, o search engine que você está usando.

teste das Ferramenta de pesquisas