|
|
motore
de Pesquisa (Search Engines):
Como e Onde achar a
informação que você está procurando.
IntroduçãoEles são fundamentais para você achar
na web a informação ou o "site" que você está
procurando. Mas são tantos os search engines (tanto nacionais
quanto estrangeiros), que duas perguntas se tornam inevitáveis:
"Afinal, quais as diferenças entre eles?" e "Quais
são os melhores?". Nos textos a seguir vou tentar responder,
ao menos em parte, a estas perguntas. Diferenças entre os "Search Engines"
Tamanho e alcance do banco de
dados:
- Ele indexa só a home-page de cada
site, só algumas páginas de cada site ou todas as páginas
de cada site?
- Ele faz indexação automática? Ou
depende da inclusão manual de cada endereço? No segundo
caso, se o responsável por uma página não souber que
determinado "search engine" existe, não se
cadastrará nele e sua página não será listada...
Portanto, um indexador automático tem mais chances de
ter um banco de dados de fato abrangente.
- Ele está limitado a um determinado
país ou região?
- Ele está limitado às páginas de
uma determinada língua?
- Actualidade e fiabilidade do banco
de dados.
- Páginas feitas, digamos, há menos
de dois dias, já poderão ser encontradas nele? Alguns
search engines levam semanas para cadastrar uma página (ou
alterar seu endereço/descrição); outros levam menos de
24 horas, como o AltaVista e o Infoseek.
- As respostas dele incluirão muitos
"dead links", ou seja, links para páginas que
já não existem ou mudaram de endereço? Muitos "dead
links" significa perda de tempo...
Capacidade de encontrar as
informações solicitadas no banco de dados
- Ele indexa todas as palavras de
cada página ? Ele será capaz de encontrar a palavra
pesquisada, por exemplo, "Brasília", em todas
as suas páginas que têm esta palavra ? Muitos search
engines só indexam o conteúdo e a descrição do site.
- Ele permite buscas sofisticadas?
Permite por exemplo, excluir uma certa palavra, procurar
uma palavra apenas quando perto de outra, ou ainda,
limitar as buscas às páginas que estejam em determinado
idioma?
- Ele leva em consideração as meta-tags
da página? Com meta-tags, aumentam a facilidade de o
dono da página catalogar palavras-chaves sinónimas (ex:
"foto" e "imagem" num site de
fotografia) e relacionadas ao assunto (ex: "arquitectura",
numa página sobre monumentos de Brasília). Ao mesmo
tempo, com meta-tags aumentam as chances de pessoas sem
escrúpulos associarem às suas páginas palavras que
nada têm a ver com o conteúdo das mesmas (ex: "sexo")
para assim conseguir mais acessos.
Velocidade da busca:
- Ele pesquisa rapidamente seu banco
de dados?
- Ele lhe obriga a carregar muitos gráficos
(propaganda), tornando o carregamento demorado, cada vez
que retorna os resultados?
Relevância das informações
retornadas:
- Suponhamos que ele achou 500 páginas
com a palavra "Brasília". As realmente ligadas
ao assunto aparecem primeiro ou boa parte das primeiras páginas
trazidas "não têm nada a ver"?
Estrutura: hierárquicos versus não
hierárquicos:
- Search engines "hierárquicos"
organizam as páginas por assunto (Artes, Governo,
Turismo), etc. Exemplo: a maioria dos search engines
nacionais (Cadê, Surf, etc.) e alguns estrangeiros,
sendo o exemplo clássico o Yahoo.
- Os search engines hierárquicos
tendem a facilitar o encontro de páginas de um
determinado assunto; por outro lado, não abrangem tantas
páginas (URL's) quanto os procuradores não hierárquicos.
Os hierárquicos talvez tenham, por exemplo, uma secção
"Praias" e mesmo uma secção "Búzios".
Porém, talvez sejam incapazes de achar páginas sobre
uma praia mais exótica, cujo nome só apareça no meio
de uma página secundária de alguns sites. Para achar a
praia exótica do exemplo, um search engine não hierárquico,
que indexasse todas as palavras de inúmeras URL's, seria
a melhor opção. Exemplos: o AltaVista e o nacional
Bookmarks.
Prós
e Contras de alguns "search engines"
Bookmarks
- Prós: (1) faz indexação automática;
(2) indexa todas as palavras de cada página.
- Contras: (1) só indexa páginas
que estejam em domínios brasileiros (deixa de fora, por
exemplo, páginas de brasileiros que estejam em Geocities,
páginas localizadas em domínios ".com" que não
sejam ".com.br", etc.).
Cadê
- Prós: (1) homepage muito amigável
e simpática; (2) por ser muito conhecido, o brasileiro
que tem uma homepage quase certamente a cadastrou ao
menos no Cadê (o que o torna, para algumas finalidades,
um índice mais abrangente que os demais).
- Contras: (1) só indexa o título e
a descrição do site. Portanto, se a palavra-chave que
você procura não estiver no título ou na descrição,
o Cadê
não
acha; (2) o
cadastramento de novas páginas chega a levar meses. Ou
seja: um site excelente, mas que exista há apenas
algumas semanas, pode simplesmente não constar no Cadê.
(*) Por
exemplo: se você procurar por "Kubitschek", o Cadê só
mostrará sites que tenham esta palavra fazendo parte do título
ou do pequeno parágrafo que descreve cada endereço. Caso contrário,
mesmo que o site fale exaustivamente do ex-presidente, será
simplesmente ignorado. Já outros mecanismos de busca, como
AltaVista e Radar UOL, encontrarão todas as páginas que citam a
palavra "kubitschek", mesmo que numa simples frase de
um texto enorme. Radar UOL
- Prós: (1) faz indexação automática;
(2) indexa todas as palavras de cada página; (3) indexa
sites inteiros e não apenas algumas URLs de cada um; (4)
recursos de pesquisa poderosos; (5) respeita os "meta
tags"; (6) é "personalizável".
- Contras: (1) por default, só
pesquisa páginas "no Brasil", o que não é o
ideal; (2)
pode ser difícil, para usuários pouco experientes,
conseguir resultados relevantes; (3) dá a prioridade a
documentos pequenos, ao apresentar os resultados. Páginas
com bastante conteúdo dificilmente aparecerão entre os
primeiros resultados; (4) a interface é tão feia quanto
a do "pai" HotBot; (5) a base de dados, ao
menos em relação a páginas brasileiras, é bastante
defasada. Páginas que não existem há mais de 3 meses
ainda são encontradas, desmentindo a alegação do site
de que "a base é actualizada a cada 2 semanas".
, páginas brasileiras
hospedadas em domínios ".com" (sem o ".br")
não são apresentadas nos resultados!(*) Penso que o ideal seria que o default do
Radar UOL fosse pesquisar páginas "no mundo todo".
Como o default é "pesquisar no Brasil" Surf
- Prós: (1) indexa título, descrição
e conteúdo. Retorna em 1o lugar sites que tenham a
palavra pesquisada no título ou no conteúdo,
conseguindo assim relevância e alcance de resultados.
- Contras: (1) indexa potencialmente
qualquer URL, inclusive aquelas sem conteúdo prático; (2)
o "design" da Homepage pode ser aprimorado.
Problemas
com páginas Geocities e similares
- Alguns search engines estrangeiros
(ex: Infoseek) não estão mais cadastrando páginas
localizadas no servidor Geocities, ou só os estão
cadastrando com restrições (ex: HotBot e AltaVista). Na
verdade, o problema não é com Geocities apenas, mas com
vários dos servidores que hospedam gratuitamente
milhares de páginas.
- problema é que na maioria dos
sites localizados em Geocities as informações são
pouco confiáveis. Muitos não têm qualquer informação
relevante. Os search engines talvez tenham concluído que
não vale a pena indexar, digamos, 10.000 URL's boas de
Geocities se para isso tiverem que indexar, digamos, 500.000
URL's ruins.
- Para quem tem um domínio virtual (www.qualquercoisa.com)
apontando para Geocities, o problema continua. O
AltaVista, por exemplo, na hora de cadastrar o "www.qualquercoisa.com"
vai ser direccionado para Geocities e não irá cadastrar
a URL.
Afinal, qual "search engine" devo usar ?
Depende do tipo de informação que
você está procurando.
- Se você procura algo em português,
talvez possa começar a pesquisa por ferramentas de
pesquisa brasileiras. Destas, eu particularmente prefiro
o Surf, por combinar a pesquisa "hierárquica"
(como fazem também o "Cadê" e o "Achei",
por exemplo), com a pesquisa do conteúdo do site (como
faz também o "BookMarks").
Se o que você procura pode estar em
inglês ou outra língua...
- se for uma palavra (ou expressão
ou conjunto de palavras) que provavelmente terá poucas
ocorrências, valeria a pena usar os search engines que
contêm maior número de URL's e indexam todas as
palavras - AltaVista, Infoseek e Radar UOL, por exemplo.
- se for uma palavra mais comum,
talvez os anteriores retornem páginas demais (a não ser
que você saiba usar bem operadores boleanos - "and",
"or", etc - junto de outras palavras-chave), e
você tenha que ficar caçando as poucas relevantes.
Nesse caso, um índice hierárquico e com menos URL's,
como o Yahoo, fosse a melhor opção.
- Experimente, por curiosidade,
pesquisar "Brasília" nos vários search
engines. Search engines como AltaVista e Excite retornarão algumas poucas páginas
relevantes misturadas a um monte de "lixo" (páginas
que podem até ser excelentes, mas são poucos relevantes
em relação à palavra buscada).
- Se você resolver pesquisar uma
palavra/expressão mais rara, como "Ajman"
(um emirado árabe) ou "Bruno Giorgi", os
resultados serão bem diferentes.
- A performance de engines como o
AltaVista melhorará bastante se a sua busca for mais
específica: se você deseja, por exemplo, informações
turísticas e fotos sobre Brasília, em inglês,
experimente colocar "+Brasilia +information +images".
Com estas três palavras, os resultados serão bem mais
relevantes.
Conclusão? Dificilmente um único
search engine atenderá a todos os casos. Eu, particularmente,
uso principalmente o "AltaVista, o "Infoseek", o "Radar
UOL" e o "Yahoo", e, quanto estou interessado em páginas
brasileiras, uso também os search engines brasileiros. Um último detalhe: alguns search
engines desconsideram acentos e maiúsculas, outros não. Para o
AltaVista, por exemplo, "Brasília" e "Brasilia"
são palavras diferentes, devido ao acento. O melhor é procurar
"brasilia" (sem acento e sem nenhuma maiúscula) para
encontrar todas as formas da palavra. Portanto, é importante
saber como funciona, em relação a acentos e a maiúsculas, o
search engine que você está usando.
|