Indice de Artigos

Resultados Enganosos

Renato Sabbatini

A World Wide Web, com suas centenas de milhões de documentos, tem a sua utilidade grandemente aumentada graças aos mecanismos de busca ("search engines"), como o Altavista, Lycos, HotBot, InfoSeek, Excite, e centenas de outros, gerais e especializados. Eles estão entre os sites mais acessados da Internet (dezenas de milhões de acessos por dia, em alguns casos), e são fundamentais para achar alguma coisa através de palavras-chave ou frases, que permitem identificar o documento ou imagens desejados.

Portanto, como dependemos tanto deles, é muito importante que os mecanismos de busca (algorítmos) usados pelos sites sejam isentos, corretos e a prova de manipulações enganosas. Quando realizamos uma busca, os sites e documentos encontrados aparecem em ordem inversa de relevância, ou seja, como geralmente recebemos uma grande quantidade de "links" como resultado da pesquisa, aqueles que têm a maior probabilidade de ser aquilo que buscamos, aparece em primeiro lugar, e são o que a maioria dos usuários vai checar primeiro.

Os algoritmos de determinação da relevância de um site variam muito. Na maioria dos mecanismos de busca eles são relativamente simples. O índice de relevância é maior se o documento pesquisado tiver todas as palavras que o usuário especificou, por exemplo,oue se elas estiverem juntas na mesma frase, ou no mesmo parágrafo, ou ainda no título e no texto, ou se estiverem presentes em um campo chamado META, que identifica as palavras-chave. Outros mecanismos contam quantas vezes ocorrem as palavras-chave no texto, e se existem sinônimos, que também ocorrem.

Com esse conhecimento em mãos, existem muitos sites na Internet que procuram "maquiar" os seus textos, com o objetivo de forçar um índice de relevância maior, e aparecer mais em cima na lista de resultados das buscas. Um truque comum é digitar a mesma palavra-chave muitas vezes, em diversas combinações. Outra é registrar a mesma página no mecanismo de busca, sob diferentes nomes e diferentes combinações de palavras-chave. Isso tudo não é ilegal, embora não seja estritamente honesto, pois teoricamente todos os sites deveriam "concorrer" em igualdades de condição. Alguns mecanismos de busca mais "honestos", como o Altavista, simplesmente eliminam do índice as páginas da Web que façam uso abusivo desse recurso.

Mas a tendência mais preocupante é o uso que vários mecanismos de busca comerciais estão fazendo com o objetivo de alterar de propósito o resultado de uma pesquisa. O famoso Yahoo!, por exemplo, filtra os resultados para eliminar da listagem alguns concorrentes, como o Mining Co., um dos mais recentes e melhores catálogos da Net. Vários mecanismos estão aceitando pagamentos de sites comerciais que querem que seus resultados apareçam em primeiro lugar. Isso sem falar na prática algo condenável, na minha opinião, de colocar anúncios que estão ligados à palavra-chave que você escolheu (por exemplo, a Hewlett-Packard paga para que apareça um anúncio sobre seus scanners, toda vez que alguem usar essa palavra-chave). Não chega a ser tão ruim, pois isso é claramente identificado na página de resultados, como sendo um anúncio. Mas isso está começando a mudar.

Segundo o respeitável colunista Jesse Berst, da Editora Ziff-Davis (www.zdnet.com/), vai ficar cada vez pior. A maioria dos mecanismos de busca tradicionais não estão investindo em novas tecnologias, não estão resistindo à tentação de vender e censurar seus resultados, e não estão deixando tudo isso de forma clara para seus milhões de usuários, que confiam em seus serviços. Além disso, há um problema que está afetando todos, e para o qual ainda não há solução: o enorme crescimento da Web está deixando todos para trás. Os índices on-line estão ficando cada vez mais defasados em relação ao volume de coisas disponíveis. Este crescimento eventualmente provocará um dilema sério: o número de novos " links" por dia será maior que os que os mecanismos de busca poderão achar em 24 horas. O atraso se acumulará, inevitavelmente.

Enquanto esse dia não chega, seria bom investir em novas tecnologias de indexação e busca.
 

Para Saber Mais

 
  1. Sabbatini, RME - Espionando a Web
  2. Sabbatini, RME - A rede inteligente
  3. Sabbatini, RME - A Web personalizada



Publicado em: Jornal Correio Popular, Campinas, 01/09/98.

Autor: Email: sabbatin@nib.unicamp.br

WWW: http://home.nib.unicamp.br/~sabbatin
Jornal: Email: cpopular@cpopular.com.br
WWW: http://www.cosmo.com.br


Copyright © 1998 Correio Popular, Campinas, Brazil