memex Assuntos Login  

 
 
    parte    exata   frase Assuntos



     
Título: Ferramentas de busca na Web
Autor: CENDÓN, Beatriz Valadares
Tipo: Citação
Assunto: Search engines (motores de busca)


Descrição: Ciência da Informação, v.30, n.1. jan./abr. 2001. (p.39-49 (41))

Texto
MOTORES DE BUSCA

Ao contrário dos diretórios, os motores de busca não organizam hierarquicamente as páginas que colecionam.
Preocupam-se menos com a seletividade que com a abrangência de suas bases de dados, procurando colecionar
o maior número possível de recursos através do uso de softwares chamados robôs. Como suas bases de dados são extremamente grandes, podendo alcançar centenas de milhões de itens, permitem aos usuários localizar os itens desejados mediante buscas por palavras-chave, ou, às vezes, em linguagem natural.

Os motores de busca começaram a surgir quando o número de recursos na Web adquiriu proporções tais que impediam a sua coleta por meios manuais e a busca apenas através da navegação. seguem os links encontrados nesta página inicial. Usam algoritmos próprios para determinar que links devem seguir. Por exemplo, alguns recuperam os documentos da hierarquia superior de um grande número de servidores (abordagem breadth-first), enquanto outros capturam todos os documentos em links de um mesmo servidor (abordagem depth-first )...

ALIWEB (Archie-Like Indexing on the Web) e Harvest são exemplos das primeiras tentativas de criar motores de
busca por palavras-chave, e utilizavam tecnologias diferentes das atuais. O primeiro dos motores baseados
em robôs foi o WebCrawler, lançado em abril de 1994. Todos os motores atuais utilizam o método de robôs sendo
formados por quatro componentes: um robô, que localiza e busca documentos na Web; um indexador, que extrai a
informação dos documentos e constrói a base de dados; o motor de busca propriamente dito; a interface, que é
utilizada pelos usuários.

Os robôs, também chamados de aranhas (spiders), agentes, viajantes (wanderers), rastejadores (crawlers) ou vermes (worms), são programas que o computador hospedeiro da ferramenta de busca lança regularmente na Internet, na tentativa de obter dados sobre o maior número possível de documentos para integrá-los, posteriormente, à sua base de dados. Existem várias estratégias que os robôs podem utilizar para se locomoverem de um documento a outro, utilizando-se dos links existentes nas páginas da Web. Geralmente, eles iniciam a busca a partir de sites conhecidos, especialmente daqueles que possuem muitos links, recuperam a sua home page e, sistematicamente, seguem os links encontrados nesta página inicial. Usam algoritmos próprios para determinar que links devem seguir. Por exemplo, alguns recuperam os documentos da hierarquia superior de um grande número de servidores (abordagem breadth-first), enquanto outros capturam todos os documentos em links de um mesmo servidor (abordagem depth-first ).

(...)

Os documentos encontrados pelos robôs são encaminhados aos indexadores que extraem a informação
das páginas HTML e as armazenam em uma base de dados. Esta base de dados do motor de busca consiste de
informações julgadas importantes como os URLs ou endereços das páginas HTML, títulos, resumos, tamanho
e as palavras contidas nos documentos.

A interface, normalmente uma página Web, é utilizada pelos usuários para efetuar a pesquisa na base de dados.
Fornece meios para que o usuário formule a sua consulta, que é recebida e transmitida para o software de busca ou motor de busca propriamente dito. Este é um programa que localiza, entre os milhões de itens na base de dados, aqueles que devem constituir a resposta. O programa também é responsável pela ordenação dos resultados, de maneira que os mais relevantes apareçam em primeiro lugar na lista de resultados. Os resultados mostrados contêm uma lista de descrições de sites e seus links.