BUSCADORES DE INFORMACION EN INTERNET

     A principios del 96 Lycos Inc. dimensionaba Internet con la
existencia aproximada de 19 Millones de páginas Web. Otros
estimados anunciaban un crecimiento de hasta 150 Millones de
páginas Web para finales del año, las cuales
podrían incluir alrededor de 50 a 60 miles de millones de
palabras, sin contar las páginas Web creadas en forma
dinámica con los scrips CGI.

     Se tiene que admitir que los motores de búsqueda vienen
a ser de una gran ayuda cuando se necesita encontrar alguna
información en medio de la inmensa cantidad de
información pública que hay en INTERNET (es como
tratar de buscar una aguja en un pajar, en buen
salvadoreño).

     A muchos les son ya conocidos los URL (del inglés
Uniform Resource Locator) de Alta Vista, Excite, InfoSeek Guide,
Lycos, Open Text, Web Crawler y WWW Worm, que están entre
los motores de búsqueda más reconocidos. Diferentes
son los catálogos de Internet como Yahoo
(http://www.yahoo.com) y Magellan (http://www.magellan.com), los
cuales son directorios de páginas Web registrados por los
administradores de servidores Web y contienen solamente la
descripción que dichos administradores incluyen al registrar
su página Web.

     Los motores de búsqueda pretenden crear un
índice detallado de la información pública que
se encuentra en Internet en forma de páginas Web. Primero se
inicia una búsqueda de todos los posibles URL's a
través de Internet usando unos programas llamados "spiders"
que navegan por sí mismos a lo largo de Internet
coleccionando direcciones de los URL's públicos. Luego, se
envían ciertos programas robots a las direcciones
coleccionadas para obtener una copia de las páginas
encontradas. Otros motores de búsqueda utilizan algoritmos
para analizar los URL encontrados y seleccionar a cuáles ir
a copiar total o parcialmente el contenido de las páginas
Web. Esto hace que los motores de búsqueda difieran unos de
otros.

     La lógica de búsqueda utilizada en las bases de
información creadas es el otro punto crucial en el que se
pueden diferenciar los distintos motores de búsqueda que hay
en Internet. Según pruebas realizadas, se ha encontrado que
a pesar de creerse lo contrario, todos los motores de
búsqueda tardan aproximadamente lo mismo en generar la
respuesta a una solicitud en particular. También, contrario
a lo que se pudo haber pensado, para una solicitud en particular,
no todos arrojan los mismos resultados. A continuación se
presentan los resultados de la evaluación de 7 motores de
búsqueda disponibles en Internet.

ALTA VISTA (http://altavista.digital.com)

     El motor de búsqueda de Altavista surgió como
una demostración del equipo DEC ALPHA de 64bits en Diciembre
de 1995, manejando en la actualidad más de dos millones de
aciertos por día. El motor de búsqueda de Altavista
no será el que provee los resultados más certeros,
pero sí los más comprensivos. Las búsquedas
arrojan una inmensa cantidad de resultados donde la gente con
paciencia puede encontrar lo que busca. La carga por día de
Altavista se calcula cerca de los 2 millones de aciertos por
día, usando su extensa base de datos de 21 millones de
páginas completamente indexadas. El sistema en el que
está montado el motor de búsqueda es un equipo DEC
ALPHA corriendo a 266 MHz con 256MB de memoria principal.

EXCITE (http://www.excite.com)

     Excite nació a principios de 1996, ganado popularidad
cuando el Navegador Netscape lo puso como punto de enlace para el
comando "Net Directory". Excite provee tanto un motor de
búsqueda como un directorio de URL's organizado por
categorías. Excite es uno de los lugares que ofrece un
servicio más completo, además del directorio de URL's
y el motor de búsqueda, los usuarios pueden encontrar
resúmenes de las noticias del día, columnas de
opiniones, caricaturas y revisiones de páginas Web.

InfoSeek Guide (http://guide.infoseek.com)

     Aunque InfoSeek no se jacta de tener la base de datos
más grande, sí se precia de tener las herramientas de
búsqueda más eficientes. InfoSeek le permite realizar
búsquedas bastante elaboradas, aunque no tenga incluidos en
su base de datos referencias a URL's que han estado en el Web
durante meses. Una característica sobresaliente de InfoSeek
es que los resultados de una búsqueda son los más
completos de entre los otros motores de búsqueda evaluados.
Cada acierto muestra el título de la página Web, el
URL fuente, un puntaje de relevancia, el tamaño del archivo
y un resumen generado por computadora. Además, los
resultados de una búsqueda pueden ser utilizados para
refinar los aciertos encontrados. Desafortunadamente el tener
sólo un millón de páginas almacenadas en su
base de datos, hace que InfoSeek no sea el único motor de
búsqueda que se necesite usar. Al igual que otros motores de
búsqueda InfoSeek es de acceso gratis, aunque también
ofrece servicios profesionales de búsqueda a través
de bases de datos de compañías comerciales. 

Lycos (http://www.lycos.com)

     Lycos es probablemente el motor de búsqueda más
antiguo entre los más conocidos en la actualidad. Similar a
Altavista, Lycos proporciona los resultados más
comprensibles, sin embargo, para búsquedas precisas no se
suele encontrar apuntadores adecuados sino hasta después de
las dos primeras páginas de resultados. Una de las
características más significativas de Lycos es que su
base de datos de URL's es acumulativa y no es reconstruida como en
otros motores de búsqueda. Esto le permite a Lycos comparar
la popularidad de los URL's viendo cuantos nuevos apuntadores
tienen dichos URL's con respecto a la ultima revisión de la
base de datos. Los resultados de popularidad son utilizados para
ordenar los resultados de las búsquedas según
popularidad. Lycos no recupera completamente el contenido de los
URL's incluidos en la base de datos, sino que elabora un breve
resumen usando encabezados, títulos, apuntadores y las
primeras palabras de los párrafos principales. Esto le
permite a Lycos proporcionar aciertos más relevantes en las
búsquedas.

Open Text (http://www.opentext.com)

     Open Text podría considerarse la herramienta de
búsqueda mejor diseñada en el Web. Tiene la mejor
colección de herramientas de búsqueda y una muy
atractiva apariencia, presentándose como un lugar muy
amigable para visitar. Las herramientas de búsqueda tienen
capacidad de usar opciones para depurar las búsquedas, y los
resultados son ordenados por su relevancia. Similarmente a
InfoSeek, OpenText permite re-utilizar los resultados de una primer
búsqueda para refinar los aciertos en una segunda
búsqueda. Open Text pretende llegar a tener una base de
datos de URL's de alrededor de 10 millones de páginas Web.

WebCrawler (http://webcrawler.com)

     La filosofía de WebCrawler es simple: mantener una base
de datos refinada y mostrar una lista de resultados bien depurada.
Este lugar ofrece pocas (si alguna) herramientas auxiliares para la
búsqueda, pero demuestra ser uno de los más
rápidos. El problema con este motor de búsqueda es
que no ofrece un resumen de los aciertos encontrados, solamente se
muestra el título de la página Web y un calificativo
de relevancia, por lo que sólo cuando el título de
las páginas Web contienen una ocurrencia del
parámetro de búsqueda, el Webcrawler
proporcionará resultados. La base de datos del Webcrawler es
reemplazada mensualmente, haciendo una revisión de todos los
servidores de páginas Web en Internet, aunque sólo
mantiene unas 500,000 páginas Web registradas en su base de
datos. Con este motor de búsqueda se obtienen los resultados
más afines por las razones descritas anteriormente.

WWWWorm (http://wwww.cs.colorado.edu/wwww/)
     Habiendo sido uno de los primeros lugares en proporcionar
herramientas de búsqueda para Internet, el WWWWorm
está quedándose atrás en estos días.
Actualmente casi no es tomado en cuenta cuando se discute sobre los
mejores motores de búsqueda. Desafortunadamente no se le ha
dado una continuación a la atención requerida por un
punto de presencia en Internet que ofrece un motor de
búsqueda, pues todavía se sigue usando el mismo
computador en el que se originó y que se halla
adicionalmente cargado con otras actividades computacionales. Esto
fue confirmado cuando en las pruebas hechas tardó 10
segundos el sólo acceder a la página Web del WWWWorm,
lo que para los otros lugares fue tiempo suficiente para conectarse
al motor de búsqueda, hacer la búsqueda y conectarse
a alguno de los lugares mostrados en los aciertos. El WWWWorm
mantiene solamente los títulos y apuntadores de tres
millones de páginas Web.