BUSCADORES DE INFORMACION EN INTERNET A principios del 96 Lycos Inc. dimensionaba Internet con la existencia aproximada de 19 Millones de páginas Web. Otros estimados anunciaban un crecimiento de hasta 150 Millones de páginas Web para finales del año, las cuales podrían incluir alrededor de 50 a 60 miles de millones de palabras, sin contar las páginas Web creadas en forma dinámica con los scrips CGI. Se tiene que admitir que los motores de búsqueda vienen a ser de una gran ayuda cuando se necesita encontrar alguna información en medio de la inmensa cantidad de información pública que hay en INTERNET (es como tratar de buscar una aguja en un pajar, en buen salvadoreño). A muchos les son ya conocidos los URL (del inglés Uniform Resource Locator) de Alta Vista, Excite, InfoSeek Guide, Lycos, Open Text, Web Crawler y WWW Worm, que están entre los motores de búsqueda más reconocidos. Diferentes son los catálogos de Internet como Yahoo (http://www.yahoo.com) y Magellan (http://www.magellan.com), los cuales son directorios de páginas Web registrados por los administradores de servidores Web y contienen solamente la descripción que dichos administradores incluyen al registrar su página Web. Los motores de búsqueda pretenden crear un índice detallado de la información pública que se encuentra en Internet en forma de páginas Web. Primero se inicia una búsqueda de todos los posibles URL's a través de Internet usando unos programas llamados "spiders" que navegan por sí mismos a lo largo de Internet coleccionando direcciones de los URL's públicos. Luego, se envían ciertos programas robots a las direcciones coleccionadas para obtener una copia de las páginas encontradas. Otros motores de búsqueda utilizan algoritmos para analizar los URL encontrados y seleccionar a cuáles ir a copiar total o parcialmente el contenido de las páginas Web. Esto hace que los motores de búsqueda difieran unos de otros. La lógica de búsqueda utilizada en las bases de información creadas es el otro punto crucial en el que se pueden diferenciar los distintos motores de búsqueda que hay en Internet. Según pruebas realizadas, se ha encontrado que a pesar de creerse lo contrario, todos los motores de búsqueda tardan aproximadamente lo mismo en generar la respuesta a una solicitud en particular. También, contrario a lo que se pudo haber pensado, para una solicitud en particular, no todos arrojan los mismos resultados. A continuación se presentan los resultados de la evaluación de 7 motores de búsqueda disponibles en Internet. ALTA VISTA (http://altavista.digital.com) El motor de búsqueda de Altavista surgió como una demostración del equipo DEC ALPHA de 64bits en Diciembre de 1995, manejando en la actualidad más de dos millones de aciertos por día. El motor de búsqueda de Altavista no será el que provee los resultados más certeros, pero sí los más comprensivos. Las búsquedas arrojan una inmensa cantidad de resultados donde la gente con paciencia puede encontrar lo que busca. La carga por día de Altavista se calcula cerca de los 2 millones de aciertos por día, usando su extensa base de datos de 21 millones de páginas completamente indexadas. El sistema en el que está montado el motor de búsqueda es un equipo DEC ALPHA corriendo a 266 MHz con 256MB de memoria principal. EXCITE (http://www.excite.com) Excite nació a principios de 1996, ganado popularidad cuando el Navegador Netscape lo puso como punto de enlace para el comando "Net Directory". Excite provee tanto un motor de búsqueda como un directorio de URL's organizado por categorías. Excite es uno de los lugares que ofrece un servicio más completo, además del directorio de URL's y el motor de búsqueda, los usuarios pueden encontrar resúmenes de las noticias del día, columnas de opiniones, caricaturas y revisiones de páginas Web. InfoSeek Guide (http://guide.infoseek.com) Aunque InfoSeek no se jacta de tener la base de datos más grande, sí se precia de tener las herramientas de búsqueda más eficientes. InfoSeek le permite realizar búsquedas bastante elaboradas, aunque no tenga incluidos en su base de datos referencias a URL's que han estado en el Web durante meses. Una característica sobresaliente de InfoSeek es que los resultados de una búsqueda son los más completos de entre los otros motores de búsqueda evaluados. Cada acierto muestra el título de la página Web, el URL fuente, un puntaje de relevancia, el tamaño del archivo y un resumen generado por computadora. Además, los resultados de una búsqueda pueden ser utilizados para refinar los aciertos encontrados. Desafortunadamente el tener sólo un millón de páginas almacenadas en su base de datos, hace que InfoSeek no sea el único motor de búsqueda que se necesite usar. Al igual que otros motores de búsqueda InfoSeek es de acceso gratis, aunque también ofrece servicios profesionales de búsqueda a través de bases de datos de compañías comerciales. Lycos (http://www.lycos.com) Lycos es probablemente el motor de búsqueda más antiguo entre los más conocidos en la actualidad. Similar a Altavista, Lycos proporciona los resultados más comprensibles, sin embargo, para búsquedas precisas no se suele encontrar apuntadores adecuados sino hasta después de las dos primeras páginas de resultados. Una de las características más significativas de Lycos es que su base de datos de URL's es acumulativa y no es reconstruida como en otros motores de búsqueda. Esto le permite a Lycos comparar la popularidad de los URL's viendo cuantos nuevos apuntadores tienen dichos URL's con respecto a la ultima revisión de la base de datos. Los resultados de popularidad son utilizados para ordenar los resultados de las búsquedas según popularidad. Lycos no recupera completamente el contenido de los URL's incluidos en la base de datos, sino que elabora un breve resumen usando encabezados, títulos, apuntadores y las primeras palabras de los párrafos principales. Esto le permite a Lycos proporcionar aciertos más relevantes en las búsquedas. Open Text (http://www.opentext.com) Open Text podría considerarse la herramienta de búsqueda mejor diseñada en el Web. Tiene la mejor colección de herramientas de búsqueda y una muy atractiva apariencia, presentándose como un lugar muy amigable para visitar. Las herramientas de búsqueda tienen capacidad de usar opciones para depurar las búsquedas, y los resultados son ordenados por su relevancia. Similarmente a InfoSeek, OpenText permite re-utilizar los resultados de una primer búsqueda para refinar los aciertos en una segunda búsqueda. Open Text pretende llegar a tener una base de datos de URL's de alrededor de 10 millones de páginas Web. WebCrawler (http://webcrawler.com) La filosofía de WebCrawler es simple: mantener una base de datos refinada y mostrar una lista de resultados bien depurada. Este lugar ofrece pocas (si alguna) herramientas auxiliares para la búsqueda, pero demuestra ser uno de los más rápidos. El problema con este motor de búsqueda es que no ofrece un resumen de los aciertos encontrados, solamente se muestra el título de la página Web y un calificativo de relevancia, por lo que sólo cuando el título de las páginas Web contienen una ocurrencia del parámetro de búsqueda, el Webcrawler proporcionará resultados. La base de datos del Webcrawler es reemplazada mensualmente, haciendo una revisión de todos los servidores de páginas Web en Internet, aunque sólo mantiene unas 500,000 páginas Web registradas en su base de datos. Con este motor de búsqueda se obtienen los resultados más afines por las razones descritas anteriormente. WWWWorm (http://wwww.cs.colorado.edu/wwww/) Habiendo sido uno de los primeros lugares en proporcionar herramientas de búsqueda para Internet, el WWWWorm está quedándose atrás en estos días. Actualmente casi no es tomado en cuenta cuando se discute sobre los mejores motores de búsqueda. Desafortunadamente no se le ha dado una continuación a la atención requerida por un punto de presencia en Internet que ofrece un motor de búsqueda, pues todavía se sigue usando el mismo computador en el que se originó y que se halla adicionalmente cargado con otras actividades computacionales. Esto fue confirmado cuando en las pruebas hechas tardó 10 segundos el sólo acceder a la página Web del WWWWorm, lo que para los otros lugares fue tiempo suficiente para conectarse al motor de búsqueda, hacer la búsqueda y conectarse a alguno de los lugares mostrados en los aciertos. El WWWWorm mantiene solamente los títulos y apuntadores de tres millones de páginas Web.