CABIN: | start-cabin |
HARVESTER | start-harvester |
HDB | start-hdb |
Las cadenas JCF son utilizadas como contenedores de información que caracteriza la recolección y ordenamiento de una tarea.
Formato:
Registro de una línea de texto compuesto por un indicador de
versión de formato, y al menos un campo o parámetro.
JCF/0.0::=
|
'JCF/0.0' PARAMETRO (* ' ' PARAMETRO *) |
PARAMETRO :: =
|
NOMBRE '=" ' VALOR ' " ' |
NOMBRE :: =
|
PALABRA |
VALOR :: =
|
(* [^\n\r\t"] *) |
LETRA :: =
|
(* LETRA | DIGITO *) |
HARVESTER
Se encarga de activar un número definido de agentes de recolección llamados harvesters, los cuales se encargan de solicitar registros JCFs a Scheduler, si no existe ningún JCF disponible, el agente es puesto a esperar durante 20 segundos antes de solicitar un nuevo JCF.
Si existe un JCF pendiente, Scheduler se encagará de consultar a idbd que es el demonio encargado de controlar la base de datos que controla la última visita a este servidor, si ya es permitido visitarlo debido a las reglas de robot, es decir si ya pasó 1 minuto desde dicho evento y si la URL no ha sido visitada en los últimos 30 días (período modificable), el registro JCF es entregado al recolector (harvester).
El recolector se encarga de conectarse al servidor y extraer el documento, el cual es guardado en formato especial hrf, desde donde los Analizadores o Parsers se encargarán de recoger.
Si el documento no pudo ser extraído por alguna razón, harvester se encarga de registrar tal evento enviándo copia del resultado del intento al demonio bitácora Tellogd.
Si el documento ya fue borrado de su posición original, harvester registra dicha situación en formato hrf para que el analizador tome la acción apropiada.Las instancias del recolector son ejecutadas durante un número limitado de veces, después del cual muere el proceso, liberando de esa forma la memoria utilizada. Al terminar una instancia del recolector, otra es activada por el programa keepalive.pl, el cual es un proceso permanente que se encarga de lanzar difentes instancias de otro una vez estas han finalizado.
HDB
Este componente agrupa a los demonios de análisis (parsers), de almacenamiento (sistema de archivos de Linux) y de ordenamiento (idbd).
El parser, al igual que los recolectores es un proceso de duración limitada que se encarga de verificar que exista un registro tipo hrf disponible para trabajar sobre él. Primero extrae toda la información necesaria y la pone en formato wir (Web Index Record), el cual agrupa todas las etiquetas, encabezados, y contenidos del formato HTML en campos de una sola línea. Este registro es ideal para ser utilizado por una rutina de interfaz hacia un motor de búsqueda como Mirador de El Salvador u otro tipo de servicio de consulta.El sistema de archivos de Linux es utilizado para mantener una base de datos formada por un conjunto de archivos organizados en un listado de directorios de dos niveles, donde el primer nivel de directorios está formado por los primeros dos caracteres del nombre de cada registro; el segundo nivel está formado por los siguientes dos caracteres del nombre de dicho registro; y el nombre de los registros es el resultado del algoritmo Message Digest 5 (MD5) sobre la URL del documento.
Nombre | Archivo | Uso |
Perl versión 5.004_04 | /pub/perl/src/5.0/perl_5004.04.tar.gz | Compilador de Perl.
Utilizado por la mayoría de escritos de Combine |
Base 64 | /pub/perl/modules/by-module/MIME/
MIME-Base64-2.05.tar.gz |
Contiene un codificador y decodificador apegado al estándar
de Extensiones de Propósito Múltiple al Correo de Internet
(MIME).
Es utilizado por la Interfaz www-perl. |
Librería Data::Dumper versión 2.081 | /pub/perl/modules/by-module/Data/
Data-Dumper-2.081.tar.gz |
Biblioteca de Funciones que mejoran el rendimiento de programas que utilizan estructuras de datos basadas en texto, especialmente cuando tales estructuras deben ser impresas. |
Librería de Funciones de conectividad a la Red. | /pub/perl/modules/by-module/Net/
libnet-1.0605.tar.gz |
Librería utilizada por la interfaz www-perl. |
Librería www-Perl versión 5.16 | /pub/perl/modules/by-module/
WWW/libwww-perl-5.16.tar.gz |
Librería funciones que sirven de interfaz entre los programas en Perl y el Web. |
Message Digest 5 | /pub/perl/modules/by-module/
MD5/md5-1.7.tar.gz |
Algoritmo de codificación basado en llaves de 32 bytes. Sirve para generar nombres de archivo únicos. |