Operación Normal de Combine System


A continuación se muestra un conjunto de actividades relacionadas con el uso interno de Mirador de El Salvador y de su robot Combine System.


Esto es necesario ya que cada programa de Combine utiliza las variables de entorno para poder comunicarse con los demonios.

Para poder establecer las variables, se recomiendan dos formas:

    1. Montar las variables de forma manual. De acuerdo al intérprete de comandos que se esté utilizando, se podrá usar uno de estos comandos:
    2. . etc/setenvs.sh

      source etc/setenvs.csh

    3. Definir un usuario que tenga derechos sobre el directorio donde está instalado Combine y especificar en su archivo de configuración de recursos para el usuario la llamada descrita en el literal a.
Es necesario iniciar cada uno de los componentes, para ello existen programas de arranque para cada uno, los cuales se listan a continuación:
    1. bin/start-cabin
    2. Inicia el componente principal de Combine, activando en memoria el demonio Scheduler

      bin/sd.pl

      el demonio encargado de las reglas de robots, rrd;

      bin/idbd $RRD db/rr.db pids/rrd

      el demonio que maneja la base de datos de fechas de extracción de URLs, guard;

      bin/idbd $GUARD db/guard.db

      y el demonio de registro de eventos, Tellogd.

      bin/tellogd $TELLOGD pids/tellogd

    3. bin/start-harvester
    4. Inicia los recolectores de Combine. Por defecto, Combine está configurado para ejecutar 4 recolectores simultáneamente, los cuales son procesos que permanecen activos recolectando durante cierto tiempo, luego son eliminados y vueltos a activar por el proceso keepalive.

      bin/keepalive.pl pids/keep_harvester_A bin/harvester.pl A &

      bin/keepalive.pl pids/keep_harvester_B bin/harvester.pl B &

    5. bin/start-hdb
Inicia los siguientes demonios: bin/idbd $IDBD db/idb.db pids/idbd Demonio que controla la relación entre URLs y registros en la base de datos interna de Combine, donde los documentos Web son almacenados dentro de un archivo cuyo nombre es el resultado del algoritmo MD5 sobre el documento. bin/rd $RD pids/rd Demonio que recoge los documentos entregados por los recolectores y los deposita en el directorio hrf, de donde serán recogidos por los analizadores (parsers). bin/keepalive.pl pids/keep_parser_0 bin/parser.pl 0 & Inicia un Analizador. bin/sd-ctrl.pl open Otras funciones que permite el demonio son: bin/sd-ctrl.pl stat Despliega el estado de Scheduler. bin/sd-ctrl.pl close Detiene la ejecución de Combine. bin /sd-ctrl.pl howmany Despliega el número de URLs que están pendientes de ser recolectadas por los harvester. bin/sd-ctrl.pl hosts Despliega un listado de servidores con el número de URLs por servidor que faltan por recolectar. se creó un escrito de shell de Linux que ejecute cada una de las tareas consecutivamente, y al final cambie el estado de Scheduler a abierto. ./iniciar-todo Para cargar una URL, se utiliza la siguiente sintaxis: bin/selurl.pl < url-file | bin/jcf-builder.pl | bin/sd-load.pl Donde: selurl.pl es la rutina que filtra URLs según los patrones que se especificaron en los archivos etc/config_allow y etc/config.exclude.

url-file es un archivo que contiene un listado de URLs.

bin/jcf-builder.pl Convierte URLs en JCFs.

bin/jcf-sd-load.pl Carga las JCFs a Scheduler.

bin/new-url.pl | bin/selurl.pl | bin/jcf-builder.pl | bin/sd-load.pl bin/retry-unavailable.pl bin/idb2hrs.pl

bin/hrs2jcf.pl < hrs/idb.hrs | bin/sd-load.pl

bin/stop-cabin (detiene el componente CABIN)

bin/stop-harvester (detiene los recolectores)

bin/stop-hdb (detiene los demonios que manejan la base de datos HDB)

bin/stop-all (detiene todos los componentes de Combine)

bin/listar.pl hdb | bin/convertir.pl Esto genera un archivo llamado mirador.iso que deberá utilizarse como archivo maestro para WWWIsis. loadiso.sh mirador.iso

fullinv.sh mirador.iso


 

Una vez se ha generado y procesado el archivo mirador.iso, queda listo el archivo maestro para ser consultado desde el Web.

 

Esquemas demostrativos del uso externo de Mirador de El Salvador y de su robot.

(Tamaño aproximado 80 KB)
Anterior     Contenido     Siguiente