04 Sep

3.3.2.2.4 Cuarta etapa: el control semántico
Teóricamente, es posible introducir relaciones semánticas de equivalencia, de jerarquía y de asociación entre los descriptores libres. Las relaciones de equivalencia pueden establecerse de dos formas:

1.- De forma automática


Consiste en introducir los descriptores libres con diferentes formas, y después relacionar los diferentes descriptores de tal manera que cuando los usuarios hagan una consulta por un descriptor el sistema extienda la consulta al resto de los descriptores equivalentes. Van Slype llama a cada grupo de descriptores equivalentes «clase de equivalencia».
– Hay varios tipos de sistemas de búsqueda. Algunos extienden automáticamente la consulta a los descriptores asociados. Pero otros permiten al usuario decidir si extiende la consulta a los descriptores asociados o no.

2.- De forma intelectual

– consiste en elegir un descriptor libre preferente para cada clase de equivalencia, y dar la categoría de término no preferente al resto de descriptores. Con este sistema, se tomaría un término como descriptor.
– En la práctica sería crear relaciones de equivalencia típicas de tesauro con una lista de descriptores libres. Sin embargo habría que actualizar constantemente la indización.
Las relaciones jerárquicas y asociativas Van Slype afirma que «si se ha decidido crearlas, deben ser introducidas entre clases de equivalencia y no entre descriptores.
Es muy difícil establecer relaciones semánticas en una lista de descriptores libres, porque el crecimiento del vocabulario conlleva un trabajo extra de mantenimiento permanente de la lista.
3.3.2.2.5 La edición de la lista definitiva
– Los descriptores libres pueden presentarse de dos formas: en forma impresa y en una base de datos.
– La complejidad de una lista impresa depende de las relaciones que decidamos introducir.
– los descriptores libres se presentan en bases de datos en un índice.
3.3.2.3 Ventajas
1.- Es un sistema de indización altamente específico, ya que permite almacenar cualquier concepto que aparezca en el documento aunque no exista todavía un descriptor que represente ese concepto.
2.- el indizador puede usar una expresión léxica por una expresión no léxica. De este modo se reduce la pérdida de información que se produce en los sistemas de indización por extracción.
3.- Es relativamente fácil indizar con descriptores libres, ya que no es preciso utilizar muchas reglas para indizar el documento.
4.- es un sistema adecuado para disciplinas con términos especializados bien definidos, y siempre que las búsquedas se limiten exclusivamente a esos términos.
En estos casos:
– el grado de consistencia de los términos es muy elevado
– la posibilidad de prever qué términos serán usados en la búsqueda es muy elevada
Es un sistema adecuado para las ciencias exactas y naturales.
3.3.2.4 Inconvenientes
1.- Como el indizador no toma como punto de referencia ningún vocabulario predeterminado, el grado de imprevisión en la representación del contenido es muy alto. Se suele utilizar el término que utiliza el autor, lo que no significa que todos usen ese término para representar ese concepto.
2.- la calidad de las búsquedas es muy baja debido a que el usuario, o el experto en sistemas de información que ayude al usuario en la búsqueda, debe plantear la consulta utilizando las mismas expresiones que las empleadas por el indizador.
El usuario se verá obligado a intentar compilar todas las expresiones del lenguaje natural que, podrían haber sido utilizadas por los autores del índice
– como consecuencia de la ambigüedad y diversidad de las expresiones de la lengua natural, las respuestas de la búsqueda serán incompletas e imprecisas, a no ser que se trate de una disciplina con un vocabulario carente de ambigüedad.
3.- no son un sistema adecuado para las humanidades, caracterizadas por la ambigüedad terminológica.
Según Van Slype, a la hora de la indización, cuando la cantidad de expresiones posibles para un mismo concepto sea demasiado elevada, es aconsejable elegir como descriptor libre la expresión más utilizada para referirse al resto. En este caso no es necesario disponer de un vocabulario establecido previamente, sino que basta con tener un programa informático capaz de traducir los términos que coincidan por la expresión elegida durante el proceso de indización y almacenamiento, siempre y cuando el término no sea ambiguo.

3.4 Indización por asignación: características generales

Es el sistema que consiste en asignar a los documentos términos de indización procedentes de un lenguaje de indización, previamente establecido, para representar su contenido.
Características:
La importancia de la indización por asignación es consecuencia de la imprevisión en la representación conceptual que caracteriza a los lenguajes naturales, o no controlados.
Permiten controlar fácilmente la ambigüedad del lenguaje natural asignando a cada concepto una sóla expresión alfabética o numérica.
La indización a partir de un vocabulario controlado presupone que al indizar tan sólo se puede recurrir a los descriptores o encabezamientos de materia, incluidos en dicho vocabulario
Al trabajar con vocabularios controlados se elimina la variabilidad implícita a las expresiones del lenguaje natural mediante el proceso de control de sinónimos.
Permiten representar los conceptos de tal forma que después, en las búsquedas, es fácil prever cómo se representó el contenido.
El grado de fidelidad en la representación del contenido depende del grado de especificidad de los descriptores del lenguaje de indización.
Un requisito para que sean funcionales es que el grado de especificidad de los términos de indización o descriptores debe ser elevado.
La extensión, y el grado de especificidad de un vocabulario predeterminado es limitada. Por lo que cualquier índice basado en este tipo de vocabulario dispondrá de un grado de especificidad menor que por medio de otros sistemas como los de extracción o sistemas libres
Un inconveniente de la indización por asignación viene del análisis del indizador.
Para que un índice controlado sea funcional, el indizador debe buscar y utilizar los descriptores más acertados y específicos de los que disponga el vocabulario de un lenguaje de indización para representar los conceptos y temas que se traten en un documento.
Toda indización debe ser exhaustiva, detallada o específica y precisa en la elección del concepto a retener, pero más esta indización por asignación.
Los sistemas de la indización por asignación son:
a) Los encabezamientos de materia
b) Los tesauros
c) Las clasificaciones o sistemas clasificatorios

Deja un comentario