lunes, 18 de octubre de 2010

Concepto


Concepto de recuperación de información.

Cuando un usuario se plantea la necesidad de obtener nueva información sobre un asunto o materia de su interés, está manifestando una carencia, una situación irregular de sus estructuras mentales y cognitivas. Belkin, Oddy y Crofts han hablado de ASK, o "Anomalous State of Knowledge" (BELKIN, ODDY y CROFTS, 1982), un estado mental de incertidumbre que mueve al individuo a desarrollar una serie de acciones para salir de ese estado. Ingwersen deduce la existencia de un problema personal de espacio, "problem space" (INGWERSEN, 1992), por la diferencia entre el estado actual del conocimiento del usuario, y del estado que sería necesario para solucionar algún tipo de necesidad planteada. La respuesta a este tipo de situaciones es un conjunto de actividades que desarrolla el individuo para salir del estado anómalo, o para solucionar su problema de espacio, actividades que están íntimamente relacionadas con la adquisión de nueva información, y con el proceso comunicativo pertinente.
La recuperación de información es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc. (CROFT, 1987) Todos estos factores ya han sido tratados exhaustivamente por la bibliografía especializada, por lo que no resulta necesario insistir sobre ellos en este lugar. Sin embargo, si es necesario recordar, como se ha señalado en la introducción, que la informatización de estas tareas se engloba dentro del campo de la Documentación Automatizada o Informática Documental.


Fig.3.1. Proceso genérico de recuperación de información


En principio, la recuperación de información engloba las acciones encaminadas a identificar, seleccionar y acceder a los recursos de información útiles al usuario, sin perjuicio de otras acepciones del concepto, en las que puede profundizarse utilizando la bibliografía correspondiente (ROBERTSON, 1977). Como puede deducirse del capítulo anterior, el objeto documental se ha organizado y representado, utilizando una serie de normas y convenciones, en un soporte informático, mediante el diseño, creación y mantenimiento de bases de datos (RIJSBERGEN, 1979). La siguiente fase lógica es la recuperación del contenido de las mismas, siguiendo unos criterios de pertinencia. En el ámbito de la documentación automatizada, la recuperación de información adoptará la forma del acceso, selección y explotación de las bases de datos, utilizando diferentes técnicas.
El planteamiento de la recuperación de información (Information Retrieval, IR), en su moderno concepto y discusión, hay que buscarlo en la realización de los test de Cranfield (ELLIS, 1990: 1-17), y en la bibliografía generada desde ese momento y referida a los mecanismos más adecuados para extraer, de un conjunto de documentos, aquellos que fuesen pertinentes a una necesidad informativa dada. Las propias características de las entidades del mundo real, así como del tratamiento al que son sometidas, proveen a la representación de las mismas de un cierto grado de indefinición. Es decir, que el proceso documental, por muy alto nivel de perfección que pueda alcanzar, siempre introduce un factor de distorsión en la representación del documento. Si se considera que el acceso al documento se realiza casi por completo utilizando esta representación como intermediario, puede deducirse que los mecanismos en los que se basa la IR no son perfectos, sino que se verán influenciados por ese factor, independientemente de su validez técnica.
Ha sido Blair (BLAIR, 1990: 2-4) quien ha resumido las diferencias entre "data retrieval" (recuperación de datos, RD) e "information retrieval" (recuperación de información, RI), utilizando como criterios las siguientes cuestiones:

1. Según la forma de responder a la pregunta: en RD se utilizan preguntas altamente formalizadas, cuya respuesta es directamente la información deseada. En RI las preguntas resultan difíciles de trasladar a un lenguaje normalizado, y la respuesta es un conjunto de documentos que pueden contener, sólo probablemente, lo deseado, con un evidente factor de indeterminación.


2. Según la relación entre el requerimiento al sistema y la satisfacción de usuario: en RD la relación es determinística entre la pregunta y la satisfacción. En RI es probabilística, a causa del nivel de incertidumbre presente en la respuesta.
3. Según el criterio de éxito: en RD el criterio a emplear es la corrección y la exactitud, mientras que en RI el único criterio de valor es la satisfacción del usuario, basada en un criterio personal de utilidad.
4. Según la rapidez de respuesta: en RD depende del soporte físico y de la perfección del algoritmo de búsqueda y de los índices. En RI depende de las decisiones y acciones del usuario durante el proceso de interrogación.
Ha señalado este autor la importancia, en ocasiones ignorada, que tiene el factor de predicción. Predicción por parte del usuario, ya que éste debe intuir, en numerosas ocasiones, los términos que han sido utilizados para representar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio de predicción es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información.

No hay comentarios: