Recuperación de Información: De interés

I Congreso Español de Recuperación de Información (CERI 2010)

Novedades

Las fotos tomadas durante la conferencia están disponibles en Flickr. Todas ellas han sido anotadas con la etiqueta "ceri2010".http://www.flickr.com/search/?q=ceri2010
Se ha creado un grupo en SlideShare, donde se pueden publicar las transparencias de las presentaciones.http://www.slideshare.net/event/ceri-201

La primera edición del Congreso Español de Recuperación de Información surge de la constatación de que en los últimos años ha tomado cuerpo en nuestro país una actividad investigadora y empresarial significativa en el área, como así lo refleja la presencia de investigadores españoles en los principales foros científicos, y la orientación de una actividad empresarial importante hacia este campo. Esta percepción se encauzó, entre otras iniciativas, en la celebración del Seminario Español de Recuperación de Información (SERI 2009) en la Facultad de Ciencias de la Documentación de la Universidad Complutense de Madrid, en abril de 2009. En aquel encuentro se gestaron, entre otras propuestas, la celebración del presente congreso.

El I Congreso Español de Recuperación de Información se celebrará en la Escuela Politécnica Superior de la Universidad Autónoma de Madrid el 15 y 16 de junio de 2010. El congreso busca ser un foro de encuentro para investigadores, profesionales y docentes con interés en el área de la Recuperación de Información, en el que se obtenga una visión de la actividad que se realiza en (pero no restringida a) España, así como servir de punto de encuentro para el debate y fomento de futuras iniciativas orientadas a la promoción del área en nuestro país.
__________________________________________________________________________________

Modelos de Recuperación de Información

Un modelo de recuperación de información consiste en:

D: Representación de los documentos
Q: Representación de las queries
F: Un marco (framework) de modelado para D y Q y las relaciones entre ellos.
R(q,di): Un ranking o función de similaridad que ordene los documentos con respecto a una query dada

Modelos de RI clásicos

El modelo probabilístico

Introducido en la década de los setenta por Robertson y Sparck Jones, también es conocido como modelo de recuperación de independencia binaria (BIR)11. Este modelo se basa en las siguientes consideraciones:

- Para caracterizar los documentos de la colección se han empleado ciertos términos de indización (palabras en principio).

- Dada una necesidad informativa del usuario, existe un subconjunto de documentos de la colección que contiene exclusivamente los documentos relevantes en relación a ella.

El modelo probabilístico parte exclusivamente de la presencia o ausencia de los términos en los documentos de la colección. Se trata también de un modelo binario, como el modelo booleano.

En un caso real el usuario no sabe cuáles son los términos de indización que configurarían la consulta ideal. Tampoco sabe, en qué medida los términos empleados en la consulta permiten discernir los documentos relevantes y rechazar simultáneamente los documentos irrelevantes.

La gran aportación del modelo probabilístico a la recuperación de información consiste en el fenómeno denominado retroalimentación por relevancia: la utilización de información generada bien en procesos de recuperación anteriores, bien durante el propio proceso de búsqueda.

El modelo vectorial

El modelo vectorial definido por Salton (Salton, 1968) es ampliamente usado en operaciones de RI, así como en operaciones de categorización automática, filtrado de información, etc. El modelo vectorial trata de recoger la relación de cada documento Di, de una colección de N documentos, con el conjunto de las m características de la colección. Formalmente un documento puede considerarse como un vector que expresa la relación del documento con cada una de esas características. Di --> di = (ci1, ci2,...,cim)

El vector identifica en qué grado el documento Di satisface cada una de las m características. En el vector, cik es un valor numérico que expresa en qué grado el documento Di posee la característica k. El concepto característica se concreta en la ocurrencia de determinadas palabras o términos en el documento. Si se consideran los términos como características definitorias del documento, el proceso que debe seguir el sistema pasa primero por seleccionar aquellos términos útiles que permitan discriminar unos documentos de otros.

Ordenando los documentos recuperados en orden decreciente, el modelo de recuperación vectorial toma en consideración documentos que sólo se emparejan parcialmente con la pregunta, así el conjunto de la respuesta con los documentos alineados es mucho más preciso que el conjunto recuperado por el modelo booleano. La mayoría de los motores de búsqueda lo implementan como estructura de datos. El alineamiento suele realizarse en función del parecido (o similitud) de la pregunta con los documentos almacenados.

El modelo booleano

El modelo de recuperaci&oacuten booleano es uno de los m&eacutetodos de recuperaci&oacuten m&aacutes extendidos, basado en la teor&iacutea de conjuntos y el &aacutelgebra booleana. Realiza la recuperaci&oacuten mediante un criterio de decisi&oacuten binario, pertinente o no pertinente y utiliza como mecanismo de indizaci&oacuten los llamados &iacutendices inversos.

Define a los documentos como un conjunto de t&eacuterminos de indexaci&oacuten o palabras clave.

Diccionarios: Conjunto de todos los t&eacuterminos T = {t1,t2,t3, ...}.

Documento: Conjunto de t&eacuterminos del diccionario donde tiene valor Di = {t1,t2,t3, ...} donde cada valor uno de los ti = verdad si es una palabra clave del documento

Las preguntas son expresiones booleanas cuyos componentes son t&eacuterminos del diccionario:

Operadores:O (∪), Y (∩), No (-)

El m&eacutetodo booleano destaca por ser un modelo de recuperaci&oacuten sencillo, mientras que considera la relavancia como un aspecto puramente binario.

________________________________________________________________________________

Dublin Core

El modelo de metadatos Dublin Core (DC) o DCMI, es un esfuerzo internacional e interdisciplinar abocado a definir el conjunto de elementos básicos para describir los recursos electrónicos y facilitar su recuperación. El DC, surgido en 1995 en el seno de OCLC, es hoy un esquema maduro de metainformación cuyo conjunto de elementos se ha formalizado como norma ANSI/NISO Z39.85-2001.

La Iniciativa de Metadatos Dublin Core, simplemente Dublin Core o DC, es actualmente el modelo de metadatos más aceptado para describir, recuperar e intercambiar información electrónica, independientemente del dominio científico o disciplinar.

En sus orígenes surge como un modelo de metadatos dirigido a la descripción embebida en el código HTML por parte de los autores de los recursos, para una recuperación más eficaz y cualificada en motores y otras herramientas de búsqueda Web, liderando el desarrollo de metadatos estructurales para la recuperación de información en Internet.

Con el tiempo, el Dublin Core ha ido evolucionando hacia un formato de registro para el intercambio de información y a un estándar básico para la interoperabilidad entre repositorios de información científica, sobre todo gracias a la integración del DC con el protocolo OAI-PMH, pero también la versatilidad del esquema y al nivel de estandarización formal que ha adquirido.

Elementos del Dublin Core (DCMES):

Son 15 elementos básicos para la descripción y recuperación de recursos digitales independientemente de la disciplina, tipo de información o dominio científico de los recursos. Características:

a) El nivel de formalización formal que ha adquirido rápidamente. Uno de los problemas habituales de los estándares para la Web es que se desarrollan y utilizan en un nivel de facto o de especificaciones de dominio público, siendo muy pocos los que alcanzan en nivel de reconocimiento como estándar formal ISO.

b) Es un estándar simple y fácil de entender y usar, cuya codificación es independiente de una sintaxis particular y también de una disciplina o dominio científico específico. La mayoría de los estándares de metadatos nacen ligados a una sintaxis de codificación (normalmente XML)

c) La simplicidad del DC, no va en detrimento de su especificidad, ya que se puede usar con diferentes matizaciones, vocabularios y establecer perfiles de aplicación específicos para un dominio informativo particular.

d) Hoy en día es un formato ampliamente aceptado con grandes usos y aplicaciones en todo el mundo.

Dublin Core es el formato de metadatos más conocido y extendido a nivel general, pero sobre todo en el ámbito de la biblioteconomía y documentación. Se diseñó en 1995 para ofrecer un estándar general, sencillo y descriptivo de los documentos web de cualquier ámbito o materia. La indización a través de los metadatos de Dublin Core se realiza de forma muy sencilla mediante un conjunto de 15 elementos, opcionales y repetibles que permiten describir el contenido del documento digital. Estos elementos tienen que ver con distintos tipos de información: el contenido propiamente dicho, la propiedad intelectual y los elementos relativos a la temporalidad, formato e identificación del documento El modelo Dublin Core es de fácil aplicación para la descripción y catalogación de documentos y recursos web de todo tipo. Además, el Consorcio Web W3C y la IETF trabajan conjuntamente con la Dublin Core Metadata Initiative (DCMI) para codificar los metadatos DC en RDF. El modelo de Dublin Core se usa actualmente en muchas bibliotecas y centros de documentación de todo el mundo. En España, la RedIris, Red Española de I+D que agrupa a la mayor parte de las bibliotecas públicas universitarias y centros de documentación españoles, sigue el modelo de metadatos de Dublin Core. La norma ISO 15836:2003 es la que recoge el conjunto de elementos del modelo Dublin Core. Debido a la importancia de este modelo se ofrece ofrece una información más detallada en un capítulo aparte de esta tesis denominado Metadatos Dublin Core

Podemos clasificar estos elementos en tres grupos que indican la clase o el ámbito de la información que se guarda en ellos:

a) Elementos relacionados principalmente con el contenido del recurso: title, subject, description, source, language, relation, coverage

b) Elementos relacionados principalmente con el recurso cuando es visto como una propiedad intelectual: creator, publisher, contributor, rights

c) Elementos relacionados principalmente con la instación del recurso: date, type, format, identifier
_________________________________________________________________________Modelos Sistemas y Evaluación

__________________________________________________________________________________
Modelos avanzados de recuperación

Encuentros/conferencias:

TREC (Text REtrieval Conference): http://trec.nist.gov/
NTCIR (NII-NACSIS Test Collection for IR Systems Project): http://research.nii.ac.jp/ntcir/
CLEF (Cross-Language Evaluation Forum): http://www.clef-campaign.org/

Servicios adicionales de algunos buscadores:

Motores de búsqueda de respuestas:

START: http://start.csail.mit.edu/
Ask Jeeves: http://www.ask.com/
BrainBoost: http://www.brainboost.com/ [http://www.answers.com/bb/]
Answers.com: http://www.answers.com/
ASU QA: http://qa.wpcarey.asu.edu/
AnswerBus: http://www.answerbus.com/
Wikipedia: http://www.wikipedia.com
Nota: una pequeña idea de cómo se hacen las cosas aquí.

VIRI, Visual Information Retrieval Interfaces

Tree-Maps (en la red existen multitud de ejemplos: http://marumushi.com/apps/newsmap/newsmap.cfm)
Tag Clouds o nubes de etiquetas (véase por ejemplo Newzingo: http://newzingo.com/)
Grafos (un ejemplo es el buscador WebBrain: http://www.webbrain.com/)
Existen sistemas que combinan varias representaciones:

Sistema de metabúsqueda KartOO: http://www.kartoo.com/
Utilización de clustering de resultados, como Clusty: http://clusty.com/

VisualComplexity: http://www.visualcomplexity.com/

Páginas

De interés