viernes, 5 de noviembre de 2010

Introducción sobre la Recuperación de Información y OpenIsis

Práctica "para llevar"

• En Recuperación de la Información se definen términos tales como "recall" y "precision" que sirven para la evaluación de la recuperación.

• Considere una necesidad de información I (de una colección de prueba) y su conjunto R de documentos relevantes. Sea R el número de documentos en este conjunto. Asuma que se está evaluando la estrategia de recuperación de la información de CDS/ISIS. Se procesa la solicitud I y se genera un conjunto de documentos de respuesta A. Sea A el número de documentos en este conjunto. Aún más, sea Ra
el número de documentos en la intersección de los conjuntos R y A.

• Recall es la fracción de los documentos relevantes que han sido recuperados. Esto es, Ra / R .

• Precision es la fracción de documentos recuperados (el conjunto A) que es relevante. Esto es, Ra / A .

• La práctica consistiría en efectuar pruebas para evaluar el recall y la precision de una colección de documentos en CDS/ISIS.











Recuperación de Información (IR) Parte I: Introducción a IR en

Recuperación de Información (IR) Parte I: Introducción a IR en

domingo, 24 de octubre de 2010

Procesamiento de Lenguajes Naturales


Introducción.



La búsqueda de información sobre Internet se hace mediante el uso de motores de búsqueda. Dichos motores deben encontrar paginas web de interés para cada usuario. Los motores permiten al usuario de entrar palabras o frases para guiarle en su búsqueda de información. A partir de esas palabras o frases el motor debe reconstituir el entorno de la búsqueda. Por eso, necesitan una análisis de la entrada de cada usuario, un tal análisis requiere un conocimiento importante sobre la sintaxis, la semántica, la ortografía y la gramática del idioma. Entonces el procesamiento del lenguaje natural es una herramienta necesaria para cada motores de búsqueda sobre Internet.

El Procesamiento del Lenguaje Natural (PLN) es una subdisciplina de la Informática y de la Lingüística que se carga de la aplicación de programas y técnicas informáticas a todos los aspectos de la comunicación entre humanos, o entre humanos y maquinas con lenguajes naturales. La aplicaciones relacionadas con este dominio son :

  • Traducción automática
  • Corrección de faltas ortografías
  • Recuperación y extracción de la información de textos
  • Comprensión del lenguaje
  • Generación automatizada de textos
  • Reconocimiento del habla
  • Síntesis de voz
  • Respuesta a pregunta




Almacenes de Datos

En el contexto de la informática, un almacén de datos (del inglés data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos (especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

Diseño de un almacén de datos 

Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia el almacén. Una vez construido, se requieren medios para manejar grandes volúmenes de información. Se diseña su arquitectura dependiendo de la estructura interna de los datos del almacén y especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organización o empresa, los cuales se describen a continuación: Situación actual de partida.- Cualquier solución propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura técnica existente y planeada de la compañía. Tipo y características del negocio.- Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones. Entorno técnico.- Se debe incluir tanto el aspecto del hardware (mainframes, servidores, redes,...) así como aplicaciones y herramientas. Se dará énfasis a los Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo operan, etc. Expectativas de los usuarios.- Un proyecto de data warehouse no es únicamente un proyecto tecnológico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad. Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construcción del data warehouse. Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que será entregado a los usuarios. Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de forma iterativa que se harán para llegar a la construcción del producto final deseado. Prueba del concepto tecnológico.- Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del data warehouse funcionará finalmente como se espera.

Recuperacion de datos en discos duros - Seguridad Informatica

Sistemas de Recuperación

Introducción a los Sistemas de Recuperación





Los Sistemas de Recuperación de Información asumen que el contenido de los documentos de la base de datos y las necesidades de información de cada usuario puede expresarse mediante un conjunto de términos índice, que serán utilizados para comparar los documentos almacenados con la consulta introducida por el usuario.

La mayor dificultad de los Sistemas de Recuperación de la información es predecir qué documentos son los más relevantes. Según las premisas que se adopten se producirán varios modelos de recuperación.


Modelos de recuperación:


Programa de Sistemas de Información y Documentación

Aquí encontrará los diferentes aplicativos WEB de software (Libre y Comercial) que  utiliza actualmente el programa de Sistemas de Información y Documentación que sirver como apoyo a la Docencia , Proyección Social y la Investigación:
  • Sistemas de Administración de los Laboratorios del programa: 

Sistema para la Reserva de Laborarorios 
Mrbs

  • Sistema para la Gerencia, Gestión y Control de Proyectos:


PhpCollab: PHPCollab permite administrar proyectos en Web con trabajo en equipo; administración de usuarios, tareas y seguimiento de proyectos; seguimiento de la aprobación de archivos; acceso de clientes al sitio del proyecto y administración de la relación con clientes.

  • Sistemas de Gestión de Lenguajes Documentales y Análisis de Corpus de Texto:

Sistema de Tesauros: TemaTres es una aplicación Web para la gestión de lenguajes documentales.

TemaTres



  • Sistemas de Información Bibliográfica / Administradores de Unidades de Información / Software de Catalogación:
Koha : Es un sistema integral en idioma español de gestión de bibliotecas, permite realizar todos los procesos necesarios, que van desde la adquisición de material hasta los servicios a usuarios.
Módulo Cliente (Intranet)
Módulo Administrador (Intranet)

Catalis Catalis es un software —más precisamente, una aplicación web— que permite crear catálogos de acuerdo con los estándaresAACR2 y MARC 21, utilizando bases de datos Isis.




    • Sistema de Gestión de Documentos, Repositorios y Bibliotecas Digitales:
    Sistema de Gestión Documental: El sistema de Gestión Documental KnowledgeTree es un sistema de código fuente abierto que proporciona un entorno estructurado y seguro, óptimo para la gestión de información y procesos de misión crítica
    Alfresco (Intranet): Alfresco es una alternativa de Código Abierto para la gestión de contenido empresarial (ECM), proporcionando gestión documental, colaboración, gestión de registros, gestión de información, gestión de contenido web e imágenes 
    Sevenet (Intranet): La suite Sevenet es la herramienta de software más completa y funcional del mercado en procesos de gestión electrónica de documentos.
    Dspace Sisinfo-Unisalle: DSpace es uno de los programas de código abierto preferidos por las instituciones académicas para gestionar repositorios de documentos (textuales, audio, vídeo, etc.), facilitando su depósito, organizándolos en comunidades, asignándoles metadatos y permitiendo su difusión en recolectores o agregadores.
    Open Conference System: Es un software open source para la gestión online de Conferencias/Congresos/Conferencias
    Open Journal System - Revista Códice: Es un software open source para la gestión de publicaciones seriadaspkp


    miércoles, 20 de octubre de 2010

    Modern Information Retrieval: A Brief Overview

    Amit SinghalGoogle, Inc.singhal@google.com


    Abstract


    For thousands of years people have realized the importance of archiving and finding information. Withthe advent of computers, it became possible to store large amounts of information; and finding usefulinformation from such collections became a necessity. The field of Information Retrieval (IR) was bornin the 1950s out of this necessity. Over the last forty years, the field has matured considerably. SeveralIR systems are used on an everyday basis by a wide variety of users. This article is a brief overview ofthe key advances in the field of Information Retrieval, and a description of where the state-of-the-art isat in the field.







    lunes, 18 de octubre de 2010

    Recuperación de Información

     Backup y copia de seguridad

    Hacer una copia de seguridad,  copia de respaldo o  simplemente  respaldo (Backup en inglés) consiste en guardar en un medio extraíble (para poder guardarlo en lugar seguro) la información sensible referida a un sistema. Esta se puede realizar tanto en computadores personales como en servidores.

    Este medio puede ser un disco duro externo, un CD- ROM grabable, cintas de datos (DAT), discos ZIP o JAZ o magneto-ópticos.
    La copia de seguridad puede realizarse solo de los datos (bases de datos, correo electrónic0, carpetas compartidas en un servidor de archivos) pero también de archivos que formen parte del sistema operativo.


    Las copias de seguridad en un sistema informático tienen por objetivo el mantener cierta capacidad de recuperación de la informa
    Las copias de seguridad en un sistema informático tienen por objetivo el mantener cierta capacidad de recuperación de la información ante posibles pérdidas. Esta capacidad puede llegar a ser algo muy importante, incluso crítico, para las empresas. Se han dado casos de empresas que han llegado a desaparecer ante la imposibilidad de recuperar sus sistemas al estado anterior a que se produjese un incidente de seguridad grave.

    Típicamente las copias de seguridad se suelen hacer en cintas magnéticas, si bien dependiendo de lo que se trate podrán usarse disquetes o CDs o pueden realizarse a un centro de respaldo remoto. Todo dependerá de la escala a la que se trabaje, ya sea un PC doméstico o un enorme sistema centralizado de una gran empresa o un organismo público.
    La primera diferenciación básica entre copias de seguridad está entre las copias de seguridad del sistema y de los datos.
    Las copias de seguridad del sistema tienen por objeto el mantener la capacidad poder rearrancar el sistema informático tras un desastre. Esta contendrá la copia de los ficheros del software de base y del software de aplicación.
    Las copias de seguridad de los datos, las más importantes al fin y al cabo, tienen por objeto mantener la capacidad de recuperar los datos perdidos tras un incidente de seguridad.


    Recuperación de datos e información

    Se trata de operaciones informáticas orientadas a la recuperación de información de una colección de documentos. La recuperación de documentos tiene como objetivo satisfacer la necesidad de información de un usuario, normalmente expresada en lenguaje natural.
    Esta recuperación puede darse en distintos tipos de sistemas de almacenamiento Recuperación de datos informático, Recuperación de Discos Rígidos, Recuperación de Raid de Discos Rígidos, Recuperación de Zip, CD, DVD, Memory Card.
    La perdida de datos puede ser ocasionada por diferentes causas como daño físico del dispositivo de almacenamiento, borrado accidental, fallos del sistema, ataques de virus y hackers.

    COMO RECUPERAR CUALQUIER ARCHIVO BORRADOS ACCIDENTALMENTE

    Concepto


    Concepto de recuperación de información.

    Cuando un usuario se plantea la necesidad de obtener nueva información sobre un asunto o materia de su interés, está manifestando una carencia, una situación irregular de sus estructuras mentales y cognitivas. Belkin, Oddy y Crofts han hablado de ASK, o "Anomalous State of Knowledge" (BELKIN, ODDY y CROFTS, 1982), un estado mental de incertidumbre que mueve al individuo a desarrollar una serie de acciones para salir de ese estado. Ingwersen deduce la existencia de un problema personal de espacio, "problem space" (INGWERSEN, 1992), por la diferencia entre el estado actual del conocimiento del usuario, y del estado que sería necesario para solucionar algún tipo de necesidad planteada. La respuesta a este tipo de situaciones es un conjunto de actividades que desarrolla el individuo para salir del estado anómalo, o para solucionar su problema de espacio, actividades que están íntimamente relacionadas con la adquisión de nueva información, y con el proceso comunicativo pertinente.
    La recuperación de información es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc. (CROFT, 1987) Todos estos factores ya han sido tratados exhaustivamente por la bibliografía especializada, por lo que no resulta necesario insistir sobre ellos en este lugar. Sin embargo, si es necesario recordar, como se ha señalado en la introducción, que la informatización de estas tareas se engloba dentro del campo de la Documentación Automatizada o Informática Documental.


    Fig.3.1. Proceso genérico de recuperación de información


    En principio, la recuperación de información engloba las acciones encaminadas a identificar, seleccionar y acceder a los recursos de información útiles al usuario, sin perjuicio de otras acepciones del concepto, en las que puede profundizarse utilizando la bibliografía correspondiente (ROBERTSON, 1977). Como puede deducirse del capítulo anterior, el objeto documental se ha organizado y representado, utilizando una serie de normas y convenciones, en un soporte informático, mediante el diseño, creación y mantenimiento de bases de datos (RIJSBERGEN, 1979). La siguiente fase lógica es la recuperación del contenido de las mismas, siguiendo unos criterios de pertinencia. En el ámbito de la documentación automatizada, la recuperación de información adoptará la forma del acceso, selección y explotación de las bases de datos, utilizando diferentes técnicas.
    El planteamiento de la recuperación de información (Information Retrieval, IR), en su moderno concepto y discusión, hay que buscarlo en la realización de los test de Cranfield (ELLIS, 1990: 1-17), y en la bibliografía generada desde ese momento y referida a los mecanismos más adecuados para extraer, de un conjunto de documentos, aquellos que fuesen pertinentes a una necesidad informativa dada. Las propias características de las entidades del mundo real, así como del tratamiento al que son sometidas, proveen a la representación de las mismas de un cierto grado de indefinición. Es decir, que el proceso documental, por muy alto nivel de perfección que pueda alcanzar, siempre introduce un factor de distorsión en la representación del documento. Si se considera que el acceso al documento se realiza casi por completo utilizando esta representación como intermediario, puede deducirse que los mecanismos en los que se basa la IR no son perfectos, sino que se verán influenciados por ese factor, independientemente de su validez técnica.
    Ha sido Blair (BLAIR, 1990: 2-4) quien ha resumido las diferencias entre "data retrieval" (recuperación de datos, RD) e "information retrieval" (recuperación de información, RI), utilizando como criterios las siguientes cuestiones:

    1. Según la forma de responder a la pregunta: en RD se utilizan preguntas altamente formalizadas, cuya respuesta es directamente la información deseada. En RI las preguntas resultan difíciles de trasladar a un lenguaje normalizado, y la respuesta es un conjunto de documentos que pueden contener, sólo probablemente, lo deseado, con un evidente factor de indeterminación.


    2. Según la relación entre el requerimiento al sistema y la satisfacción de usuario: en RD la relación es determinística entre la pregunta y la satisfacción. En RI es probabilística, a causa del nivel de incertidumbre presente en la respuesta.
    3. Según el criterio de éxito: en RD el criterio a emplear es la corrección y la exactitud, mientras que en RI el único criterio de valor es la satisfacción del usuario, basada en un criterio personal de utilidad.
    4. Según la rapidez de respuesta: en RD depende del soporte físico y de la perfección del algoritmo de búsqueda y de los índices. En RI depende de las decisiones y acciones del usuario durante el proceso de interrogación.
    Ha señalado este autor la importancia, en ocasiones ignorada, que tiene el factor de predicción. Predicción por parte del usuario, ya que éste debe intuir, en numerosas ocasiones, los términos que han sido utilizados para representar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio de predicción es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información.

    Historia









    La idea del uso de computadoras para la búsqueda de trozos relevantes de información se popularizó a raíz de un artículo As We May Thinkde Vannevar Bush en el año 1945.1 Los primeros sistemas automatizados de recuperación de la información fueron presentados durante la década de 1950 a 1960. Durante 1970 se realizaron pruebas un grupo de textos como la colección Cranfield para un gran número de distintas técnicas cuyo rendimiento fue bueno.1 Los sistemas de recuperación a larga escala, como el Sistema de Diálogo Lockheed, comenzaron a utilizarse a principios de 1970.
    En 1992, el Departamento de Defensa de los Estados Unidos conjuntamente con el Instituto Nacional de Standards y Tecnología (NIST), patrocinaron la Conferencia de Recuperación de Texto (TREC) como parte del programa TIPSTER. Esto proveyó ayuda desde la comunidad de recuperación de la información al suministrar la infraestructura necesaria para la evaluación de metodologías de recuperación de texto en una colección a larga escala. La introducción de motores de búsqueda ha elevado aún más la necesidad de sistemas de recuperación con mayor capacidad.
    El uso de métodos digitales para almacenar y recuperar información ha desembocado en el denominado fenómeno de la obsolecencia digital, que sucede cuando una fuente digital deja de ser accesible porque sus medio físico, el lector utilizado para la lectura de ese medio o el software que lo controla, ya no se encuentra disponible. La información, inicialmente es más fácil de recuperar en lugar de su fuente en papel, pero dicha información entonces, se pierde definitivamente.
    Los buscadores, tales como GoogleLyco y Copernics, son algunas de las aplicaciones más populares de la recuperación de información. Básicamente hay que construir un Vocabulario, que es una lista de términos en lenguaje natural, un algoritmo que incluya las reglas lógicas de la búsqueda {Tabla de verdad} y una valoración de los resultados o cantidad de información lograda o posible. Este motor de búsqueda es pues el que permite plantear una pregunta con no menos de dos términos (en algunos casos pueden ser menos de dos términos) y mostrar los resultados mínimos y el logaritmo natural de las interacciones será alrededor de 3.
    Algunos de los estudiosos más destacados dentro de esta subdisciplina son Gerard SaltonW Bruce CroftKaren Spärck JonesKeith van Rijsbergen y Ricardo Baeza-Yates.
    A veces se plantean ciertos problemas a la hora de recuperar información provocados por el uso del lenguaje natural (entre otras razones) como el silencio (debido a la sinonimia), el ruido (debido a la polisemia), homografía, ambigüedad, etc