173 research outputs found

    MiniTREC: un modelo de aprendizaje basado en proyectos para la asignatura de Recuperación de Información

    Get PDF
    La asignatura de Recuperación de información es una asignatura de nueva impartición dentro de la mención de Computación del Grado en Ingeniería Informática en la Universidad de Zaragoza. La complejidad e interrelación de los contenidos de esta asignatura dificulta la realización de prácticas en las que los alumnos prueben los modelos y algoritmos descritos en teoría. Para facilitar la asimilación de los conceptos teóricos se ha decidido utilizar una metodología de aprendizaje basado en proyectos. Este artículo describe la experiencia de aplicación de dicha metodología, los resultados obtenidos, problemas encontrados y áreas de mejora.SUMMARY -- Information Retrieval is a new course of the Computer Science Degree Program in Computing Engineering Studies at the University of Zaragoza. The complexity and interrelation of this course’s contents makes difficult the definition of practices that allow students to test the models and algorithms described in theory classes. To facilitate the understanding of concepts, it was decided to use a project based learning methodology. This paper describes the application experience of this methodology, the results obtained, problems found and areas of improvement

    Using a hybrid approach for the development of an ontology in the hydrographical domain

    Get PDF
    This work presents a hybrid approach for domain ontology development, which merges top-down and bottom-up techniques. In the top-down approach the concepts in the ontology are derived from an analysis and study of relevant information sources about the domain (e.g., hydrographic features). In the bottom-up approach the concepts in the ontology are the result of applying formal methods on a analysis of the data instances on the repositories (e.g., repositories containing hydrographical features)

    Integración de anotaciones espaciales automáticas de diferentes fuentes mediante tecnologías semánticas

    Get PDF
    Information Extraction is one of the main tasks in Text Mining, which is essential for all types of applications exploiting geographic information because there is a big volume of geographic information not directly compiled in specific formats proposed by Geographic Information Systems, but just embedded in plain text sources. Currently, there are several software solutions for the processing of texts and the annotation of spatial named entities. However, the problem of these tools is that their output is based on heterogeneous annotation languages, which make it difficult their integration in other systems.The objective of this work is to propose the conversion of the output of these tools into a common spatial annotation language based on semantic technologies to facilitate their integration and interoperability. As a common annotation language we propose the use of a text annotation based on RDFa and using the vocabulary proposed by the international initiative Schema.org. In order to validate this proposal, we have created the necessary infrastructure to build a semantic repository of documents, where the annotations generated by different annotation tools can be integrated and harmonized.La extracción de información es una de las tareas principales de la minería de textos que resulta de gran utilidad para todo tipo de aplicaciones que exploten la información geográfica ya que hay gran cantidad de información geográfica que no se recopila directamente en formatos reconocibles por Sistemas de Información Geográfica, sino directamente como texto plano. Actualmente existen diversas soluciones informáticas para el procesamiento de textos y la anotación de entidades espaciales. Sin embargo, el problema que tienen estas herramientas es que producen como resultado de este procesamiento un texto anotado con lenguajes de marcado propio, que dificulta su integración en otros sistemas. El objetivo de este trabajo es proponer la conversión de la salida de estas herramientas a un lenguaje de anotación espacial común basado en tecnologías semánticas que facilite su integración e interoperabilidad. Como factor común de los lenguajes de marcado se propone una anotación de textos basada en RDFa y utilizando el vocabulario de la iniciativa internacional Schema.org. Para validar la utilidad de esta propuesta se ha creado la infraestructura necesaria para construir un repositorio semántico de documentos donde se integren y armonicen las anotaciones generadas por diversas herramientas de anotación existentes

    Automatic reconstruction of itineraries from descriptive texts

    Get PDF
    Esta tesis se inscribe dentro del marco del proyecto PERDIDO donde los objetivos son la extracción y reconstrucción de itinerarios a partir de documentos textuales. Este trabajo se ha realizado en colaboración entre el laboratorio LIUPPA de l' Université de Pau et des Pays de l' Adour (France), el grupo de Sistemas de Información Avanzados (IAAA) de la Universidad de Zaragoza y el laboratorio COGIT de l' IGN (France). El objetivo de esta tesis es concebir un sistema automático que permita extraer, a partir de guías de viaje o descripciones de itinerarios, los desplazamientos, además de representarlos sobre un mapa. Se propone una aproximación para la representación automática de itinerarios descritos en lenguaje natural. Nuestra propuesta se divide en dos tareas principales. La primera pretende identificar y extraer de los textos describiendo itinerarios información como entidades espaciales y expresiones de desplazamiento o percepción. El objetivo de la segunda tarea es la reconstrucción del itinerario. Nuestra propuesta combina información local extraída gracias al procesamiento del lenguaje natural con datos extraídos de fuentes geográficas externas (por ejemplo, gazetteers). La etapa de anotación de informaciones espaciales se realiza mediante una aproximación que combina el etiquetado morfo-sintáctico y los patrones léxico-sintácticos (cascada de transductores) con el fin de anotar entidades nombradas espaciales y expresiones de desplazamiento y percepción. Una primera contribución a la primera tarea es la desambiguación de topónimos, que es un problema todavía mal resuelto dentro del reconocimiento de entidades nombradas (Named Entity Recognition - NER) y esencial en la recuperación de información geográfica. Se plantea un algoritmo no supervisado de georreferenciación basado en una técnica de clustering capaz de proponer una solución para desambiguar los topónimos los topónimos encontrados en recursos geográficos externos, y al mismo tiempo, la localización de topónimos no referenciados. Se propone un modelo de grafo genérico para la reconstrucción automática de itinerarios, donde cada nodo representa un lugar y cada arista representa un camino enlazando dos lugares. La originalidad de nuestro modelo es que además de tener en cuenta los elementos habituales (caminos y puntos del recorrido), permite representar otros elementos involucrados en la descripción de un itinerario, como por ejemplo los puntos de referencia visual. Se calcula de un árbol de recubrimiento mínimo a partir de un grafo ponderado para obtener automáticamente un itinerario bajo la forma de un grafo. Cada arista del grafo inicial se pondera mediante un método de análisis multicriterio que combina criterios cualitativos y cuantitativos. El valor de estos criterios se determina a partir de informaciones extraídas del texto e informaciones provenientes de recursos geográficos externos. Por ejemplo, se combinan las informaciones generadas por el procesamiento del lenguaje natural como las relaciones espaciales describiendo una orientación (ej: dirigirse hacia el sur) con las coordenadas geográficas de lugares encontrados dentro de los recursos para determinar el valor del criterio ``relación espacial''. Además, a partir de la definición del concepto de itinerario y de las informaciones utilizadas en la lengua para describir un itinerario, se ha modelado un lenguaje de anotación de información espacial adaptado a la descripción de desplazamientos, apoyándonos en las recomendaciones del consorcio TEI (Text Encoding and Interchange). Finalmente, se ha implementado y evaluado las diferentes etapas de nuestra aproximación sobre un corpus multilingüe de descripciones de senderos y excursiones (francés, español, italiano)

    The development and interlinkage of a drought vocabulary in the EuroGEOSS interoperable catalogue infrastructure

    Get PDF
    Metadata catalogues are used for facilitating the discovery of data and web services in, e.g., growing collections of Earth observation resources. Two conditions need to be met in order to successfully retrieve resources in catalogues: the metadata describing resources have to be complete and accurate and the keywords used in searches semantically related to the keywords contained in the metadata descriptions. One method to increase the rate of successfully retrieved metadata in catalogues is the use of controlled vocabularies. Such vocabularies can be used for annotating metadata with appropriate keywords and then also presented to users of the catalogue for specifying search terms. In the process of preparing metadata for drought-related data and services within the EuroGEOSS project, the need of a drought-specific vocabulary arose. This paper presents this drought vocabulary, the methodology followed for its development, its integration in the EuroGEOSS drought infrastructure and discusses its usefulness for the drought thematic area. The usefulness of the vocabulary is hereby measured by an increased use of search terms coming from an appropriate vocabulary and by an increase in the successful retrieval of resources. In particular, metadata must be annotated with appropriate keywords from a controlled vocabulary, thesaurus or ontology suitable for that particular field

    Management of Scientific Images: An approach to the extraction, annotation and retrieval of figures in the field of High Energy Physics

    Get PDF
    El entorno de la información en la primera década del siglo XXI no tiene precedentes. Las barreras físicas que han limitado el acceso al conocimiento están desapareciendo a medida que los métodos tradicionales de acceso a información se reemplazan o se mejoran gracias al uso de sistemas basados en computador. Los sistemas digitales son capaces de gestionar colecciones mucho más grandes de documentos, confrontando a los usuarios de información con la avalancha de documentos asociados a su tópico de interés. Esta nueva situación ha creado un incentivo para el desarrollo de técnicas de minería de datos y la creación de motores de búsqueda más eficientes y capaces de limitar los resultados de búsqueda a un subconjunto reducido de los más relevantes. Sin embargo, la mayoría de los motores de búsqueda en la actualidad trabajan con descripciones textuales. Estas descripciones se pueden extraer o bien del contenido o a través de fuentes externas. La recuperación basada en el contenido no textual de documentos es un tema de investigación continua. En particular, la recuperación de imágenes y el desentrañar la información contenida en ellas están suscitando un gran interés en la comunidad científica. Las bibliotecas digitales se sitúan en una posición especial dentro de los sistemas que facilitan el acceso al conocimiento. Actúan como repositorios de documentos que comparten algunas características comunes (por ejemplo, pertenecer a la misma área de conocimiento o ser publicados por la misma institución) y como tales contienen documentos considerados de interés para un grupo particular de usuarios. Además, facilitan funcionalidades de recuperación sobre las colecciones gestionadas. Normalmente, las publicaciones científicas son las unidades más pequeñas gestionadas por las bibliotecas digitales científicas. Sin embargo, en el proceso de creación científica hay diferentes tipos de artefactos, entre otros: figuras y conjuntos de datos. Las figuras juegan un papel particularmente importante en el proceso de publicación científica. Representan los datos en una forma gráfica que nos permite mostrar patrones sobre grandes conjuntos de datos y transmitir ideas complejas de un modo fácilmente entendible. Los sistemas existentes para bibliotecas digitales facilitan el acceso a figuras, pero solo como parte de los ficheros sobre los que se serializa la publicación entera. El objetivo de esta tesis es proponer un conjunto de métodos ytécnicas que permitan transformar las figuras en productos de primera clase dentro del proceso de publicación científica, permitiendo que los investigadores puedan obtener el máximo beneficio a la hora de realizar búsquedas y revisiones de bibliografía existente. Los métodos y técnicas propuestos están orientados a facilitar la adquisición, anotación semántica y búsqueda de figuras contenidas en publicaciones científicas. Para demostrar la completitud de la investigación se han ilustrado las teorías propuestas mediante ejemplos en el campo de la Física de Partículas (también conocido como Física de Altas Energías). Para aquellos casos en los que se han necesitadoo en las figuras que aparecen con más frecuencia en las publicaciones de Física de Partículas: los gráficos científicos denominados en inglés con el término plots. Los prototipos que propuestas más detalladas han desarrollado para esta tesis se han integrado parcialmente dentro del software Invenio (1) para bibliotecas digitales, así como dentro de INSPIRE, una de las mayores bibliotecas digitales en Física de Partículas mantenida gracias a la colaboración de grandes laboratorios y centros de investigación como son el CERN, SLAC, DESY y Fermilab. 1). http://invenio-software.org

    MiniTREC: un modelo de aprendizaje basado en proyectos para la asignatura de Recuperación de Información

    Get PDF
    La asignatura de Recuperación de información es una asignatura de nueva impartición dentro de la mención de Computación del Grado en Ingeniería Informática en la Universidad de Zaragoza. La complejidad e interrelación de los contenidos de esta asignatura dificulta la realización de prácticas en las que los alumnos prueben los modelos y algoritmos descritos en teoría. Para facilitar la asimilación de los conceptos teóricos se ha decidido utilizar una metodología de aprendizaje basado en proyectos. Este artículo describe la experiencia de aplicación de dicha metodología, los resultados obtenidos, problemas encontrados y áreas de mejora.Information Retrieval is a new course of the Computer Science Degree Program in Computing Engineering Studies at the University of Zaragoza. The complexity and interrelation of this course’s contents makes difficult the definition of practices that allow students to test the models and algorithms described in theory classes. To facilitate the understanding of concepts, it was decided to use a project based learning methodology. This paper describes the application experience of this methodology, the results obtained, problems found and areas of improvement.Este trabajo ha sido realizado como parte del proyecto PIIDUZ_13_171 de la Universidad de Zaragoza y financiado por el Gobierno de España a través del proyecto TIN2012-37826-C02-01

    Discovery and integration of Web 2.0 content into geospatial information infrastructures: a use case in wild fire monitoring

    Get PDF
    Efficient environment monitoring has become a major concern for society to guarantee sustainable development. For instance, forest fire detection and analysis is important to provide early warning systems and identify impact. In this environmental context, availability of up-to-date information is very important for reducing damages caused. Environmental applications are deployed on top of GeospatialInformation Infrastructures (GIIs) to manage information pertaining to our environment. Suchinfrastructures are traditionally top-down infrastructures that do not consider user participation. This provokes a bottleneck in content publication and therefore a lack of content availability. On the contrary mainstream IT systems and in particular the emerging Web 2.0 Services allow active user participation that is becoming a massive source of dynamic geospatial resources. In this paper, we present a webservice, that implements a standard interface, offers a unique entry point for spatial data discovery, both in GII services and web 2.0 services. We introduce a prototype as proof of concept in a forest fire scenario, where we illustrate how to leverage scientific data and web 2.0 conten

    A software processing chain for evaluating thesaurus quality

    Get PDF
    Thesauri are knowledge models commonly used for information classification and retrieval whose structure is defined by standards that describe the main features the concepts and relations must have. However, following these standards requires a deep knowledge of the field the thesaurus is going to cover and experience in their creation. To help in this task, this paper describes a software processing chain that provides different validation components that evaluates the quality of the main thesaurus features
    corecore