13 research outputs found
Similarity Search in Unstructured Data using Data-Transitive Models
Podobnostní vyhledávání se stává součástí aplikací, které používáme každý den, např. doporučovací systémy nebo aplikace pro vyhledávání multimedií. S rostoucím množstvím dat roste i potřeba v těchto nestrukturovaných datech rychle a efektivně vyhledávat. Zatímco různé podobnostní přístupy k indexaci zajišťují rychlost vyhledávání, jejich omezení limitují efektivitu reprezentovanou relevancí výsledků. Proto vzniká poptávka po indexakčních metodách, které kladou co nejmenší omezení a přesto umožňují indexování velkých mutlimediálních databází. Tato práce prezentuje nové indikátory indexovatelnosti (angl. triangularity a ptolemaicity) které zohledňují indexy požadovanou strukturu dat. Kromě toho dokáží zachytit i porušení těchto omezení a případně úroveň takového porušení. Oba indikátory využívají analýzy vztahů mezi objekty v databázi. Využitím těchto indikátorů jsme provedli analýzu vysoce dimenzionálních dat. Experimenty potvrdily očekávané vlastnosti těchto indikátorů. Druhá část se zabývá transformací nemetrických vzdáleností, která umožňuje indexaci nemetrických podobnostních prostorů pomocí tradičních metrických přístupů. Metrické indexy jsou de facto standardem v oblasti podobnostního vyhledávání, takže je možné využít mnoho již existujících indexů. Jako řešení jsme navrhli TriGenGA jako rožšíření algoritmu TriGen o generování obecných modifikátorů pomocí genetických algoritmů. Výsledky ukázaly, že takové modifikátory překonávají existující TriGen algoritmus v rychlosti i efektivitě. Na závěr jsme definovali datově-tranzitivní podobnostní meta-model, který je ukázkou inherentně nemetrické podobnosti. Hlavní důraz je kladen na relevanci podobnostního vyhledávání. V případě dat s mnoha duplicitami či málo podobnostními propojeními je obzvláště obtížný úkol vytvořit kvalitní podobnostní model. Datově-tranzitivní podobnostní meta-model řeší tento problém pomocí sestavení řetězu podobných objektů, který může propojovat i zcela nepodobné objekty. Zároveň je takový řetěz vysvětlením, proč jsou dva objekty vzájemně relevantní. Navíc, přestože se jedná o zcela nový přístup, je na něj možné aplikovat běžné podobnostní přístupy. Tento meta-model jsme úspěšně otestovali v rámci domény otevřených dat. Práce je strukturována jako komentář k již publikovaným článkům.Similarity search is becoming part of the applications we use daily, e.g., in recommendation systems or multimedia search applications. As the amount of data grows, so does the need to search this unstructured data efficiently and effectively. While various similarity indexing approaches provide efficiency, their constraints on the used similarity limit the effectiveness that represents the relevance of the results. Hence, there is a demand for indexing methods that impose as few constraints as possible and still manage to index big multimedia databases. This thesis presents new indexability indicators (triangularity and ptolemaicity) that consider the data structure required by indexes. Moreover, they can also capture violations of these constraints and possibly the level of such violations. Both indicators use an analysis of relationships between objects in the database. We have analyzed high-dimensional data using these indicators, and experiments confirmed the expected properties of these indicators. The second part deals with transforming non-metric distance measures to enable the indexing of non-metric similarity spaces using traditional metric approaches. Metric indexes are the de facto standard in similarity search, so it is possible to use many existing indexes. As a solution, we proposed TriGenGA as an extension of the TriGen algorithm to generate general modifiers using genetic algorithms. The results showed that such modifiers outperform the existing TriGen algorithm’s efficiency and effectiveness. Finally, we defined a data-transitive similarity meta-model that illustrates inherently non-metric similarity. The main focus is on the relevance of similarity search. It is challenging to design a high-quality similarity model in the case of data with many duplicates or few similarity links. A data-transitive similarity meta-model solves this problem by constructing a chain of similar objects that can link even mutually dissimilar objects. At the same time, the chain itself is an explanation of why two objects are relevant. Moreover, although this is a completely new approach, it is possible to apply common similarity approaches. We have successfully tested this meta-model within the domain of open datasets. The thesis is structured as a commentary on already published papers
System Supporting the Jáma Lvová Project
Tato práce se zabývá zefektivněním procesů v rámci korespondenčního semináře Jáma Lvová. Za cíl si klade zanalyzování procesů, následný návrh databáze a implementaci prototypu webové aplikace, což povede k zefektivnění a zjednodušení procesů jak ze strany organizátorů, tak ze strany soutěžících. Z hlediska analýzy se autor zaměřil na klíčové a problémové procesy a jejich vliv na účast v semináři. Implementace samotného prototypu byla cílena na modularitu, zachování klíčových komponent a usnadnění procesu odesílání a opravování jednotlivých soutěžních řešení. Hlavním požadavkem je intuitivní ovládání a čistota kódu pro snadnou údržbu webové aplikace. Systém by díky vhodné implementaci mohl být rozšířen o modul pro podporu tvorby zadání, správu kontaktů nebo subsystém statistik.This thesis deals with streamlining processes of the contest Jama Lvova. The goal of this thesis is process analysis, database design and implementation of prototype web application, which leads to streamlining and simplifying processes for organizers and contestants. In term of analysis, the author focused on important and problematic processes and their impact on participation. Implementation of the prototype was targeted on modularity, preserving important components and simplifying process of sending and correcting solutions. The goal is intuitive control and clean code for easy maintenance. Thanks to the appropriate implementation the system could be extended with a module to support creating tasks, improved contact management or statistics
3D sound simulation using binaural audio and recommenders systems
Cílem této práce je navrhnout metodu efektivního získávání HRTF z databáze již existujících profilů. Práce analyzuje možnosti využití doporučovacích systémů pro nalezení vhodného HRTF, které by mohly nahradit nejčastěji používané přístupy. Pomocí webové aplikace, implementované technologiemi WebGL a WebAudio, jsme ověřili efektivitu kolaborativního filtrování. Uživatelské testování prokázalo zlepšení přesnosti oproti nepersonalizovanému HRTF profilu průměrně o 10°. Přínosem této práce je nalezení rychlé metody pro relativně přesnou simulaci audio virtuální reality.The aim of this work is to design a method of efficient HRTF acquisition from the profiles already existed. The thesis analyzes the possibilities of using the recommender systems to find a suitable HRTF that could replace the most commonly used approaches. Using web applications - implemented by technologies WebGL and WebAudio we have verified the effectiveness of collaborative filtering. User testing demonstrated improvement of accuracy against an unpersonalized HRTF profile of an averagely 10 degrees. The conclusion of this work is to find a fast method for relatively accurate audio virtual reality simulation
Modular framework for similarity-based dataset discovery using external knowledge
PurposeSemantic retrieval and discovery of datasets published as open data remains a challenging task. The datasets inherently originate in the globally distributed web jungle, lacking the luxury of centralized database administration, database schemes, shared attributes, vocabulary, structure and semantics. The existing dataset catalogs provide basic search functionality relying on keyword search in brief, incomplete or misleading textual metadata attached to the datasets. The search results are thus often insufficient. However, there exist many ways of improving the dataset discovery by employing content-based retrieval, machine learning tools, third-party (external) knowledge bases, countless feature extraction methods and description models and so forth.Design/methodology/approachIn this paper, the authors propose a modular framework for rapid experimentation with methods for similarity-based dataset discovery. The framework consists of an extensible catalog of components prepared to form custom pipelines for dataset representation and discovery.FindingsThe study proposes several proof-of-concept pipelines including experimental evaluation, which showcase the usage of the framework.Originality/valueTo the best of authors’ knowledge, there is no similar formal framework for experimentation with various similarity methods in the context of dataset discovery. The framework has the ambition to establish a platform for reproducible and comparable research in the area of dataset discovery. The prototype implementation of the framework is available on GitHub.</jats:sec
Figures 52–59 from: Klimaszewski J, Langor DW, Hammond HEJ, Bourdon C (2016) A new species of Anomognathus and new Canadian and provincial records of aleocharine rove beetles from Alberta, Canada (Coleoptera, Staphylinidae, Aleocharinae). ZooKeys 581: 141-164. https://doi.org/10.3897/zookeys.581.8014
Figures 57–64 from: Klimaszewski J, Larson DJ, Labrecque M, Bourdon C (2016) Twelve new species and fifty-three new provincial distribution records of Aleocharinae rove beetles of Saskatchewan, Canada (Coleoptera, Staphylinidae). ZooKeys 610: 45-112. https://doi.org/10.3897/zookeys.610.9361
Figures 61–68 from: Klimaszewski J, Langor DW, Bourdon C, Gilbert A, Labrecque M (2016) Two new species and new provincial records of aleocharine rove beetles from Newfoundland and Labrador, Canada (Coleoptera, Staphylinidae, Aleocharinae). ZooKeys 593: 49-89. https://doi.org/10.3897/zookeys.593.8412
Mit arch\ue4ologischen Schichten Geschichte schreiben. Festschrift f\ufcr Edgar B. Pusch zum 70. Geburtstag
Festschrift f\ufcr Edgar B. Pusch zum 70. Geburtstag mit Beitr\ue4gen namhafter Fachkollegen und Kolleginnen
Cretamerus vulloi
Cretamerus vulloi gen. et sp. nov., a fossil bark-gnawing beetle (Cleroidea: Trogossitidae), is described from the Cretaceous amber (Cenomanian) of Fouras/Bois-Vert, France. It is the oldest known record confirmed for the entire superfamily Cleroidea on the European continent. The fine state of preservation and the transparency of the amber matrix make it possible to determine certain morphological character states for the fossil and insert them into a character matrix of Trogossitidae genera to suggest an internal phylogenetic position for C. vulloi. The resulting tree reveals the basal position of C. vulloi within the lophocaterine clade and it is proposed that it may form an extinct branch of the Recent Decamerini. Some remarks on the palaeobiogeography of the Trogossitidae are also provided. Two other possible Trogossitidae from the Cretaceous amber (Albian) of Spain are also discussed and figured.Peer reviewe
