357 research outputs found

    PoliDataScience : a distributed automated data analysis framework

    Get PDF
    LAUREA MAGISTRALEI dati, intesi come informazioni e statistiche collezionate durante le operazioni svolte da un business, sono diventati fattori produttivi paragonabili, come livello di importanza, al lavoro o il capitale. Avere gli strumenti e la conoscenza adatta per estrarre valore da questi dati è un vantaggio competitivo fondamentale. L’automazione di compiti legati alla Data Science può aiutare le persone e le aziende ad ottenere più velocemente informazione riguardo questi dati, senza la necessità di passare attraverso il lavoro umano. In letteratura le Random Forest in particolare sono considerate uno degli algoritmi di learning più versatili e affidabili nel campo della classificazione. In questa tesi proponiamo un framework web distribuito, concentrandoci sulla creazione automatizzata di modelli predittivi nel contesto della classificazione binaria, confrontando diversi algoritmi per adattare meglio il sistema a diversi dataset.Data has become a factor just as important to production as labor, capital, and land. Having the right tools and knowledge to extract values from data is a fundamental competitive advantage. The automation of data science tasks can help people and businesses to get faster insight from data without the need of human interaction. In literature Random Forest are usually considered to be one of the most versatile learning algorithm for classification tasks. Starting from this idea, in this thesis, we propose a distributed web framework that can handle in an autonomous way data science tasks, focusing in particular on the creation of predictive models in a binary classification scenario, comparing different algorithms to better fits heterogeneous datasets
    corecore