163 research outputs found

    Fully-Convolutional Network for Pitch Estimation of Speech Signals

    Get PDF
    International audienceThe estimation of fundamental frequency (F0) from audio is a necessary step in many speech processing tasks such as speech synthesis, that require to accurately analyze big datasets, or real-time voice transformations, that require low computation times. New approaches using neural networks have been recently proposed for F0 estimation, outperforming previous approaches in terms of accuracy. The work presented here aims at bringing some more improvements over such CNN-based state-of-the-art approaches, especially when targeting speech data. More specifically, we first propose to use the recent PaN speech synthesis engine in order to generate a high-quality speech database with a reliable ground truth F0 annotation. Then, we propose 3 variants of a new fully-convolutional network (FCN) architecture that are shown to perform better than other similar data-driven methods, with a significantly reduced computational load making them more suitable for real-time purposes

    GCI DETECTION FROM RAW SPEECH USING A FULLY-CONVOLUTIONAL NETWORK

    Get PDF
    Glottal Closure Instants (GCI) detection consists in automatically detecting temporal locations of most significant excitation of the vocal tract from the speech signal. It is used in many speech analysis and processing applications, and various algorithms have been proposed for this purpose. Recently, new approaches using convo-lutional neural networks have emerged , with encouraging results. Following this trend, we propose a simple approach that performs a regression from the speech waveform to a target signal from which the GCI are easily obtained by peak-picking. However, the ground truth GCI used for training and evaluation are usually extracted from EGG signals, which are not reliable and often not available. To overcome this problem, we propose to train our network on high-quality synthetic speech with perfect ground truth. The performances of the proposed algorithm are compared with three other state-of-the-art approaches using publicly available datasets, and the impact of using controlled synthetic or real speech signals in the training stage is investigated. The experimental results demonstrate that the proposed method obtains similar or better results than other state-of-the-art algorithms and that using large synthetic datasets with many speaker offers better generalization ability than using a smaller database of real speech and EGG signals

    O Lugar do Íntimo na Cidadania de Corpo Inteiro

    Get PDF

    Modélisation des paramètres de contrôle pour la synthèse de voix chantée

    Get PDF
    National audienceL'état de l'art de la synthèse vocale, et en particulier la synthèse concaténative , nous permet a ce jour d'obtenir une qualité d'élocution proche de la voix réelle, aussi bien pour la parole que pour le chant. Mais une synthèse a la fois naturelle et expressive ne peut être conçue sans un contrôle approprié, recouvrant de nombreux aspects a la fois timbraux et prosodiques, ainsi que leurs interdépendances. Pour le chant, la fréquence fondamentale (F0), portant la mélodie ainsi que certains aspects stylistiques, est a considérer en premier lieu. Une méthode de modélisation de la courbe de F0 a partir de la partition, basée sur l'utilisation de B-splines, a été mise en place. Celle-ci permet une représentation paramétrique des variations expressives de la F0 telles que le vibrato, les attaques, ou les transitions entre notes, avec un contrôle intuitif. Une première étude a permis d'établir qu'une telle représentation permet de reproduire de façon satisfaisante les variations propres a différents styles de chant. Mais le réglage manuel de l'ensemble des paramètres reste une tâche fastidieuse. Une gestion automatique de ces paramètres, basée sur un apprentissage et certaines règles, s'avère donc nécessaire, afin de réduire la quantité de réglages manuels a fournir. Les différents paramètres considérés varient d'un style de chant a l'autre. L'extraction de ces paramètres a partir d'enregistrements, ainsi que des contextes liés a la partition, doit donc permettre de capturer les caractéristiques propres au style interprétatif du chanteur, tout en conservant une certaine variabilité et la cohérence nécessaires a la production d'un chant naturel
    corecore