Search CORE

1,440 research outputs found

How to deal with heterogeneous data?

Author: Roche Mathieu
Publication venue: HAL CCSD
Publication date: 01/01/2015
Field of study

International audienceThe Big Data issue is traditionally characterized in terms of 3 V, i.e. volume, variety, and velocity. This paper focuses on the variety criterion, which I s a challenging issue

HAL Descartes

Agritrop

HAL-CIRAD

Système de veille automatique pour la détection de maladies animales émergentes

Author: Roche Mathieu
Publication venue
Publication date: 01/01/2017
Field of study

Cet exposé présente une méthode automatique d'extraction d'informations sur les maladies animales à partir du Web (PADI-web). PADI-web est un outil de fouille de textes pour la détection automatique, la catégorisation et l'extraction d'informations liées aux épidémies à partir d'articles de presse issus du Web. PADI-web se concentre actuellement sur cinq maladies animales exotiques et infectieuses et huit syndromes chez cinq animaux hôtes

Agritrop

A French text-message corpus: 88milSMS. Synthesis and usage

Author: Lopez Cédric
Panckhurst Rachel
Roche Mathieu
Publication venue
Publication date: 01/01/2020
Field of study

In this article, firstly we briefly summarise the sud4science project and data collection (http://sud4science.org), ensuing processing/analysing stages, and the resulting corpus, 88milSMS (http://88milsms.huma-num.fr), through a synthesis of quotes and references to previous articles (§ 1). Secondly, we provide a state of the art on some research initiatives that use88milSMS in various domains and frameworks, which will enable future cross-disciplinary insight (§ 2). Then, we present other usages of the 88milSMS corpus we identified through surveys (§ 3). Finally, we suggest future paths for textual data collection and analysis

Agritrop

How to exploit paralinguistic features to identify acronyms in texts?

Author: Roche Mathieu
Publication venue: HAL CCSD
Publication date: 01/01/2014
Field of study

International audienceThis paper addresses the issue of acronym dictionary building. The first step of the process identifies acronym/definition candidates, the second one selects candidates based on a letter alignment method. This approach has two advantages because it enables (1) to annotate documents, (2) to build specific dictionaries. More precisely, this paper discusses the use of a specific linguistic concept, the gloss, in order to identify candidates. The proposed method based on paralinguistic markers is independent of languages

HAL Descartes

Agritrop

HAL-CIRAD

Vers une étude comparative diachronique des mondes lexicaux du féminisme

Author: Léon Stéphanie
Roche Mathieu
Publication venue: HAL CCSD
Publication date: 21/04/2013
Field of study

Cet article présente une approche lexicale d'analyse comparative diachronique entre deux corpus traitant du féminisme, sur deux périodes différentes. L'analyse lexicale s'appuie sur la collecte des " mondes lexicaux " (unités lexicales simples et complexes qui sont significativement fréquentes) liés aux deux corpus et sur une analyse comparative de ces mondes lexicaux. Les résultats montrent que les unités lexicales simples sont très proches entre les deux corpus qui traitent de la même thématique, tandis que les unités lexicales complexes sont significativement différentes, car plus spécialisées à une sous-thématique et à une période

HAL AMU

HAL Descartes

Hal-Diderot

Actes de Conférence SAGEO 2018 - Spatial Analysis and GEOmatics

Author: Roche Mathieu (ed.)
Teisseire Maguelonne (ed.)
Publication venue: 'INIST-CNRS'
Publication date: 01/01/2018
Field of study

Agritrop

Génération automatique de HashTags

Author: Prince Violaine
Roche Mathieu
Tisserant Guillaume
Publication venue: LexiCon
Publication date: 01/01/2015
Field of study

Les HashTags sont des mots-clés que les utilisateurs de réseaux sociaux choisissent de mettre en avant dans leurs messages. Ils ont été popularisés sur le réseau social Twitter, qui a permis à ses utilisateurs de sélectionner des HashTags à suivre et d'afficher l'ensemble des messages contenant un HashTag suivi. Ils sont aujourd'hui utilisés sur les principaux réseaux sociaux, tels que Facebook, Google+, Diaspora*, et sont un facteur important de la diffusion de l'information sur Internet. Dans cet article, nous proposons une méthode fondée sur des informations statistiques, syntaxiques et sémantiques pour générer des HashTags. (Résumé d'auteur

Agritrop

Towards an automatic animal diseases surveillance system based on textual media analysis

Author: Lancelot Renaud
Roche Mathieu
Valentin Sarah
Publication venue: 'CIRAD (Centre de Cooperation Internationale en Recherche Agronomique Pour le Developpement)'
Publication date: 01/01/2018
Field of study

La veille en santé animale, et notamment la détection précoce d'émergence au niveau mondial d'agents pathogènes, est l'un des moyens permettant de prévenir ou d'anticiper l'introduction de dangers sanitaires en France. Dans le cadre de la Veille Sanitaire Internationale (VSI) de la plateforme nationale d'épidémiosurveillance en santé animale (ESA), un outil dédié à la veille automatique des dépêches issues des médias électroniques a été développé (PADI-web : Platform for Automated Extraction of Animal Disease Information from the Web). Son objectif est de compléter voire d'anticiper les données produites par les sources de notification de référence en santé animales telles que l'OIE ou la FAO. Le fonctionnement de PADI-web repose sur une méthode de fouille de texte pour la détection, la collecte, la catégorisation et l'extraction de l'information sanitaire à partir des données textuelles non structurées publiées sur le web. Une évaluation de l'outil a été effectuée à partir d'un cas d'étude sur une maladie animale d'intérêt (la fièvre aphteuse) en Afrique. Cette évaluation a mis en évidence des performances quantitatives de détection d'événements variables selon les pays, et une forte plus-value qualitative en terme de complémentarité d'informations. Les verrous méthodologiques identifiés (ambiguités géographiques, extraction d'événements pertinents en particulier) font l'objet des développements de cette thèse

Agritrop

La fouille de textes au service de la documentation

Author: Fortuno Sophie
Roche Mathieu
Publication venue: 'Babes-Bolyai University'
Publication date: 01/01/2014
Field of study

Article de vulgarisation scientifiqueNational audienceLes masses de données textuelles aujourd'hui disponibles engendrent un problème spécifique lié à leur traitement automatique. Des méthodes de fouille de textes et de traitement automatique du langage peuvent en partie répondre à cette difficulté. Approche des procédés et des nouveaux défis à relever présentés par deux chercheurs du Cirad, centre de recherche français qui répond, avec les pays du Sud, aux enjeux internationaux de l'agriculture et du développement

HAL Descartes

HAL-CIRAD