1,440 research outputs found
How to deal with heterogeneous data?
International audienceThe Big Data issue is traditionally characterized in terms of 3 V, i.e. volume, variety, and velocity. This paper focuses on the variety criterion, which I s a challenging issue
Système de veille automatique pour la détection de maladies animales émergentes
Cet exposé présente une méthode automatique d'extraction d'informations sur les maladies animales à partir du Web (PADI-web). PADI-web est un outil de fouille de textes pour la détection automatique, la catégorisation et l'extraction d'informations liées aux épidémies à partir d'articles de presse issus du Web. PADI-web se concentre actuellement sur cinq maladies animales exotiques et infectieuses et huit syndromes chez cinq animaux hôtes
A French text-message corpus: 88milSMS. Synthesis and usage
In this article, firstly we briefly summarise the sud4science project and data collection (http://sud4science.org), ensuing processing/analysing stages, and the resulting corpus, 88milSMS (http://88milsms.huma-num.fr), through a synthesis of quotes and references to previous articles (§ 1). Secondly, we provide a state of the art on some research initiatives that use88milSMS in various domains and frameworks, which will enable future cross-disciplinary insight (§ 2). Then, we present other usages of the 88milSMS corpus we identified through surveys (§ 3). Finally, we suggest future paths for textual data collection and analysis
How to exploit paralinguistic features to identify acronyms in texts?
International audienceThis paper addresses the issue of acronym dictionary building. The first step of the process identifies acronym/definition candidates, the second one selects candidates based on a letter alignment method. This approach has two advantages because it enables (1) to annotate documents, (2) to build specific dictionaries. More precisely, this paper discusses the use of a specific linguistic concept, the gloss, in order to identify candidates. The proposed method based on paralinguistic markers is independent of languages
Vers une étude comparative diachronique des mondes lexicaux du féminisme
Cet article présente une approche lexicale d'analyse comparative diachronique entre deux corpus traitant du féminisme, sur deux périodes différentes. L'analyse lexicale s'appuie sur la collecte des " mondes lexicaux " (unités lexicales simples et complexes qui sont significativement fréquentes) liés aux deux corpus et sur une analyse comparative de ces mondes lexicaux. Les résultats montrent que les unités lexicales simples sont très proches entre les deux corpus qui traitent de la même thématique, tandis que les unités lexicales complexes sont significativement différentes, car plus spécialisées à une sous-thématique et à une période
Génération automatique de HashTags
Les HashTags sont des mots-clés que les utilisateurs de réseaux sociaux choisissent de mettre en avant dans leurs messages. Ils ont été popularisés sur le réseau social Twitter, qui a permis à ses utilisateurs de sélectionner des HashTags à suivre et d'afficher l'ensemble des messages contenant un HashTag suivi. Ils sont aujourd'hui utilisés sur les principaux réseaux sociaux, tels que Facebook, Google+, Diaspora*, et sont un facteur important de la diffusion de l'information sur Internet. Dans cet article, nous proposons une méthode fondée sur des informations statistiques, syntaxiques et sémantiques pour générer des HashTags. (Résumé d'auteur
Towards an automatic animal diseases surveillance system based on textual media analysis
La veille en santé animale, et notamment la détection précoce d'émergence au niveau mondial d'agents pathogènes, est l'un des moyens permettant de prévenir ou d'anticiper l'introduction de dangers sanitaires en France. Dans le cadre de la Veille Sanitaire Internationale (VSI) de la plateforme nationale d'épidémiosurveillance en santé animale (ESA), un outil dédié à la veille automatique des dépêches issues des médias électroniques a été développé (PADI-web : Platform for Automated Extraction of Animal Disease Information from the Web). Son objectif est de compléter voire d'anticiper les données produites par les sources de notification de référence en santé animales telles que l'OIE ou la FAO. Le fonctionnement de PADI-web repose sur une méthode de fouille de texte pour la détection, la collecte, la catégorisation et l'extraction de l'information sanitaire à partir des données textuelles non structurées publiées sur le web. Une évaluation de l'outil a été effectuée à partir d'un cas d'étude sur une maladie animale d'intérêt (la fièvre aphteuse) en Afrique. Cette évaluation a mis en évidence des performances quantitatives de détection d'événements variables selon les pays, et une forte plus-value qualitative en terme de complémentarité d'informations. Les verrous méthodologiques identifiés (ambiguités géographiques, extraction d'événements pertinents en particulier) font l'objet des développements de cette thèse
La fouille de textes au service de la documentation
Article de vulgarisation scientifiqueNational audienceLes masses de données textuelles aujourd'hui disponibles engendrent un problème spécifique lié à leur traitement automatique. Des méthodes de fouille de textes et de traitement automatique du langage peuvent en partie répondre à cette difficulté. Approche des procédés et des nouveaux défis à relever présentés par deux chercheurs du Cirad, centre de recherche français qui répond, avec les pays du Sud, aux enjeux internationaux de l'agriculture et du développement
- …
