Search CORE

1,335 research outputs found

Alinhamento de corpora paralelos

Author: Simões Alberto
Publication venue
Publication date: 01/06/2003
Field of study

Este documento apresenta um conjunto de ferramentas denominado NATools para o alinhamento de corpora paralelos. É apresentado o processo de alinhamento tendo em conta os vários níveis intervenientes, desde o convencional alinhamento à frase, até ao alinhamento à palavra, com a criação dos respectivos dicionários de tradução. São apresentadas medidas em relação ao tempo usado para o alinhamento, bem como resultados obtidos. São discutidas técnicas para a detecção de traduções de termos multi-palavra usando o algoritmo de alinhamento à palavra. Os dicionários de tradução obtidos irão ser explicados e as suas aplicações exploradas: navegação e consulta web dos dicionários produzidos e corpora usado; alinhamento ao segmento de palavra (ou tradução "por exemplo"); classificação automática da qualidade de um par de traduções

Universidade do Minho: RepositoriUM

Repositório Comum

Computer science, linguists and languages

Author: Simões Alberto
Publication venue: Universidade do Minho
Publication date: 01/01/2014
Field of study

[Excerto] Prólogo: Existe uma espécie de Guerra Santa há algum tempo entre investigadores da área das ciências da computação (a que vou chamar abusivamente de informáticos) e investigadores da área das ciências da língua (a que vou chamar abusivamente de linguistas) porque os primeiros se têm aventurado em tarefas que habitualmente eram realizadas pelos segundos. Estas incursões levam a que tarefas que habitualmente demoram meses a realizar de forma manual sejam automatizadas e realizadas rapidamente, com a ajuda de um programa computacional. Tipicamente, quando estes trabalhos são apresentados em conferências habitualmente frequentadas por linguistas, são alvo de grandes críticas pela falta de correção do resultado obtido. O que pretendo apresentar neste documento são as razões que me parecem levar a este comportamento, e discutir o que é possível alcançar se informáticos e linguistas conseguirem perceber os pontos de vista e objectivos de cada um deles. [...

Universidade do Minho: RepositoriUM

Examples Extraction for Machine Translation

Author: Simões Alberto
Publication venue
Publication date
Field of study

This presentation will focus on some techniques for the extraction of bilingual resources for machine translation, giving some emphasis to the extraction of translation examples. It will include a brief experiment on the usage of these resources for hybrid machine translation

Repositório Comum

Dicionário aberto : um recurso para processamento de linguagem natural

Author: Farinha Rita
Simões Alberto
Publication venue: Asociación de Tradutores Galegos (ATG)
Publication date: 23/11/2009
Field of study

Este artigo apresenta o projecto Dicionário Aberto, a construção de um dicionário aberto, livre e gratuíto, para a língua portuguesa. Para ajudar no arranque optou-se pela transcrição de um dicionário em papel no domínimo público: Novo Diccionário da Língua Portuguesa, de Cândido de Figueiredo, de 1913. Apresentamos o processo usado para a transcrição bem como a metodo- logia usada para garantir um patamar de qualidade mínima da transcrição, e como o dicionário foi posteriormente convertido para um formato XML, per- mitindo uma maior facilidade de processamento a terceiros. Finalmente, são discutidos os problemas existentes no uso de um dicio- nário com quase um século, e como se pretende proceder à sua modernização (de conteúdos e de grafia), e de que forma este recurso pode ser útil para o processamento da língua portuguesa.This document presents Dicionário Aberto project which aims at the construction of an open-source and free dictionary, for the Portuguese language. To help the bootstrap process, a paper dictionary in the public domain was transcribed: Novo Diccionário da Língua Portuguesa, of Cândido de Figueiredo, from 1913

Universidade do Minho: RepositoriUM

Desenvolvimento de aplicações em perl com freeLing 3

Author: Carvalho Nuno
Simões Alberto
Publication venue
Publication date: 01/12/2012
Field of study

O FreeLing é uma ferramenta para processamento de linguagem natural, em especial para análise morfossintáctica e cálculo de árvores de dependências. Embora a escolha de implementação em C++ seja relevante pela eficiência, torna complicado o desenvolvimento de pequenas ferramentas. Além disso, a interface Perl disponibilizada com o próprio FreeLing não é mais que um mapeamento directo da API C++ para Perl, o que não é o mais adequado. Este artigo apresenta as decisões de implementação do módulo Perl FL3, e discute como esta interface torna simples a escrita de pequenos processadores de linguagem natural em Perl

Universidade do Minho: RepositoriUM

Directory of Open Access Journals

Cooking flex with Perl

Author: Simões Alberto
Publication venue
Publication date: 01/05/2002
Field of study

There are a lot of tools for parser generation using Perl. As we know, Perl has flexible data structures which makes it easy to generate generic trees. While it is easy to write a grammar and a lexical analyzer using modules like Parse::Yapp and Parse::Lex, this pair of tools is not as efficient as I would like. In this document I'll present a way to cook quickly Parse::Yapp with the better lexical analyzer I know: flex

Universidade do Minho: RepositoriUM

Ensinador Paralelo: alicerces para uma pedagogia nova

Author: Santos Diana
Simões Alberto
Publication venue: 'University of Oslo Library'
Publication date: 01/01/2015
Field of study

Series: "Oslo Studies in Language". ISSN 1890-9639. 7(1), 2015.After outlining some of Belinda Maia’s main ideas of how to use comparable corpora in translation teaching and learning, we present a new translator training tool: Ensinador Paralelo. It is an extension of Ensinador, originally developed for use with monolingual corpora (Simões & Santos 2011). This new tool produces exercises based on translations (previously done by professional translators or students, as we will see). In order to make the text more interesting to Belinda Maia we also study critically four translations of Lewis Carroll’s children books.Fundação para a Ciência e Tecnologia (FCT)CLU

Universidade do Minho: RepositoriUM

Repositório Comum

University of Oslo (UiO): FRITT (E-Journals)

XML schemas for parallel corpora

Author: Fernandes Sara
Simões Alberto
Publication venue
Publication date: 01/01/2011
Field of study

Parallel corpora are resources used in Natural Language Processing and Computational Linguistics. They are defined as a set of texts, in different languages, that are translations of each other. Note that these translations do not need to cover the full document, as we might have sentences translated just on some of the languages. When dealing with the process of sharing resources, recent years have bet on the use of XML formats. This is no different when talking about parallel corpora sharing. When visiting different projects in the web that release parallel corpora for download, we can find at least three different formats. In fact, this abundance of formats has led some projects to adopt all the three formats. This article discusses these three main formats: XML Corpus Encoding Standard, Translation Memory Exchange format and the Text Encoding Initiative. We will compare their formal definition and their XML schema

CiteSeerX

Universidade do Minho: RepositoriUM

Segmentação bilingue com base na marker hypothesis

Author: Simões Alberto
Publication venue: Associação Portuguesa para a Inteligência Artificial (APPIA)
Publication date: 01/12/2007
Field of study

A existência de exemplos de tradução é imprescindível para tradução assistida por computador bem como para tradução automática baseada em dados (EBMT e SMT). No entanto, o uso de unidades de tradução de corpora paralelos directamente na tradução não é eficaz já que estas unidades são demasiado grandes, e portanto, torna-se pouco provável que uma mesma unidade de tradução tenha de ser traduzida mais do que uma vez. Para colmatar este problema há necessidade de explorar outras metodologias para a divisão de unidades de tradução em segmentos paralelos mais pequenos. Uma das abordagens que tem vindo a ser utilizada é a segmentação baseada em marcadores (Marker Hypothesis). Este documento pretende documentar as experiências realizadas na utilização deste método para a segmentação de texto português (paralelo com o inglês)

Universidade do Minho: RepositoriUM

Repositório Comum