Extração Automática de Unidades Polilexicais para o Português
Jan 2005
A aquisição automática de unidades polilexicais é um problema árduo de resolver no âmbito do processamento da língua natural. Tradicionalmente, a extracção de unidades lexicais de sentido não totalmente composicional (i.e. unidades polilexicais) tem sido relegada para o limiar do tratamento lexicográfico. Recentemente, o livre acesso a grandes colecçoes de textos em formato electrónico originou um interesse renovado pela fraseologia. Foi assim possível testar empiricamente as regras que tinham sido expostas sobre a fixação sintáctica e semântica das unidades polilexicais. Neste âmbito, apresentamos um novo sistema baseado exclusivamente em estatística que identifica e extrai unidades polilexicais a partir de corpora não tratados. Conjuga-se assim uma nova medida de associação fundamentada no conceito de expectativa normalizada, a Expectativa Mútua, com um novo processo de extracção baseado num algoritmo de máximos locais, o LocalMaxs. Os resultados apontam para a identificação de nomes e determinantes compostos assim como locuções verbais, adjectivais, adverbiais, conjuntivas e preposicionais.