Utilização de Expressões Relevantes na Extracção de Tópicos e no Agrupamento de Documentos a partir de Corpora Multi-Língua

A extracção de Expressões Relevantes a partir de texto tem sido, por várias abordagens, limitada a sequências de 2 palavras. As abordagens estatísticas recorrem normalmente à utilização de medidas de coesão aplicadas a sequências de apenas 2 palavras, além de estabelecerem limiares de decisão ajustados empiricamente, de forma a separar os pares considerados relevantes dos não relevantes. As abordagens exclusivamente morfo-sintáticas, são normalmente limitadas à extracção de Expressões Relevantes na língua para que foram desenhadas (normalmente o Inglês). Neste seminário, será apresentada uma abordagem estatística que tenta resolver estes problemas, premitindo a extracção de expressões de qualquer comprimento, “independentemente” da língua.

O agrupamento (clustering) de documentos é feito, em várias abordagens, recorrendo a listas prévias de tópicos conhecidos, segundo os quais são classificados os documentos, para posterior separação em grupos. Naturalmente que, estas abordagens exigem uma actualização manual permanente dessas listas dado que não adquirem automaticamente conhecimento sobre novos assuntos (tópicos) eventualmente em novas línguas. Nesta sessão, será apresentada uma abordagem que, utilizando as Expressões Relevantes automaticamente extraídas dos textos (documentos), permite agrupar os documentos segundo os tópicos residentes nos documentos, bem como identificar os assuntos de que trata cada grupo de documentos, “independentemente” da língua.

Presenter

Date	02/10/2002 2:00 pm
State	Concluded

seminars

Detail

Utilização de Expressões Relevantes na Extracção de Tópicos e no Agrupamento de Documentos a partir de Corpora Multi-Língua

Presenter

Share