Avatar

Escola de Verão em Linguística Computacional

7 Julho 2009
Sem comentários

Escola de Verão do Centro de Linguística da UP teve como principal tópico o tema do Processamento da Linguagem Natural (PLN), os vários aspectos do seu processamento, algumas das ferramentas desenvolvidas neste âmbito e ideias para futuras investigações. O programa desta escola teve em especial atenção a necessidade que existe para a interacção entre linguístas e engenheiros no que respeita a PLN.

Como se sabe, é por vezes difícil conciliar o trabalho desenvolvido por linguístas e engenheiros, principalmente devido à sua formação distinta. Por um lado, os linguístas tendem a ser muito meticulosos e são capazes de analisar milhares de documentos manualmente, ao passo que os engenheiros pretendem resultados rápidos e com pouca intervenção humana. No entanto, a componente linguísta é importante num trabalho de engenharia pois permite validar muitas das opções tomadas. Por outro lado, o trabalho levado a cabo por um linguísta terá mais impacto e visibilidade se for integrado num produto informático.

Do meu ponto de vista, esta escola foi imensamente proveitosa pois fiquei a conhecer as várias vertentes da investigação actual no PLN para português, as ferramentas e recursos já existentes, e estabeleci vários contactos com pessoas que fazem investigação nesta área há muitos anos. Destas novas prespectivas e formas de estudar o PLN, surgiram várias ideias que poderão melhorar o Verbatim. Entre elas destaco:

  • O uso do Léxico Semântico do Português (LSP) com vista a melhorar a qualidade das regras de extracção de citações.
  • A utilização de informação semântica e sintáctica para gerar regras mais eficientes para a extracção.
  • O uso do conhecimento de linguístas para a validação e inserção de novas regras de extracção.
  • A utilização do dicionário NooJ, morfologicamente e semanticamente marcado, para incrementar a qualidade do LSP.
  • Organização do Verbatim por tópicos / temas.
  • Visualização da informação dos tópicos no Verbatim, visto que é uma forma de atraír o público.

A minha participação nesta Escola de Verão aconteceu com a apresentação doProjecto Verbatim, as suas principais funcionalidades, o que tem vindo a ser desenvolvido, algumas considerações futuras e ainda uma pequena demonstração do seu interface. No geral, a audiência gostou do sistema apresentado, principalmente pela qualidade dos resultados conseguidos face ao esforço ‘linguístico’ presente.

Os principais comentários foram:

  • O facto de não ser evidente a distinção entre tópicos e temas – foi discutido que não está clara a diferença entre tópico e tema. Por exemplo, para uma notícia relativa a um jogo de futebol entre a equipa A e B, o tópico poderia ser o jogo de futebol entre A e B e o tema Futebol/Desporto.
  • A expressão ‘actos-de-fala’ não é a designação mais apropriado para verbos como ‘dizer’, ‘afirmar’, ‘elogiar’, etc – no entanto, a definição de ‘acto-de-fala’ não é consensual entre a comunidade de linguístas (http://en.wikipedia.org/wiki/Speech_act).
  • Também relativamente à definição de ‘citação’ houve discordância quanto à palavra aplicada porque o Verbatim também extrai “citações indirectas”.

Como conclusão, esta Escola de Verão permitiu por um lado integrar-me mais no tema do PLN, conhecer os temas mais falados e tópicos de investigação futura, e por outro lado obter comentários (quer de linguístas quer de engenheiros) relativamente ao Verbatim.

Jorge Filipe Teixeira



Sem comentários