Avatar

Tokenizer for User Generated Content

14 Setembro 2010
Sem comentários

A ferramenta de atomização (tokenization) é útil na fase de pré-processamento de mensagens típicas de UGC (User-Generated Content), como micro-blogs, facebook, comentários de artigos, mensagens de fórums, e por semelhança, mensagens de SMS.
Procurou-se lidar correctamente com o ruído típico desse meio, URLs, pontuação não padrão e emoticons. Além disso, reconhece também nomes de utilizadores (@username) e hashtags (#atag) do Twitter.
A tokenização é efectuada através da inserção de espaços em branco, que separam as estruturas atómicas da mensagem.
Caso use este recurso, agradecíamos que fizesse citação do artigo Tokenizing Micro-Blogging Messages using a Text Classification Approach (to be published).



Sem comentários