Avatar

Obfuscation Dataset

27 Maio 2014
Sem comentários

“Obfuscation Dataset” é uma coleção de dados que contém 2500 mensagens do SAPO Desporto com informação sobre profanidade anotada manualmente e informação relativa à forma como os autores disfarçam os palavrões.

Esta informação é conveniente para diversos fins, nomeadamente a Identificação de Profanidades e a Obfuscação/desofuscação de textos.

Para detalhes adicionais, consulte o nosso artigo que contém os detalhes:

  • Artigo disponível aqui
  • Dataset disponível aqui

 


 

This dataset contains 2500 messages taken from SAPO Desporto, that were annotated by hand to indicate profanity. We also provide additional information regarding how authors disguise their swearing.

This data is convenient for several uses, namely Profanity Identification and Obfuscation/deobfuscation of text.

For details, please take a look at our paper containing the details:

  • Paper available here
  • Dataset available here


Sem comentários