MDLText e Indexação Semântica aplicados na Detecção de Spam nos Comentários do YouTube


  • Renato Moraes Silva Universidade Estadual de Campinas
  • Túlio C. Alberto
  • Tiago A. Almeida Departamento de Computação (DComp) / Universidade Federal de São Carlos (UFSCar)
  • Akebo Yamakami Departamento de Sistemas e Energia (DSE) / Faculdade de Engenharia Elétrica e Computação (FEEC) / Universidade Estadual de Campinas - UNICAMP

Mots-clés :

aprendizado de máquina, categorização de texto, princípio da descrição mais simples, YouTube


Muitos usuários do YouTube produzem conteúdo regularmente e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso vem despertando a atenção de usuários mal-intencionados, que propagam comentários indesejados para se autopromoverem ou para disseminar links maliciosos. Neste cenário, métodos tradicionais de categorização de texto podem sofrer limitações devido às características inerentes ao problema: (1) os comentários costumam ser curtos e mal redigidos e (2) o problema de classificação é naturalmente online. Este artigo avalia um método de classificação baseado no princípio da descrição mais simples e compara os resultados com os de métodos tradicionais de aprendizado online. Também é proposta uma técnica ensemble, que combina os métodos de classificação com diferentes técnicas de processamento de linguagem natural. Os experimentos foram cuidadosamente realizados e a análise estatística dos resultados indica que a técnica proposta obteve desempenho superior ao obtido quando apenas os comentários originais foram empregados.


Renato Moraes Silva, Universidade Estadual de Campinas

Departamento de Sistemas e Energia (DSE) \ Faculdade de Engenharia Elétrica e Computação (FEEC) \ Universidade Estadual de Campinas (UNICAMP)


Silva, R. M., Alberto, T. C., Almeida, T. A., & Yamakami, A. (2017). MDLText e Indexação Semântica aplicados na Detecção de Spam nos Comentários do YouTube. ISys - Brazilian Journal of Information Systems, 10(3), 49–73. Consulté à l’adresse

