Classificação Automática de Códigos NCM Utilizando o Algoritmo Naïve Bayes

Rodrigo de Abreu Batista; Daniela D. S. Bagatini; Rejane Frozza

Authors

Rodrigo de Abreu Batista Universidade de Santa Cruz do Sul (UNISC) http://orcid.org/0000-0002-5841-4850
Daniela D. S. Bagatini Universidade de Santa Cruz do Sul (UNISC)
Rejane Frozza Universidade de Santa Cruz do Sul (UNISC)

Keywords:

Aprendizado supervisionado, Classificação de Texto, Algoritmo Naïve Bayes

Abstract

Esse artigo consiste no estudo e desenvolvimento de um classificador de texto para a categorização automática de descrições de itens de produto em seus códigos da Nomenclatura Comum do Mercosul (NCM). O desenvolvimento desse classificador foi realizado utilizando aprendizado supervisionado em combinação com o algoritmo Naïve Bayes. Para treinamento do classificador foram utilizados dados de itens de notas fiscais ao consumidor pertencentes aos capítulos 22 e 90 do NCM. Os resultados evidenciaram, com o auxílio da abordagem de validação cruzada com 10-folds, a capacidade do modelo em classificar corretamente as instâncias. Para o conjunto de dados mais simples e considerado fácil, obteve-se uma acurácia de 98%, enquanto para os conjuntos médio e difícil, as acurácias obtidas foram de 90% e 83%, respectivamente.

Downloads

Download data is not yet available.

Author Biographies

Rodrigo de Abreu Batista, Universidade de Santa Cruz do Sul (UNISC)

Possui Mestrado em Ciência da Computação pela Universidade Federal do Rio Grande do Sul (2015) e Bacharelado em Ciência da Computação pela Universidade Federal do Rio Grande do Sul (2010). Tem experiência na área de Ciência da Computação com ênfase em Sistemas Multiagentes, atuando principalmente nos seguintes temas: simulação, medidas de centralidade, sistemas inteligentes de transporte, redes complexas e medidas de centralidade. Tem interesse nas áreas de inteligência artificial, aprendizagem de máquina e mineração de dados.

Daniela D. S. Bagatini, Universidade de Santa Cruz do Sul (UNISC)

Mestre em Ciência da Computação pela Universidade Federal do Rio Grande do Sul (UFRGS). Graduada em Ciência da Computação pela Universidade Católica de Pelotas (UCPel). Professora da Universidade de Santa Cruz do Sul - UNISC (desde 2001): Professora dos cursos Licenciatura em Computação, Bacharelado em Engenharia da Computação e Ciência da Computação; Professora da Pós-Graduação e Coordenadora da Especialização EaD em Gestão por Processos de Negócios; Professora de extensão EaD do curso de Educação e Tecnologias; foi Coordenadora de Extensão a Assessoria de Educação a Distância - AEAD UNISC; foi participante do REGESD - Rede Gaúcha de Ensino Superior a Distância. Professora da Faculdade de Desenvolvimento do Rio Grande do Sul - FADERGS - Laureate International Universities (desde 2009): Professora do curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas; Coordenadora do Núcleo de Educação a Distância - NEaD FADERGS. Investigadora no Núcleo de Estudos em Subjetivação, Tecnologia e Arte - NESTA da Universidade Federal do Rio Grande do Sul - UFRGS (doutoranda). Tem experiência na área de Ciência da Computação, atuando principalmente nos seguintes temas: educação a distância, sistemas inteligentes, engenharia de software, estruturas de dados, projeto de sistemas de informação e qualidade de software.

Rejane Frozza, Universidade de Santa Cruz do Sul (UNISC)

Possui graduação em Informática pela Pontifícia Universidade Católica do Rio Grande do Sul (1993), mestrado em Computação pela Universidade Federal do Rio Grande do Sul (1997) e doutorado em Computação pela Universidade Federal do Rio Grande do Sul (2004). Atualmente é professora adjunta da Universidade de Santa Cruz do Sul, Santa Cruz do Sul, RS, no Departamento de Computação e no Programa de Pós-Graduação em Sistemas e Processos Industriais - Mestrado. Tem experiência na área de Computação, com ênfase em Inteligência Artificial, atuando principalmente nos seguintes temas: Sistemas Tutores Inteligentes, Agentes Pedagógicos em Sistemas Virtuais de Aprendizagem, Gestão do Conhecimento, Sistemas Multiagentes, Redes Neurais Artificiais, Sistemas Difusos, Sistemas de Raciocínio Baseado em Casos.

References

Bird, S., Klein, E., Loper, E. (2009) “Natural language processing with Python: analyzing text with the natural language toolkit”, O'Reilly Media, Inc.

Ding, L., Fan, Z., Chen, D. (2015) “Auto-Categorization of HS Code Using Background Net Approach”, Procedia Computer Science, v. 60, p. 1462-1471.

Flick, U. (2012) “Introdução à metodologia de pesquisa: um guia para iniciantes”, Penso Editora.

Indurkhya, N., Damerau, F. J. (Ed.). (2010) “Handbook of natural language processing”, CRC Press.

Kohavi, R. (1995) “A study of cross-validation and bootstrap for accuracy estimation and model selection”, International joint Conference on artificial intelligence. [S.l.: s.n.). v. 14, p. 1137–1145.

Leskovec, J., Rajaraman, A., Ullman, J. D. (2014) “Mining of massive datasets”, Cambridge University Press.

Luhn, H. P. (1957) “A statistical approach to mechanized encoding and searching of literary information”, IBM Journal of research and development, v. 1, n. 4, p. 309-317.

Manning, C. D., Raghavan, P., Schütze, H. (2008) “Introduction to information retrieval”, v. 1, n. 1. Cambridge: Cambridge university press.

Ministério da Indústria, Comércio Exterior e Serviços. (2016) “TEC em Excel Completa”, Disponível em: <http://www.mdic.gov.br/comercio-exterior/estatisticas-de-comercio-exterior-9/arquivos-atuais>. Acesso em: 2 de Abr. 2017.

Mitchell, T. M. (1997) “Machine learning”, Burr Ridge, IL: McGraw Hill, v. 45, p. 37.

Orengo, V. M., Huyck, C. R. “RSLP Stemmer (Removedor de Sufixos da Língua Portuguesa)”, Disponível em: <http://www.inf.ufrgs.br/~viviane/rslp/>. Acesso em: 2 de Abr. 2017.

Orengo, V. M., Huyck, C. R. (2001) “A Stemming Algorithm for the Portuguese Language”, In: spire. 2001. p. 186-193.

Pedregosa, F., Buitinck, L., Louppe, G., Blondel, M., Mueller, A., Grisel, O., Niculae, V., Prettenhofer, P., Gramfort, A., Grobler, J., Layton, R., Vanderplas, J., Joly, A., Holt, B., Varoquaux, G. (2011) “Scikit-learn: Machine Learning in Python”, JMLR 12, pp. 2825-2830.

Receita Federal. (2015) “Sistema harmonizado de designação e de codificação de mercadorias”. Disponível em: <http://idg.receita.fazenda.gov.br/acesso-rapido/legislacao/legislacao-por-assunto/sistema-harmonizado>. Acesso em: 2 de Abr. 2017.

Russell, S. J., Norvig, P. (2003) “Artificial intelligence: a modern approach”, Upper Saddle River: Prentice hall.

Sparck Jones, K. (1972) “A statistical interpretation of term specificity and its application in retrieval”, Journal of documentation, v. 28, n. 1, p. 11-21.

Tong, S., Koller, D. (2001) “Support vector machine active learning with applications to text classification”, Journal of machine learning research, v. 2, n. Nov, p. 45-66.

Triola, M. F. (2008) “Bayes’ Theorem”. Disponível em: <http://faculty.washington.edu/tamre/BayesTheorem.pdf>. Acesso em: 2 de Abr. 2017.

Classificação Automática de Códigos NCM Utilizando o Algoritmo Naïve Bayes

Authors

Keywords:

Abstract

Downloads

Author Biographies

Rodrigo de Abreu Batista, Universidade de Santa Cruz do Sul (UNISC)

Daniela D. S. Bagatini, Universidade de Santa Cruz do Sul (UNISC)

Rejane Frozza, Universidade de Santa Cruz do Sul (UNISC)

References

Downloads

Published

How to Cite

Issue

Section

License

Make a Submission

Language

Information