Information retrieval in institutional repositories using the summarization technique derived from the selection of Cassiopeia attributes/ Recuperação de informação em repositórios institucionais utilizando a técnica de sumarização a partir da seleção de atributos do Cassiopeia

Luanna Azevedo Cruz, Marcus Vinicius Carvalho Guelpeli

Abstract


The large volume of available text documents arising from the increase in scientific output creates a need for researching and implementing methods that facilitate information search and retrieval in academic text bases, such as institutional repositories. This study’s objective is thus to analyze whether the application of the summarization technique, based on the method of selecting attributes (words) of the Cassiopeia model (implemented in the PragmaSUM summarizer), in academic texts, is helpful for retrieving information by reducing information overload and improving the accuracy of user search results. The research was developed in steps: elaboration of the reference collection; implementation of a search engine; execution of standard information retrieval; evaluation of information retrieval using the precision metric; and data analysis from Friedman ANOVA and Kendall’s Coefficient of Concordance statistical tests. Results revealed that summarization, mainly performed with high compression rates (80% and 90%), reduced information overload and increased the accuracy of the results presented to the user, allowing quality information retrieval in academic texts. Furthermore, it simplified the indexing process, attenuated high dimensionality and promoted faster information retrieval.

Keywords


Information retrieval, Institutional repository, Text Mining, Summarization, Cassiopeia model.

Full Text:

PDF

References


Marcondes CH, Kuramoto H, Toutain LB, et al. Bibliotecas digitais: Saberes e Práticas. Salvador: EDUFBA, 2005, p. 345.

Sayão LF, Toutain LB, Rosa FG, et al. Implantação e gestão de repositórios institucionais: políticas, memória, livre acesso e preservação. Salvador: EDUFBA, 2009, p. 365.

Leite F, Amaro B, Batista T, et al. Boas práticas para a construção de repositórios institucionais da produção científica. Brasília: Ibict; 2012, p. 34.

Miranda IAA and Moura MA. Acesso aberto e gestão colaborativa de repositórios institucionais: a experiência da UFMG. BiblioCanto 2017; 37–50.

Baeza-Yates R and Ribeiro-Neto B. Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. 2th ed. Porto Alegre: Bookman, 2013, p. 612.

Manning CD, Raghavan P and Schütze, H. An introduction to information retrieval. Draft: Cambridge University Press, 2009, p. 581.

Silva RE, Santos PLVA and Ferneda E. Modelos de recuperação de informação e web semântica: a questão da relevância. Informação & Informação 2013; 27 – 44.

Aranha CN. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional. Thesis. Pontifícia Universidade Católica do Rio de Janeiro, BRA, 2007.

Ferneda E. Introdução aos Modelos Computacionais de Recuperação de Informação. Rio de Janeiro (RJ, Brasil): Ciência Moderna, 2012, p. 155.

Dias MP and Carvalho JOF. Visualização da Informação e a sua contribuição para a Ciência da Informação. DataGramaZero, http://hdl.handle.net/20.500.11959/brapci/6137 (2007, accessed 08 May 2019).

Grainger T and Potter T. Solr in action. Shelter Island: Manning, 2014, p. 666.

Barth FJ. Uma introdução ao tema Recuperação de Informações Textuais. Revista de Informática Teórica e Aplicada – RITA 2013; 247 – 272.

Rezende SO, Marcacini RM and Moura MF. O uso da Mineração de Textos para Extração e Organização Não Supervisionada de Conhecimento. Revista de Sistemas de Informação 2011; 7–21.

Guelpeli MVC. Cassiopeia: Um modelo de agrupamento de textos baseado em sumarização. Thesis. Universidade Federal Fluminense, BRA, 2012.

Rino LHM and Pardo TAS. A Sumarização Automática de Textos: Principais Características e Metodologias. Anais do XXIII Congresso da Sociedade Brasileira de Computação 2003; 203–245.

Beyer K, Godstein J, Ramakrishnan R, et al. When is "Nearest Neighbor" Meaningful? In: Beeri C, Buneman P, editors. International Conference on Database Theory (ICDT), Jerusalém, Israel: Springer Verlag, 1999, pp. 217–235.

Luhn HP. The automatic creation of literature abstracts. IBM Journal of Research and Development 1958; 159–165.

Nogueira BM. Avaliação de métodos não-supervisionados de seleção de atributos para Mineração de Textos. Dissertation. Universidade Federal de São Paulo, BRA, 2009.

Rocha VJC and Guelpeli MVC. Pragmasum: Automatic Text Summarizer Based On User Profile. International Journal of Current Research 2017; 53935–53942.

Silva RDL and Silva EM. Mas o que é mesmo Corpus? – Alguns Apontamentos sobre a Construção de Corpo de Pesquisa nos Estudos em Administração. In: XXXVII ANPAD Meeting, Rio de Janeiro, Brasil, 07–11 september 2013, pp. 1–10. Brasil: ANPAD.

Aguiar LHG, Rocha VJC and Guelpeli MVC. Uma coleção de artigos científicos de Português compondo um Corpus no domínio educacional. PLURAIS Interdisciplinar, 2017; 60 –74.

Capes. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). Brasília (DF, Brasil): Ministério da Educação, http://www.capes.gov.br (accessed 08 May 2019).

Lakatos EM and Marcone MA. Fundamentos de metodologia científica. 5. Ed. São Paulo: Atlas, 2003, p. 311.

Correia JSBL. Indexação de Documentos Clínicos. Dissertation. Universidade do Porto, PRT, 2016.

Solr. Apache Solr 7.2.1 Documentation. The Apache Software Foundation, https://lucene.apache.org/solr/7_2_1 (2018, accessed 08 July 2019).

Callegari-jacques SM. Bioestatística: Princípios e Aplicações. 1th ed. Porto Alegre: Artmed, 2007, p. 264.

Campos GM. Estatística Prática para Docentes e Pós-graduandos. Ribeirão Preto: Universidade Federal de São Paulo, http://www.forp.usp.br/restauradora/gmc/gmc_livro (2000, accessed 15 August 2019).

Viali L. Testes de hipóteses não paramétricos. Apostila. Instituto de Matemática, Departamento de Estatística, Porto Alegre, BRA, 2008.

Wives LK. Utilizando conceitos como descritores de textos para o processo de identificação de conglomerados (clustering) de documentos. Thesis. Universidade Federal do Rio Grande do Sul, BRA, 2004.




DOI: https://doi.org/10.34117/bjdv6n11-286

Refbacks

  • There are currently no refbacks.