Percepção do tratamento dado por um texto a uma entidade a partir da análise de proximidade de palavras do contexto utilizando a técnica do Word2vec / Perception of the Treatment Given by a Text to an Entity from the Analysis of the Context Words Proximity Using the Word2vec Technique

Dulcinéia Gonçalves Ferreira Pires, Sandrerley Ramos Pires, Beatriz Constante, Sirlon Diniz de Carvalho

Abstract


Simples palavras citadas diz muito sobre a pessoa que as pronunciou. Essa citação inspira a hipótese trabalhada neste artigo que é: quando analisando um texto, dada uma palavra que representa uma entidade qualquer do texto, as outras palavras que a cercam no contexto podem conter informações relevantes a respeito das ideias que o texto traz a respeito daquela entidade. Mas, como localizar em um texto as palavras que descrevem de forma adequada a ideia que o texto traz com relação a uma determinada entidade? Este trabalho utiliza uma técnica de representação multidimensional de palavras para tentar resolver este problema. O Word2Vec é uma técnica de Processamento de Linguagem Natural que pode auxiliar nessa tarefa. Ela cria representações multidimensionais para as palavras estabelecendo relações semânticas entre palavras em um hiperespaço quando ele é treinado com grande corpus de texto. Quando o treinamento é feito com texto menores (algumas dezenas de milhares de palavras), a técnica consegue trazer as principais palavras que cercam o contexto do texto onde a entidade é citada.  Diante de uma entidade e um grupo de palavras, é possível que uma análise humana possa inferir a respeito do tratamento recebido por aquela entidade no texto. Este trabalho efetuou o treinamento utilizando a Constituição Federal Brasileira de 1988 e após isso, avaliou as palavras que são trazidas pelo Word2Vec quando se cita uma entidade qualquer. Os resultados obtidos com o experimento sugerem o fortalecimento da hipótese deste trabalho. Sugerem também que mais estudos devem ser feitos com o objetivo de se obter maior domínio da técnica reduzindo a subjetividade do processo.


Keywords


Percepção da ideia de um texto, Processamento de Linguagem Natural, Análise de conteúdo, Word2Vec.

References


Aluísio, Sandra Maria; Almeida, Gladis Maria de Barcellos. O que é e como se constrói um corpus? Lições aprendidas na compilação de vários corpora para pesquisa linguística, Calidoscópio, vol. 4, n. 3, p. 156-178, 2006.

Chuan, Ching-Hua; Agres, Kat; Herremans, Dorien. From context to concept: exploring semantic relationships in music with Word2vec, Neural Computing and Applications, v. 32, p. 1023–1036, 2020.

Constituição Federal Brasileira, Câmara dos deputados, acessível em: https://www2.câmara. leg.br/atividade-legislativa/legislacao/constituicao1988, acessado em 09/02/2021.

Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805, 2019.

Dias, Abel Corrêa. Estudo comparativo de técnicas de word embeddings para recomendação de notícias na web. 10.13140/RG.2.2.31472.00009, 2019.

Djaballah, K. A., Boukhalfa, K., Boussaid, O. Sentiment Analysis of Twitter Messages using Word2vec by Weighted Average, Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS), Granada, Spain, 2019, pp. 223-228, doi: 10.1109/SNAMS.2019.8931827, 2019.

Mikolov, Tomas; Corrado, Greg; Chen, Kai; Dean, Jeffrey. (2013). Efficient Estimation of Word Representations in Vector Space. Em Proceedings of the International Conference on Learning Representations, 2013-a.

Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey. Distributed Representations of Words and Phrases and their Compositionality, arXiv:1310.4546, 2013-b.

Pasti, R., Vilasbôas F. G., Roque, I. R., de Castro, L. N. A Sensitivity and Performance Analysis of Word2Vec Applied to Emotion State Classification Using a Deep Neural Architecture. Distributed Computing and Artificial Intelligence, 16th International Conference. Advances in Intelligent Systems and Computing, vol 1003. Springer, 2020.

Peters, Matthew E.; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher, Lee, Kenton; Zettlemoyer, Luke. Deep contextualized word representations, arXiv: 1802.05365, 2018.

Rozado, David, Using Word Embeddings to Analyze how Universities Conceptualize “Diversity” in their Online Institutional Presence, Symposium: New Measures, New Ideas, Society, v. 56, p. 256–266, 2019.

Russell, Stuart; Norvig, Peter. Artificial Intelligence: A Modern Approach, Prentice Hall; 3ª edição, 2009, 978-0136042594.

Tausczik, Yla R.; Pennebaker, James W. The Psychological Meaning of Words: LIWC and Computerized Text Analysis Methods. Journal of Language and Social Psychology, pp.1–31, 2010, DOI: http://dx.doi.org/10.1177/0261927X09351676.

Weintraub,Walter. Verbal Behavior: Adaptation and Psychopathology, Springer Pub Co, 1982, ISBN: 978-0826126603.




DOI: https://doi.org/10.34117/bjdv.v7i5.29724

Refbacks

  • There are currently no refbacks.