Divisão de Engenharia Civil Ano: 2023
(Turma 2023, TGs 2023)
Modelagem de demanda por passagem aérea por meio do processamento de linguagem natural (pdf 2,1 MB)
Autor: Fabio Freitas de Souza Filho
Orientador(es): Marcelo Xavier Guterres
Relator(es): Alessandro Vinícius Marques de Oliveira
Ano: 2023
Resumo:
Este trabalho de conclusão de curso investiga a integração de variáveis geradas pelo modelo de Processamento de Linguagem Natural (PLN) Google BERT em um modelo econométrico focado na previsão de demanda por passagens aéreas. Além disso, o modelo incluiu indicadores macroeconômicos, com ênfase no Produto Interno Bruto (PIB). A pesquisa iniciou-se com a coleta de notícias relevantes ao setor aéreo por meio de técnicas de web scraping, com o objetivo de criar um banco de dados para análise pelo modelo BERT. O propósito principal era examinar se as informações extraídas das notícias, quando convertidas em variáveis pelo BERT, poderiam enriquecer as previsões do modelo econométrico. No entanto, os resultados obtidos indicaram que, apesar da metodologia inovadora e da integração de dados não estruturados, as variáveis derivadas do BERT não apresentaram significância estatística para o modelo. Isto sugere que, no contexto específico deste estudo, as nuances linguísticas e sentimentais das notícias não tiveram impacto mensurável na demanda por passagens aéreas, quando comparadas com variáveis tradicionais como o PIB. Este achado proporciona insights valiosos para a área de modelagem econométrica, destacando a importância de avaliar a relevância e o impacto de diferentes tipos de dados. A pesquisa realça o desafio de integrar dados de PLN em modelos econométricos e sugere a necessidade de mais estudos para explorar as condições sob as quais esses dados podem ser significativos. Este estudo contribui para o corpo de conhecimento em economia e PLN, fornecendo uma base para futuras investigações sobre a aplicabilidade de técnicas de PLN em análises econômicas. Abstract:
Abstract
This thesis investigates the integration of variables generated by the Google BERT Natural
Language Processing (NLP) model into an econometric model focused on forecasting air
travel demand. The model also incorporates macroeconomic indicators, with an emphasis
on Gross Domestic Product (GDP). The research began with the collection of relevant
airline industry news through web scraping techniques, aiming to create a database for
analysis by the BERT model.
The main purpose was to examine whether the information extracted from the news,
when converted into variables by BERT, could enhance the forecasts of the econometric
model. However, the findings indicated that despite the innovative methodology and the
integration of unstructured data, the BERT-derived variables did not show statistical
significance in the model. This suggests that, in the specific context of this study, the
linguistic nuances and sentiments of the news did not have a measurable impact on air
travel demand when compared to traditional variables like GDP.
This discovery provides valuable insights into the field of econometric modeling, high
lighting the importance of assessing the relevance and impact of different types of data.
The research underscores the challenge of integrating NLP data into econometric models
and suggests the need for further studies to explore under what conditions such data might
be significant. This study contributes to the body of knowledge in economics and NLP,
providing a foundation for future investigations into the applicability of NLP techniques
in economic analyses.