Divisão de Engenharia Civil Ano: 2018

(Turma 2018, TGs 2018)

Application of machine learning Techniques for soil classification From cpt data (pdf 373 kB)

Autor: Lucas Orbolato Carvalho

Orientador(es): Dimas Betioli Ribeiro

Relator(es): Paulo Ivo Braga de Queiroz

Ano: 2018

Resumo:

O problema de classificação de solos com dados de ensaio de penetração de cone (Cone Penetration Test CPT) é usualmente tratado com soluções bidimensionais tais como gréficos ou, menos frequentemente, abordagens de Aprendizado de Máquina (Machine Learning ML) em um espaço de dimensionalidade restrita. Para evitar esta restrição, neste trabalho é feita uma análise multi-dimensional dos dados de CPT para a classificação de solos usando algoritmos simbólicos e baseados em distância. Os algoritmos simbólicos são capazes de realizar uma análise de relevância e uma seleção dos atributos internamente, permitindo estimar a importância dos atributos. Estes algoritmos são empregados a fim de avaliar a relevância de cada atributo segundo diferentes critérios e analisar seu desempenho considerando até cinco características, incluindo atributos brutos e normalizados de CPT como entradas contínuas e a idade geológica como discreta. O conjunto de dados utilizado é composto de 111 sondagens provenientes de diferentes locais do planeta. As técnicas simbólicas, nomeadamente árvores de decisão impulsionadas (DT) e florestas aleatórias (RF), são aplicadas ao problema, estudadas e comparadas usando o procedimento 10-fold de validação cruzada. Dois métodos de classificação são considerados: um influenciado pela granulometria do solo (ISG) e outro focado no comportamento do solo (FSB). Uma metodologia geral para a classificação de solos usando técnicas de ML é descrita e seguida. Ela envolve procedimentos de estatística descritiva e outras técnicas de ML para o préprocessamento dos dados, incluindo a transformação, a limpeza e o balanceamento dos dados. As técnicas são também comparadas com o algoritmo do vizinho mais próximo ponderado pela distância pela função Gaussiana (DWNN). As comparações são feitas por meio de testes estatísticos de hipóteses. Os resultados mostram que as árvores de decisão impulsionadas e as florestas aleatórias possuem desempenho equivalente e que ambas têm melhor desempenho que o DWNN. A análise de importância dos atributos mostra que a profundidade e a idade geológica introduzem informação relevante para a classificação de solos e que os atributos brutos incluindo a profundidade podem ser suficientes para o desempenho da tarefa.

Abstract:

The soil classification problem with cone penetration test (CPT) data is usually treated with bidimensional solutions such as charts or, less often, machine learning (ML) approaches in a dimensionally restricted feature space. To avoid this restriction, a multidimensional analysis of CPT data for soil classification is here performed by using k- nearest neighbors (KNN) and machine learning symbolic algorithms. The symbolic algorithms are able to do an inner input features relevance analysis and feature selection, calculating the features importance. These algorithms are employed in order to evaluate each input feature importance by different criteria and to analyze their performance considering up to five features including raw and normalized CPT inputs as continuous inputs and soil age as a discrete one. The dataset used is composed by 111 soundings from different locations around the world. The symbolic techniques, namely boosted decision trees (DT) and random forests (RF), are applied to the problem, studied and compared using a 10-fold cross-validation procedure. Two classification methods are considered: one influenced by soil granulometry (ISG) and the other focused on soil behaviour only (FSB). A general methodology for soil classification using ML techniques is described and followed. It covers descriptive statistical procedures and other ML techniques for data preprocessing, including data transformation, cleaning and balancing. The symbolic techniques are compared with the Gaussian distance-weighted nearest neighbor technique (DWNN). The comparisons are made with statistical hypothesis tests. The results shows that RF and boosted DT have equivalent performance and that they both perform better than the DWNN. The features importance analysis indicates that depth and soil age introduce relevant information for soil classification and that the raw inputs including depth can be enough to perform the task.