A seleção das características é um processo importante para a criação de classificadores pois este processo elimina características irrelevantes melhorando o desempenho do modelo, além de torná-lo fácil de compreender, e reduzir o tempo de processamento. Existem três abordagens para a seleção de características: Métodos de filtragem, métodos embedded, e métodos wrapper (HULJANAH, 2019). Métodos baseados em filtragem utilizam-se de métricas fornecidas para a escolha das características mais relevantes. Na abordagem embedded a tarefa de seleção das características é realizada internamente pelo próprio algoritmo. E por fim a abordagem wrapper gera subconjuntos de candidatos de características, e executam o algoritmo considerando apenas esse subconjunto de características selecionado do conjunto de treinamento, e utilizam a precisão resultante do classificador gerado para avaliar o subconjunto em questão (LEE, 2000). Neste projeto, foi escolhido uma abordagem embedded, utilizando-se o método Random Forest Classifier fornecido pela biblioteca Scikit-learn. O Random Forest Classifier é um algoritmo de aprendizado conjunto, que treina várias árvores de decisão descorrelacionadas obtidas a partir de amostras da base de dados, e faz predições utilizando os resultados que mais aparecem (HULJANAH, 2019). Ao fim, retorna uma pontuação correspondente a importância de cada característica extraída, assim, possibilitando eliminar as que apresentaram relevância menor que o desejado.
O modelo descrito foi validado utilizando-se a validação cruzada fornecida pela biblioteca Scikit learn e a métrica para medir a eficiência do modelo foi a média da acurácia dos treinamentos. Inicialmente, a base de dados foi dividida em 5 partes. A partir da divisão, 4 foram utilizadas para treinar e 1 para validar. Esse procedimento foi repetido 5 vezes, assim, todas as partes foram usadas no treinamento e também todas foram validadas sem terem entrado no treinamento, com isso é possível garantir que o modelo não ficou enviesado por uma divisão.