Este projeto tem como objetivo desenvolver vários modelos de aprendizagem automática para prever a ocorrência de uma espécie de abelha em diferentes regiões da Península Ibérica, a fim de determinar qual deles apresenta o melhor desempenho na tarefa de predição.
- O conjunto de dados (dataset_bees.csv) utilizado possui informações sobre as características climáticas e geográficas, bem como dados de observação da presença (1) ou da ausência/pseudo-presença (0) da espécie em questão. Um dos desafios reside na abordagem do desequilíbrio entre classes nos dados, onde a classe minoritária (ocorrência da espécie) é rara em comparação com a classe majoritária (pseudo-presença).
- O projeto inclui várias etapas, nomeadamente no que diz respeito ao pré-processamento, normalização e divisão dos dados, assim como a aplicação da melhor técnica (undersampling ou oversampling) para equilibrar as classes nos conjuntos previamente divididos, de modo a conseguir desenvolver modelos mais precisos.
Atributos | Baseline | RO | SMOTE | RU | NM |
Nº de dados (1) | 89 | 6515 | 6515 | 89 | 89 |
Nº de dados (0) | 6515 | 6515 | 6515 | 89 | 89 |
Precision (1) | 0.07 | 0.03 | 0.09 | 0.03 | 0.01 |
Recall (1) | 0.03 | 0.08 | 0.08 | 0.62 | 0.62 |
Accuracy | 98.23 | 95.23 | 97.73 | 68.88 | 36.98 |
- Após a aplicação dos modelos, é elaborado um gráfico que contém todas as curvas ROC (Receiver Operating Characteristic) e, consequentemente, as suas AUC (Area Under the Curve), com o propósito de comparar e entender qual dos modelos abordados possui um melhor desempenho. Esta análise permitirá selecionar o modelo mais adequado para fornecer previsões precisas sobre a presença da espécie Apis-Melifera-Honeybee em diferentes regiões da Península Ibérica.