C/ Mariano Esquillor, s/n. 50018 - Zaragoza
+34 619 12 46 15
info@remot-technologies.com

Cómo hacer clasificación supervisada con QGIS DZETSAKA. Métodos avanzados.

Cómo hacer clasificación supervisada con QGIS DZETSAKA. Métodos avanzados.

Ya hemos visto hasta ahora cómo realizar una clasificación supervisada con el complemento DZETSAKA y cómo instalar la librería Scikit-learn que nos amplía el número de algoritmos para la realización de la clasificación supervisada

Pero, ¿Cuáles son las diferencias entre el uso de uno u otro algoritmo? Para ver estos contrastes, vamos a realizar una clasificación para la misma zona, con las mismas áreas de entrenamiento para los diferentes algoritmos.

Random Forest

Random Forest es un algoritmo basado en “bosque aleatorio”, ajusta una serie de clasificadores de árbol de decisiones en varias submuestras del conjunto de datos y utiliza los promedios para mejorar la precisión predictiva y controlar el sobreajuste.

Para realizar esta clasificación, seleccionamos el punto 1 y escogemos esta opción desde el punto 2.

Clasificación supervisada mediante el algoritmo Random Forest (RF)

Es importante recordar que tenemos que tener seleccionada nuestra capa ráster a partir de la cual realizaremos la clasificación y la capa vectorial sobre la que tenemos nuestras áreas de entrenamiento. Si no sabes cómo generar la capa de entrenamiento, puedes volver a leer la primera parte de este post.

Resultado de la clasificación supervisada con Random Forest.

K-nearest neighbors

El método de K vecinos más próximos, es un método que sirve para estimar la función de densidad de probabilidad de que un elemento pertenezca a una clase a partir de la información proporcionada por el conjunto de prototipos más próximos.

Para realizar esta clasificación, hay que seguir los mismos pasos que se han hecho en la clasificación anterior, pero esta vez, seleccionaremos el algoritmo K-Nearest Neighbors.

Clasificación supervisada mediante el algoritmo K-Nearest Neighbors (KNN)

El resultado de la clasificación será el siguiente:

Resultado de la clasificación supervisada mediante el algoritmo KNN.

Support Vector Machines (SVM)

Este algoritmo representa los puntos de la muestra en el espacio, separando las clases a dos espacios lo más ampliamente posible, mediante un hiperplano de separación definido como el vector entre los 2 puntos, de las 2 clases, más cercanos al que se llama vector soporte. Cuando las nuevas muestras se ponen en correspondencia con dicho modelo, en función de los espacios a los que pertenezcan, pueden ser clasificadas a una o la otra clase.

El procedimiento a seguir para ejecutar este algoritmo es el mismo empleado hasta el momento

Clasificación supervisada mediante el algoritmo Support Vector Machines (SVM)

El resultado de esta clasificación es el siguiente:

Resultado de la clasificación supervisada con el algoritmo SVM.

Gaussian mixture model

Este algoritmo asigna cada observación a un clúster maximizando la probabilidad de que un punto de datos perezca a su clúster asignado. Esta clasificación ya vimos como se hacía en el post “Clasificación supervisada con QGIS. Parte 1”.

El resultado de esta clasificación fue el siguiente:

Clasificación supervisada con el algoritmo Gaussian mixture model.

Comparación de los 4 métodos de clasificación supervisada con Dzetsaka

Si hacemos un pequeño zoom a una zona de la clasificación, podemos apreciar las pequeñas diferencias existentes entre los 4 algoritmos empleados.

Comparación de los cuatro algoritmos empleados para la clasificación supervisada.

Podemos ver que el que presenta una composición más suavizada es el que emplea el algoritmo Gaussian mixture model, mientras que los otros tres algoritmos presentan más “ruido” en la clasificación.

Para saber qué modelo es el que mejor se ajusta a nuestra clasificación, podríamos sacar la matriz de confusión.

Cómo hacer una matriz de confusión con Dzetsaka

Recordad que desde Save matrix, se puede guardar la matriz de confusión que se crea activando esta opción como una manera de poder evaluar el algoritmo empleado.

Generación de matriz de confusión.

Lo ideal para realizar esta evaluación es tener, por ejemplo, el 70% de muestras de entrenamiento y el 30% de muestras de test. De manera que entrenemos el modelo con las muestras de entrenamiento y evaluemos el modelo utilizando las muestras de test. Esto nos ayudará a ver cómo se comporta el modelo empleado.

La matriz que se genera, se guarda en formato *.csv y presentará la siguiente estructura:

Tabla: Ejemplo de matriz de confusión para el algoritmo KNN.

De esta tabla podemos interpretar por tanto que la mayoría de las clases se han clasificado bastante bien, a excepción de la clase 6 que se confunde en muchas ocasiones con la clase 4. Mientras que, si atendemos a esta clase 4, se ha clasificado algo mejor, aunque vemos que también hay pixeles que se han clasificado como clase 6.

Recordamos que la clasificación se realizó de la siguiente manera:

  1. Lámina de agua
  2. Zona urbana
  3. Cultivos
  4. Matorral
  5. Forestal
  6. Barbecho

Tras esta serie de post ya tienes los conocimientos sobre cómo hacer clasificación supervisada con DZETSAKA. Esperamos que te haya gustado este post y, si quieres, puedes hacer un comentario o compartirlo en tus redes y hacernos cualquier sugerencia para añadir otro sobre un tema del que te gustaría aprender.

Si quieres aprender más cosas sobre GIS, teledetección y software libre puedes ver más aquí, y apuntarte a los cursos que impartimos a través de la plataforma de formación de Geoinnova.

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: