Automatización del preprocesamiento de imágenes Sentinel-2 para clasificación Corine Land Cover

William David Prada Buitrago
William David Prada Buitrago
ColSmart - Científico de Datos e Ingeniero en Machine Learning.

Automatización del preprocesamiento de imágenes Sentinel-2 para clasificación Corine Land Cover

Resumen

Este artículo presenta el desarrollo de un pipeline automatizado para el preprocesamiento de imágenes satelitales Sentinel-2, orientado a facilitar la clasificación de cobertura terrestre bajo el estándar Corine Land Cover, mediante modelos de deep learning. La iniciativa se enmarca en las estrategias de inteligencia artificial geoespacial promovidas por el Instituto Geográfico Agustín Codazzi (IGAC) y desarrolladas por el equipo ColSMART. Utilizando la librería ArcPy y las herramientas de ArcGIS Pro (Esri, 2023), se implementaron funciones personalizadas para recortar imágenes ráster con base en extensiones geográficas definidas, detectar secciones faltantes y gestionar los datos en entornos geoespaciales controlados.

El pipeline permite optimizar la preparación de los insumos rasterizados, mejorando los tiempos de procesamiento y garantizando la calidad espacial de los datos que alimentan el modelo de clasificación. Los resultados muestran la eficacia de este mecanismo en la segmentación precisa de áreas de interés, así como su capacidad para identificar zonas no cubiertas en los recortes, mejorando la consistencia de los datos de entrada. Esta implementación aporta una metodología replicable y escalable para proyectos de monitoreo ambiental y ordenamiento territorial que requieren trabajar con sensores remotos y estándares internacionales de cobertura terrestre (EEA, 2024).

Palabras clave

ArcPy, Sentinel-2, Preprocesamiento, Corine Land Cover, Imágenes Satelitales

Introducción

La clasificación de cobertura terrestre constituye una herramienta esencial en estudios de ordenamiento territorial, gestión ambiental y análisis de cambio de uso de suelo. El estándar Corine Land Cover ha sido ampliamente adoptado en proyectos de monitoreo ambiental por su estructura jerárquica y compatibilidad con imágenes satelitales de mediana resolución (EEA, 2024). No obstante, el preprocesamiento de imágenes Sentinel-2, necesario para alimentar modelos de clasificación, representa un desafío técnico debido a la magnitud de los datos y a la precisión espacial requerida.

Con el propósito de fortalecer las capacidades de análisis geoespacial mediante inteligencia artificial en Colombia, el Instituto Geográfico Agustín Codazzi (IGAC), a través del equipo ColSMART, lidera la implementación de modelos de deep learning para la clasificación de cobertura terrestre. En este contexto, se desarrolló un pipeline automatizado que permite estandarizar y agilizar el preprocesamiento de imágenes Sentinel-2, facilitando su integración en modelos de clasificación Corine Land Cover (Copernicus, 2024).

El objetivo del presente artículo es describir el diseño y funcionamiento de este pipeline de preprocesamiento, destacando su utilidad para garantizar la precisión espacial de los datos de entrada en proyectos de clasificación supervisada mediante algoritmos de aprendizaje profundo, además de realizar un cruce experimental de posibles usos de predios rurales.

Desarrollo

El pipeline propuesto se diseñó para procesar imágenes Sentinel-2 almacenadas en mosaicos ráster, a partir de los cuales se extraen áreas de interés definidas mediante bounding boxes geográficos. Se utilizó la librería ArcPy, en combinación con las funcionalidades de ArcGIS Pro (Esri, 2023) y la API de ArcGIS para Python (Esri, 2024a). ArcPy permite una integración fluida con otras bibliotecas orientadas a inteligencia artificial, como TensorFlow, PyTorch y el módulo arcgis.learn, el cual proporciona modelos preentrenados específicos para tareas de segmentación y clasificación en datos espaciales (Esri, 2024b).

Los datos de las imágenes Sentinel-2 fueron descargados desde Microsoft Planetary Computer, que ofrece acceso programático y gratuito a colecciones satelitales en la nube, incluyendo metadatos STAC y acceso a objetos en almacenamiento distribuido (Microsoft, 2024). Esta plataforma permitió automatizar la búsqueda y descarga de escenas con criterios espaciales y temporales específicos, facilitando su integración en flujos de trabajo de preprocesamiento.

Automatización del entorno

El entorno de trabajo se configuró mediante ArcPy, utilizando scripts que automatizan:

  • La lectura de las coordenadas de los territorios de interés.
  • La proyección de coordenadas.
  • La descarga de imágenes Sentinel-2 desde Planetary Computer.
  • El recorte con mantenimiento de extensión espacial.
  • La clasificación preliminar de las imágenes según uso del suelo.

Además, se ejecutó un proceso de ajuste fino (fine-tuning) de modelos de deep learning sobre datos satelitales etiquetados para el territorio colombiano. Aunque este ajuste mostró mejoras en la clasificación, se identificó la necesidad de continuar el refinamiento del modelo para alcanzar una precisión robusta, especialmente en áreas rurales con coberturas mixtas y cambios fenológicos pronunciados.

Cabe destacar que, más allá de la clasificación de coberturas, el pipeline también se orientó a un cruce experimental de posibles usos de predios rurales, abriendo posibilidades para apoyar análisis catastrales, planificación del uso del suelo y estudios de tenencia de la tierra desde una perspectiva geoespacial con inteligencia artificial.

Proceso de implementación

El entorno de trabajo se configuró mediante ArcPy y la conexión a servicios de ArcGIS Online. Los scripts automatizan:

  • La lectura de las coordenadas de los territorios de interés.
  • La proyección de coordenadas.
  • La descarga de imágenes Sentinel-2.
  • El recorte con mantenimiento de extensión espacial.
  • La clasificación de imágenes de acuerdo al uso del suelo.

Resultados

La aplicación del pipeline en áreas de prueba permitió recortar imágenes Sentinel-2 de manera precisa, cumpliendo con las especificaciones geográficas de las coordenadas. Asimismo, se identificaron con eficacia las zonas a clasificar, posibilitando la planificación de procesos adicionales para su cobertura.

Se evidenció una mejora significativa en los tiempos de procesamiento, reduciendo a menos de 1 hora por sector, así como en la organización y control de los datos de entrada al modelo de deep learning para clasificación Corine Land Cover, en comparación con procesos manuales. La automatización minimizó errores humanos y optimizó los flujos de trabajo, especialmente en entornos donde se gestionan grandes volúmenes de imágenes satelitales.

Conclusiones

El pipeline desarrollado representa una herramienta eficaz y automatizada para el preprocesamiento de imágenes Sentinel-2 en proyectos de clasificación de cobertura terrestre mediante deep learning. Su implementación garantiza la precisión espacial de los datos ráster, mejora la calidad de los insumos y reduce significativamente los tiempos de procesamiento en entornos geoespaciales controlados.

El proyecto, liderado por el equipo ColSMART en el marco de las estrategias de inteligencia artificial geoespacial del Instituto Geográfico Agustín Codazzi (IGAC), demuestra la viabilidad de integrar procesos automatizados en los flujos de trabajo de clasificación supervisada. La capacidad del pipeline para clasificar el uso del suelo constituye un valor agregado, facilitando la gestión de mosaicos y asegurando la cobertura completa de las zonas de interés. Se recomienda su aplicación en proyectos de monitoreo ambiental, gestión de recursos naturales y ordenamiento territorial que requieran trabajar con sensores remotos y estándares internacionales de cobertura terrestre (EEA, 2024; Copernicus, 2024).

Referencias bibliográficas