¿Son los grids de población realmente útiles?

Eduard Suñé, Daniel Ibañez, Marc Castelló (IDESCAT)


A lo largo de los últimos años el Institut d’Estadistica de Catalunya (IDESCAT) ha estado produciendo estadísticas georreferenciadas, especialmente en lo que se refiere a la población. Esta producción se basa en la georeferenciación de los microdatos utilizando para ello el servicio de geocodificación del Institut Cartográfic i Geologic de Catalunya (ICGC) y una serie de métodos de imputación de coordenadas para aquellos casos en los que no pudo obtenerse unas coordenadas a partir de la dirección postal.


Los data sets obtenidos tienen unas características que impiden su difusión directa ya que violan los principios impuestos por el secreto estadístico. Así pues, es imperativo que se preserve la confidencialidad estos datos y para ello existen dos métodos: la perturbación de coordenadas y la agregación espacial. En IDESCAT optamos por la segunda de las soluciones, utilizando para ello, como base de la agregación, el grid estándar europeo de 1km. La solución adoptada finalmente fue la utilización de quadtrees, dado que es una estructura adaptativa: se alcanzan mayores resoluciones en zonas de alta densidad y menores en zonas de baja densidad de población, utilizando para ello un umbral mínimo de población dentro de los elementos geográficos de subdivisión del grid.


El resultado final de estos procesos de agregación es un grid multiresolución que puede difundirse respetando los principios del secreto estadístico. Pero la cuestión que se plantea, atendiendo a posibles usos de esta información por parte de los usuarios, es qué error se deriva de esta agregación y como es la variabilidad del error en función de los parámetros que definen el quadtree, cuando un usuario calcula la población en un área de su interés.


Dado que esta cuestión no puede abordarse desde un punto de vista analítico, es necesaria la utilización de métodos de Monte Carlo para la estimación de estos errores. En esta comunicación presentaremos los resultados de la simulación y de la variabilidad del error en función de los parámetros que definen un quadtree.