Skip to main content

Comment évaluer la qualité des données géospatiales disponibles sur Internet?

Les améliorations touchant l’interopérabilité et les services web facilitent le partage des données géospatiales, l’exécution d’analyses et la prise de décisions éclairées reposant sur des données provenant de plusieurs sources et de perspectives différentes. Mais pour prendre de meilleures décisions, les données récupérées doivent être à jour, valides, exactes et précises. La qualité des données est un domaine où les praticiens des SIG ont un rôle important à jouer. Lisez ce billet de blogue pour savoir ce qui constitue des données de qualité et déterminer si les données que vous avez extraites d’une IDS répondent à vos exigences en matière de qualité des données.

Les IDS, les services web et les formats d’échange courants facilitent grandement le partage des données spatiales. De nos jours, les organisations publient de plus en plus leurs données géospatiales en ligne pour permettre à des tiers d’y accéder et de les utiliser. Les sites de partage de données accessibles sur Internet permettent aux utilisateurs de trouver et de télécharger de nombreux types de données géospatiales. Certains sites de partage de données plus avancés peuvent également fournir des données sous forme de services web à l’aide de technologies telles que les points de terminaison REST d’Esri, les services d’entités web (WFS) et les services de couverture web (WCS). Le partage de données en ligne n’est pas encore généralisé, mais il y a indéniablement un mouvement au sein de la communauté géospatiale qui porte les organisations à mettre en œuvre des technologies telles qu’ArcGIS Hub ou ArcGIS Online pour fournir un accès en ligne aux données.

Si un grand volume de données est désormais accessible facilement, les utilisateurs doivent prendre note que ces données ne sont pas toutes de bonne qualité. Alors, comment faire la part des choses? Pour commencer, notons que la réputation de l’organisation qui publie les données est un indicateur important. Les organisations qui possèdent des données de bonne qualité proposent souvent des sites pour recueillir, conserver et publier leurs données, comme le site web Living Atlas of the World, édition canadienne. Bien que la plupart des sites gouvernementaux de données ouvertes comptent des données de bonne qualité, il est recommandé de vérifier la qualité des données avant de les utiliser.

Dans la carte Living Atlas d’ArcGIS Online, les utilisateurs peuvent sélectionner le Canada comme région (voir le cercle rouge), ce qui leur permet d’explorer, de trouver et d’utiliser des données de grande qualité portant sur l’ensemble du territoire canadien. Plus de 130 ensembles de données sont disponibles.

Toutes les données ne sont pas créées de la même façon, et personne ne s’attend à ce que les données géospatiales soient parfaites, ce qui explique les écarts de qualité. Ce qui importe, c’est que les données utilisées soient adaptées à vos besoins. Dans ce contexte, une question se pose : comment évaluer la qualité des données? Avec des données comptables, vous pouvez vérifier l’exactitude des calculs, et avec des données textuelles, vous pouvez vérifier la présence de fautes d’orthographe ou d’erreurs de grammaire. S’il n’existe pas de solution simple pour les données géospatiales, des outils tels qu’ArcGIS Data Reviewer peuvent aider. ArcGIS Data Reviewer compte des processus automatisés et semi-automatisés de révision des données ainsi que des processus de gestion des erreurs et de création de rapports sur la qualité des données.

Une autre option consiste à observer les pratiques exemplaires en matière de révision des données. Pour trouver les erreurs les plus évidentes, procédez à une inspection visuelle des données cartographiques pour vérifier que les objets se trouvent aux bons endroits. Par exemple, tout emplacement d’un accident de la route positionné loin d’une route et tout bâtiment affiché dans un lac sont des indices facilement repérables indiquant que les données ne sont pas fiables. De telles erreurs sont facilement observables, mais elles sont souvent aléatoires.

L’image ci-dessous montre des données téléchargées récemment à partir du site de données ouvertes de Winnipeg. Remarquez que le réseau routier d’une zone de la ville ne correspond pas au fond de carte topographique ni à l’imagerie du fond de carte. Deux explications sont possibles : soit que le fond de carte et l’imagerie n’ont pas été mis à jour récemment, soit que le réseau routier figure sur le plan, mais n’a pas encore été construit.

En haut à gauche, le réseau routier téléchargé. En haut à droite, le fond de carte topographique. En bas à gauche, le réseau routier affiché sur le fond de carte topographique. En bas à droite, le réseau routier affiché sur l’imagerie du fond de carte. Ces images indiquent clairement qu’au moment de l’acquisition de l’image, ce secteur était en construction.

L’évaluation de la qualité des données géospatiales demande un effort complexe et repose sur l’examen de plusieurs paramètres tels que la précision, l’exactitude, l’uniformité, l’intégralité, l’intégrité, l’accessibilité, la validité, la pertinence, l’actualité, l’autorité de la source, la compatibilité et la conformité.

Voici quelques trucs et astuces pour déterminer la pertinence des données géospatiales pour votre projet.

  1. Toute erreur ou tout avertissement lors de l’accès aux données ou de leur transfert sur un portail web en ligne ou lors du traitement ou du chargement des données dans votre système peut être un indicateur d’un problème potentiel. Chargez les données et procédez à une inspection visuelle rapide dans un format cartographique afin de déceler la présence d’anomalies.
  2. Vérifiez si les emplacements des données ponctuelles sont alignés correctement avec le fond de carte. Par exemple, vérifiez la présence de points représentant des adresses qui se trouveraient dans un lac ou de points représentant des accidents de la route qui ne seraient pas près d’une route.
  3. Vérifiez si les données linéaires telles que les routes, les voies ferrées et les entités hydrographiques sont alignées correctement avec le fond de carte.
  4. Vérifiez si les entités surfaciques visibles comme les limites des parcelles et des parcs sont alignées correctement avec le fond de carte.
  5. Vérifiez si l’imagerie est alignée correctement avec le fond de carte et sur toute couche de données vectorielles supplémentaire qui est disponible.
  6. Parcourez la table d’attributs pour voir si certains attributs semblent erronés. Sélectionnez quelques attributs à la fois pour vérifier leur emplacement. Par exemple, s’il y a un attribut de province, sélectionnez tous les éléments d’une province donnée et vérifiez si les points, les lignes et les polygones sont affichés dans la bonne province.

Dans la grande majorité des cas, les données publiées à l’aide d’une IDS ou d’un portail de distribution de données sont de bonne qualité, mais certaines erreurs peuvent se glisser malgré tous les efforts déployés par le fournisseur de données en matière d’assurance et de contrôle de la qualité. En outre, un fichier peut être corrompu en raison d’une défaillance du système ou d’un problème informatique. C’est à vous (l’utilisateur) qu’il incombe de vérifier que les données sont adaptées à vos besoins. Si vous relevez un problème, informez les responsables des données afin qu’ils puissent y remédier. Pour ce faire, utilisez tout mécanisme de rétroaction mis à votre disposition.

En résumé, lorsque vous utilisez des données provenant d’une IDS ou des données géospatiales en ligne, prenez le temps de faire quelques vérifications rapides pour évaluer la qualité des données et vous assurer qu’elles sont appropriées. Si les données sont jugées inacceptables, cherchez un ensemble de données plus approprié, s’il en existe un. Si au contraire les données passent vos tests de contrôle de la qualité, vous pouvez les utiliser en toute confiance dans vos processus de prise de décision.

Ce billet a été écrit en anglais par Gordon Plunkett et peut être consulté ici.