Vos outils d’infrastructure de données spatiales pourront-ils faire face au déluge de données?
De nos jours, on estime que les données numériques totalisent près de 2,7 zettaoctets (Zo), et qu’environ 2,1 Zo sont des données de nature géographique. Puisqu’il est de plus en plus facile de recueillir et de traiter des données géospatiales pour créer des produits web, la communauté géospatiale doit veiller à trouver ou à élaborer des outils d’infrastructure de données spatiales (IDS) qui sont capables de prendre en charge de tels volumes, non seulement aujourd’hui, mais aussi dans le futur. Lisez ce billet de blogue pour découvrir les causes qui sous-tendent la croissance fulgurante du volume de données numériques et le rôle clé de la technologie d’IDS dans la gestion de ce déluge de données.
J’ai récemment lu un article dans une revue spécialisée qui portait sur la transformation numérique qui bouleverse actuellement les entreprises et les organisations. Selon cet article, l’univers numérique compterait à ce jour près de 2,7 Zo de données (soit 2,7 milliards de téraoctets). Toujours selon cette source, 90 % des données auraient été générées au cours des deux dernières années. Waouh! c’est beaucoup... et le taux de croissance est impressionnant! Mais d’où viennent toutes ces données? Qui les génère et, plus précisément, comment peut-on les gérer?
Je ne sais avec certitude d’où viennent ces gigantesques lots de données nouvelles, mais je soupçonne que les images captées par satellite, par avion, par drone ou au sol, ainsi que les fichiers multimédias des téléphones cellulaires et les données générales des entreprises comme les courriels et les sites web contribuent pour beaucoup à cette forte augmentation du volume de données numériques.
Voyons où cela nous mène : en supposant que le volume actuel cité dans l’article est assez juste, et en supposant que la croissance des données demeure constante (environ 1,2 Zo par an), dans seulement quatre ans (en 2023), l’infrastructure numérique mondiale traiterait près de 7,5 Zo de données.
Le volume de données numériques stockées croît à un rythme effréné à l’échelle mondiale, de telle sorte que les chiffres actuels ne sont rien comparés aux résultats prévus pour la prochaine décennie.
Qu’advient-il du volume total si nous reprenons les chiffres de l’article en calculant un taux de croissance composé de 90 % des données existantes, tous les deux ans? Reprenons nos calculs.
Pour les quatre prochaines années, le taux de croissance composé du volume de 90 % (qui double pratiquement tous les deux ans) se traduira par plus de 9,7 Zo de données d’ici 2023. Si la tendance se maintient, certains d’entre vous pourraient vraisemblablement dépasser 1 yottaoctet (soit 1 000 Zo) au cours de votre carrière (ou vers 2037-2039, dans à peine 20 ans). Dans un contexte où de nombreuses organisations entament tout juste leur transformation numérique, ces gigantesques volumes de données ne semblent pas excessifs pour le moment.
Cela peut être exaltant d’imaginer de telles quantités de données, dont vous avez entendu parler, sans jamais les exploiter. Toutefois, il y a une raison pour laquelle je vous montre ces calculs. Vous souvenez-vous du principe selon lequel 80 % des données contiennent une composante géospatiale (localisation)? Maintenant, appliquez ce pourcentage aux résultats précédents et pensez aux immenses volumes de données géospatiales qu’il faudra gérer d’ici quelques décennies.
Les SIG, contrairement à d’autres technologies, nécessitent souvent de vastes quantités de données. Les données géospatiales sont principalement constituées d’images, de mesures provenant de capteurs, de graphiques, d’attributs, de cartes web et de résultats d’analyse, ce qui peut représenter de grands ensembles de données, malgré leur compression.
Tout ce qui arrive, arrive quelque part. Les humains s’occupent à recueillir d’énormes quantités de données sur la géographie et les activités sur notre planète.
À titre d’exemple de la croissance du volume de données, la mission de la Constellation RADARSAT (MCR) qui sera bientôt lancée au Canada comprend trois satellites à radar à synthèse d’ouverture (bande C) identiques pour observer la Terre. La configuration à trois satellites permettra de revisiter quotidiennement la masse continentale du Canada, y compris l’Arctique (jusqu’à quatre fois par jour), et d’accéder quotidiennement à n’importe quel point sur 90 % de la surface du globe. À lui seul, le gouvernement du Canada devrait utiliser environ 250 000 images de la MRC par année, soit près de 700 images par jour.
La mission de la Constellation RADARSAT du Canada consiste en trois satellites qui collecteront bientôt d’énormes quantités de données géospatiales sur une base quotidienne. Source de la photo : Constellation RADARSAT
À l’heure actuelle, une centaine de satellites sont lancés chaque année, et beaucoup d’entre eux se fondent sur des informations de localisation mondiale (GPS, Galileo, GLONASS). De plus, bon nombre d’entre eux sont des satellites d’observation de la Terre servant à des applications en météorologie, en surveillance de l’environnement et en cartographie. Cette tendance à la collecte de données géospatiales devrait continuellement s’accentuer dans un avenir proche, d’autant plus que la construction et le lancement des satellites deviennent plus faciles et moins coûteux.
Imagerie de drone, LiDAR, Internet des objets (IdO), cartes spécialisées : la liste des nouvelles technologies qui créent de nouvelles données géospatiales ne cesse de croître.
On note une hausse rapide des cas d’utilisation de drones qui transportent des caméras, des dispositifs LiDAR et d’autres capteurs en vue de collecter des données géospatiales servant à de nombreuses applications liées à la cartographie, à l’ingénierie, aux inspections, aux services publics, à la géologie et à la gestion des ressources en eau.
Personne ne sait vraiment à quelle vitesse l’IdO va se développer, mais il est clair qu’il y aura très bientôt des milliards de capteurs utilisés quotidiennement, en particulier avec les systèmes de transport intelligents (STI) et les initiatives de ville intelligente; l’emplacement de chaque capteur devra être connu, et le flux de données de capteur devra être géré.
Une question se pose donc : comment votre organisation va-t-elle stocker, gérer, cataloguer, transmettre, analyser et présenter d’énormes volumes de données géospatiales? Tout d’abord, les organisations ont besoin d’un agent d’information géospatiale (AIG) pour superviser le développement et les activités de gestion des données. Elles ont également besoin d’une technologie IDS robuste pour gérer les données vectorielles, les données matricielles, les données ponctuelles (capteurs), les données internes, les données externes, les nouvelles données et les données archivées.
Aujourd’hui, les organisations recourent souvent à des technologies et à des systèmes différents pour gérer ces divers types de données. Cette pratique entraîne souvent des problèmes, comme le stockage des données en double, les mauvaises méthodes de catalogage (alors qu’elles devraient permettre de savoir quelles données sont disponibles et l’endroit où elles sont stockées), ainsi que l’extraction et la transmission inefficaces des données d’un système à un autre. Ces inefficacités constituent la raison pour laquelle les outils de traitement des données massives s’avèrent essentiels à la poursuite du développement des IDS. Comme les IDS traitent tous les types de données de la même manière, il est plus facile de gérer toutes les données au moyen de la même IDS.
La création de quantités massives de données géospatiales devient relativement facile. Mais comment une organisation peut-elle gérer et utiliser toutes ces données de manière à garantir un bon rendement du capital investi dans l’infrastructure et les données en tant que telles? Comment les utilisateurs trouvent-ils les données et quels sont les moyens les plus efficaces pour une organisation de diffuser les données à l’utilisateur approprié? Ce sont là des questions qui devront être abordées lors de la conception des IDS, car une fois que les volumes de données seront vraiment importants, il sera facile d’égarer ou de mal comprendre les données.
Les professionnels en infrastructures de données spatiales commencent tout juste à reconnaître certains de ces grands problèmes de données qui se posent maintenant. De nombreuses questions importantes liées à la « collecte, gestion et utilisation » des données devront être réglées à très court terme, de sorte que la communauté géospatiale puisse faire le meilleur usage possible de toutes ces données.
Ce billet a été écrit en anglais par Gordon Plunkett et peut être consulté ici.