Recherche et création d’une couche de données historiques à partir de zéro
Comment un passe-temps s’est transformé en un engagement de six ans et ce que j’ai appris en cours de route.
Je suis un passionné de cartes, et ce, depuis mon enfance. À 10 ans, j’ai dessiné mon propre atlas mondial (malheureusement perdu aujourd’hui). Après un détour dans un domaine sans aucun rapport, je me suis retrouvé dans la cartographie et les SIG et, finalement, à Esri Canada, où j’ai le plaisir de travailler avec des cartes et des données géospatiales tous les jours. On pourrait penser que cela suffit, mais non, je m’occupe aussi de cartographie pendant mes heures de loisir comme passe-temps.
Mon dernier projet d’agrément m’a tenu occupé au cours des six dernières années. Je ne pensais pas que cela prendrait autant de temps et, si je l’avais su, je n’aurais peut-être pas commencé. Mais, récemment, j’ai publié un tableau de bord ArcGIS qui montre l’emplacement de tous les navires qui ont été coulés pendant la Seconde Guerre mondiale. Environ 18 000 navires ont été coulés à la suite d’une action ennemie pendant ce conflit, et le tableau de bord indique l’emplacement d’environ 13 000 d’entre eux; les autres ne sont pas localisés (du moins, pas encore). Dans cette application et cette base de données, j’ai retrouvé les noms et les emplacements des navires coulés, le tonnage de chacun (environ 40 millions au total), le nombre de victimes (environ 500 000), la manière dont les navires ont été coulés et les liens vers les références en ligne pour chacun d’entre eux.
Six ans de collecte de données, et une heure ou deux pour la création du tableau de bord
Mon intérêt pour l’histoire navale a commencé lorsque j’étais enfant, quand j’ai lu le livre de C. S. Forester intitulé Coulez le Bismarck! L’auteur y raconte l’histoire du cuirassé Bismarck, nouveau et puissant (et qui menaçait de faire des ravages dans les convois de l’Atlantique Nord). Il y relate aussi la destruction presque immédiate du HMS Hood qui avait été envoyé à la poursuite de ce navire redoutable, les jours angoissés où la Royal Navy britannique a perdu l’emplacement du Bismarck, et, enfin, la destruction de ce navire, qui semble maintenant inévitable. C’était une histoire passionnante qui jouait un peu avec les faits (je le sais maintenant), mais qui était très captivante pour mon imagination d’enfant.
Le KMS Bismarck lève l’ancre pour son voyage fatidique (Source : Wikipedia)
Transportons-nous maintenant jusqu’en 2014, quand je suis tombé sur uboat.net, un site web qui répertorie tous les sous-marins allemands de la Seconde Guerre mondiale et les navires qu’ils ont coulés. L’enregistrement de chaque naufrage comprenait une simple carte Google Map. Ce qui manquait, c’était une carte unique et complète indiquant l’emplacement de tous les naufrages. « Et pourquoi ne pas créer une telle carte », me suis-je dit. Mieux encore. Pourquoi ne pas dresser la carte de tous les navires qui ont coulé pendant la guerre? Tu pourrais alors commencer à voir émerger certaines tendances spatiotemporelles. Mais quelqu’un l’a sûrement déjà fait?
Eh bien, oui et non. J’ai découvert cette petite carte du monde (ou d’une partie du monde) qui montre un grand nombre des navires coulés, mais pas tous.
Une carte de certains des navires coulés pendant la Seconde Guerre mondiale : pas tout à fait complète (Source : SeaAustralia)
Mais elle ne m’a guère satisfait, car elle n’était ni complète ni interactive, et sa résolution était nettement insuffisante. Je me suis donc lancé moi-même dans ce projet.
J’ai commencé avec uboat.net, mais j’ai rapidement découvert un certain nombre d’autres grandes sources en ligne portant sur les forces navales, soit dans un pays en particulier (par exemple, la Combined Fleet du Japon), ou à l’intérieur d’une zone géographique bien définie, ou encore à une date ou à une bataille précises de la guerre.
Tous ces éléments ont été très utiles, mais j’ai vite compris que si je voulais développer une base de données complète des navires coulés, je devrais être plus systématique dans mon approche. J’ai donc commencé par le premier jour de la guerre, le 1er septembre 1939*, et j’ai traversé ainsi chacun des 2 193 jours qu’a duré cette guerre. Wikipédia propose une liste des navires coulés par jour, mais il s’agit d’un contenu fourni par des bénévoles, et l’on y trouve de nombreuses erreurs et omissions. Même chose pour le site web appelé Wreck Site, qui positionne tous les navires coulés (mais qui limite désormais l’accès aux coordonnées des navires). Pour améliorer la qualité des données, j’ai recoupé les références de chacun des navires avec des sources multiples. Souvent, il y avait des informations contradictoires ou incomplètes, et les données que j’ai créées représentaient la meilleure estimation possible. C’était facile, vu la renommée de quelques-uns de ces naufrages, comme celui du Bismarck. Plusieurs cartes étaient offertes en ligne pour certains événements comme l’attaque de Pearl Harbor, ou le sabordage de la flotte française à Toulon, ou encore les nombreuses batailles navales au large de Guadalcanal dans le Pacifique Sud. Elles ont été d’une grande aide. Toutefois, même à cette époque, les cartographes se trompaient parfois. Mais comme je suis un passionné de cartes et de données, la recherche de données précises a été un plaisir (et une source de frustration) pour moi.
Pour certains, il ne s’agit que de lignes sur une carte; pour moi, cela raconte une histoire (Source : Naval History and Heritage Command)
La majeure partie du travail pour ce projet a consisté en la recherche et en la création des données. Il a fallu environ six ans de travail à temps partiel pour compiler l’ensemble de la base de données, et, même maintenant, je trouve encore des corrections et des ajouts à faire. Il m’a fallu moins d’une journée pour créer le tableau de bord en tant que tel dans lequel j’afficherais la carte. Outre le fait que je suis un employé d’Esri Canada, la principale raison pour laquelle j’ai utilisé ArcGIS Online pour présenter mon travail était que le fond de carte était entièrement personnalisable. J’ai d’abord combiné deux fonds de carte prêts à l’emploi (le fond de carte d’imagerie neutre Firefly destiné aux effets de surbrillance et le fonds de carte de page de garde Nova), que j’ai ensuite modifiés en utilisant l’outil ArcGIS Vector Tile Style Editor d’Esri. Pour finaliser l’apparence, j’ai ajouté et étiqueté le canevas des méridiens et des parallèles.
En cours de route, j’ai appris quelques leçons qui pourraient vous être utiles pour entreprendre votre propre projet de création de données, que ce soit dans le cadre de votre travail ou comme passe-temps.
- Passez un peu de temps avec vos sources et étudiez le sujet que vous voulez cartographier avant de commencer le travail. Voyez ce qui est déjà disponible et décidez de ce que vous voulez inclure dans votre base de données avant même de commencer à rassembler le contenu. Envisagez l’aspect que vous souhaitez donner à votre produit final et la manière dont il sera utilisé. Le temps que vous consacrez à la planification et à la réflexion sera plus que compensé par le temps que vous gagnerez, étant donné que vous n’aurez pas à revenir en arrière pour vous corriger après coup.
- Apprenez à connaître vos sources de données. C’est toujours vrai, mais c’est particulièrement vrai pour les sources de données en ligne. En les comparant régulièrement, vous aurez une idée des forces et des faiblesses de vos sources de données. Et vous découvrirez que des sources de données apparemment fiables peuvent parfois être erronées (même les sources originales, en particulier si elles sont de nature historique).
- Ne vous contentez pas d’une ou deux sources de données. Malheureusement, ce n’est pas toujours possible, car de nombreuses sources de données en ligne font référence à la même source originale.
- Selon votre sujet, les sources originales ne sont pas toujours les meilleures. Dans le cas de mon sujet, l’enregistrement des emplacements des navires dans le feu de la bataille n’a pas toujours été précis; la recherche ultérieure des sites d’épaves permet généralement d’obtenir une meilleure localisation, plus exacte.
- Soyez patients. La préparation, la collecte, la création et la vérification de vos données peuvent prendre du temps selon la taille et la complexité de votre projet. Je l’ai bien compris peu de temps après avoir commencé mon projet : la Seconde Guerre mondiale a été très longue.
- Soyez prêt à vous laisser distraire, surtout sur Internet. Cela ne veut pas nécessairement dire que vous perdez du temps. Vous pourriez tomber sur quelques récits intéressants, comme cela a été le cas pour moi dans le cadre de mon projet.
- Et, enfin, il est probable que vous vous trompiez à un moment donné. Pour moi, ce projet me suivra pendant longtemps, car j’édite, ajoute et corrige au fur et à mesure que je déniche de plus en plus de sources.
Quelle est la prochaine étape pour moi? Encore plus de cartographie des événements et des batailles navales de la Seconde Guerre mondiale, avec l’espoir qu’en fin de compte, j’aurai créé une belle collection de cartes interactives en ligne qui pourraient être considérée comme une ressource pour d’autres personnes qui s’intéressent à l’histoire navale de la Seconde Guerre mondiale. Demeurez à l’affût!
* Bien que ce soit la date communément acceptée pour ce qui est du début de la Seconde Guerre mondiale, on peut également affirmer que cette guerre a commencé en 1937 avec la Seconde Guerre sino-japonaise.
Ce billet a été écrit en anglais par Paul Heersink et peut être consulté ici.