Formats de fichier de données ouvertes

Les ensembles de données ouvertes sont formatés comme des fichiers non exclusifs et ouverts pour pouvoir être utilisés par de nombreuses personnes et avec diverses sources de données. Un format doit être :

  1. Indépendant de plateforme
    Le format de fichier ne doit être lié à aucun fabricant d'ordinateurs en particulier.
    • Exemple : Le format CVS, compatible avec toutes les plateformes, doit être préféré à une feuille de calcul qui ne peut être visualisée que sur un appareil Apple.
  2. Lisible par machine
    Le format de fichier doit pouvoir être traité par une machine.
    • Exemple : Un tableau en format PDF est conçu pour être visualisé par un être humain et non par une machine. Les tableaux doivent être publiés dans un format permettant l'utilisation de données tabulaires (comme le format CVS).
  3. Non lié à un fournisseur
    Le format de fichier doit pouvoir être visualisé à l'aide d'un logiciel non propriétaire.
    • Exemple : Un fichier en format MDB créé dans Microsoft Access doit être visualisé dans Microsoft Access. Les données doivent être publiées en format CSV ou dans un format universel de base de données, comme SQL (MySQL).
  4. Normalisé (dans la mesure du possible)
    Certains types de données sont régis par des normes officielles ou de facto adoptées par les communautés. Les propriétaires de données doivent s'efforcer de respecter ces normes dans la mesure du possible.
    • Exemple : Les données sur le transport en commun sont presque toujours publiées en format GTFS. Ce format est préférable aux formats personnalisés, car il facilite l'intégration des données du gouvernement de l'Ontario aux outils actuels.

Tableau 1 : Formats de fichier ouvert acceptés

Format de fichierDescription

XML

Langage de balisage extensible (« Extensible Markup Language ») : ensemble de règles relatives au codage électronique de documents.

Le format XML convient bien aux programmes automatisés capables de traiter des fichiers XML bruts.

  • Format de données textuelles simple et général.
  • Facile à analyser à l'aide d'un langage de programmation.
    • Des centaines de langages basés sur XML ont été développés, ce qui témoigne de l'utilisation répandue de XML avec de multiples langages de programmation.
  • Facile à utiliser sur Internet.

CSV et TXT

Valeurs séparées par des virgules (« Comma Separated Values ») : format de fichier utilisé pour le stockage numérique de données structurées en tableaux ou en listes.

Les formats CSV et TXT sont utilisés pour faciliter l'accès aux données, et les fichiers TXT et CSV peuvent être ouverts dans la plupart des tableurs (comme MS Excel), mais sont aussi lisibles par machine.

  • Les fichiers CSV sont pris en charge par de nombreux systèmes.
  • Formats utilisés pour le stockage de données tabulaires (enregistrements physiques formatés en texte brut).
  • Utilisés sur toutes les plateformes informatiques.

KML

Langage à base de balises géolocales (« Keyhole Markup Language ») : schéma basé sur XML servant à exprimer des annotations géographiques et leur visualisation.

  • Il est utilisé pour afficher des données géospatiales dans Google Earth (anciennement Keyhole Earth Viewer), Google Maps et d'autres applications semblables.
  • Il est basé sur XML, et sa structure est partiellement identique à celle du langage GML.
  • Norme de mise en œuvre de l'Open Geospatial Consortium.

KMZ

Format utilisé pour les fichiers KML compressés.

GML

Langage de balisage géographique (« Geography Markup Language ») : grammaire XML définie par l'Open Geospatial Consortium pour l'expression des entités géographiques.

Formats de fichier de forme (SHP, SHX, DBF, PRJ et SBN)

Formats de données vectorielles géospatiales développés par Esri comme des spécifications ouvertes pour accroître l'interopérabilité entre les programmes logiciels d'Esri et les autres programmes logiciels de système d'information géographique. Ils comprennent des formats obligatoires (SHP, SHX et DBF) et peuvent comprendre des formats correspondants (comme PRJ).

  • Servent à stocker des positions géométriques, des types de données géométriques (points, lignes et polygones) et de l'information sur des attributs liés.
  • Ne permettent pas de stocker d'information topologique.

GeoJSON

Format ouvert qui sert à coder diverses structures de données géographiques.

GeoTIFF

Norme de métadonnées du domaine public qui permet le géoréférencement de l'information à intégrer à un fichier TIFF.

  • En cours d'examen en vue de sa mise à jour par un groupe de travail sur les normes de l'Open Geospatial Consortium.

GPX

Format de données XML allégé aussi appelé « GPS eXchange » qui permet l'échange de données GPS (points de cheminement, itinéraires et pistes) entre des applications et des services Web sur Internet.

  • Norme XML de facto relative à l'échange allégé de données GPS depuis le lancement du format GPX, en 2002.
  • Utilisé par des dizaines de programmes logiciels et de services Web pour l'échange de données GPS, la cartographie et la géocachette.

RDF

Modèle de description des ressources (« Resource Description Framework ») : modèle normalisé d'échange de données sur le Web. Le format RDF est basé sur XML et les adresses URI (« Uniform Resource Identifier »).

ODFL

Format de document ouvert (« OpenDocument Format ») basé sur XML.

OOXML

Format d'interopérabilité dans les environnements de bureautique (« Office Open Office Open XML ») répondant à une norme ISO/CEI.

JSON

Format de notation des objets du langage Java (« JavaScript Object Notation ») : format d'échange de données allégé.

Tableau 2 : Formats de fichier déconseillés qui ne répondent pas à toutes les exigences relatives aux formats de fichier ouverts

Format de fichierDescription

XLS

Format de fichier utilisé dans Microsoft Excel. Principal format de tableur, il sert à stocker des données dans des tableaux, des feuilles de calcul et des macros.

  • Les données peuvent être converties en format CSV ou TXT.

Formats de fichier de Microsoft Access (MDB, MDA et ACCDB)

Microsoft Access, un logiciel de la suite Office, est un pseudosystème de gestion de base de données capable de compiler dans une même base des données produites dans d'autres formats (XLS, listes SharePoint, texte, XML, etc.).

  • Les fichiers de base de données créés doivent être convertis en CSV, en TXT ou en d'autres formats lisibles par machine.

ZIP

Format utilisé pour les fichiers ou les dossiers compressés. Dans un environnement de données ouvertes, on conseille d'utiliser le format ZIP uniquement en cas de besoin (p. ex. pour créer un habillage ou un thème de blogue), car les fichiers compressés ne font l'objet d'aucun contrôle.

  • Format pris en charge par tous les systèmes d'exploitation Windows 98 et Mac OS X 10.3 et leurs versions plus récentes.

Daisy

Système de gestion de contenu Java et XML libre utilisé par les grandes entreprises et les gouvernements pour la gestion de leurs bases de connaissances intranets, de leurs documents de projet et de leurs sites Web riches en contenu. Le contenu est stocké dans des « documents Daisy ».

  • Application frontale utilisant un environnement d'édition tel-tel (tel écran-tel écrit). Format non lisible par machine base de données.

HTML et HTM

Le langage HTML (« Hypertext Markup Language ») est le langage de balisage le plus utilisé pour la création de pages Web. En soi, il n'est pas optimisé pour la lecture par machine, mais le contehnu HTML est conçu pour être lu par des êtres humains.

  • Bien que certains fichiers HTML (selon l'utilisation des sites Web) puissent être convertis en format XML ou XHTML pour être lisibles par machine, ce n'est pas le cas pour tous les fichiers HTML. Comme il est difficile de déterminer (selon les utilisateurs moyens) quels fichiers peuvent être convertis, le format HTML ne devrait pas être accepté.

Tableau 3 : Formats de fichier à ne pas utiliser

Format de fichierDescription

DOC

Format utilisé pour les fichiers et les documents créés à l'aide de logiciels de traitement de texte. Il faut analyser les données qu'ils contiennent pour déterminer dans quel format les enregistrer et pouvoir ainsi les verser dans le Catalogue de données.

Formats de fichier multimédia (JPG, PNG, GIF, BMP, MP3, AVI, etc.)

Les fichiers multimédias ne doivent pas être utilisés, car ils ne contiennent aucune donnée source réelle. Même lorsqu'un fichier JPG est un graphique ou un diagramme ou qu'un fichier MP3 est tiré d'un balado récent portant sur des données, ces formats sont à proscrire, car ils ne permettent l'extraction d'aucune donnée.

EXE

Un fichier exécutable est essentiellement un programme entier. Ce format de fichier ne doit jamais être utilisé.

JS, PHP, ASP, ASPX, PLS et VBS

Langages de script servant à créer du contenu ou des fonctions dynamiques dans des pages Web. Les fichiers créés dans ces formats ne contiennent jamais de données brutes réelles et ne doivent pas être versés dans une base de données ouvertes.