Cette page n'est plus à jour et elle est disponible à des fins d’archivage et de recherche seulement.
Annexe
Formats de fichier de données ouvertes
Les ensembles de données ouvertes sont formatés comme des fichiers non exclusifs et ouverts pour pouvoir être utilisés par de nombreuses personnes et avec diverses sources de données. Un format doit être :
- Indépendant de plateforme
Le format de fichier ne doit être lié à aucun fabricant d'ordinateurs en particulier.- Exemple : Le format CVS, compatible avec toutes les plateformes, doit être préféré à une feuille de calcul qui ne peut être visualisée que sur un appareil Apple.
- Lisible par machine
Le format de fichier doit pouvoir être traité par une machine.- Exemple : Un tableau en format PDF est conçu pour être visualisé par un être humain et non par une machine. Les tableaux doivent être publiés dans un format permettant l'utilisation de données tabulaires (comme le format CVS).
- Non lié à un fournisseur
Le format de fichier doit pouvoir être visualisé à l'aide d'un logiciel non propriétaire.- Exemple : Un fichier en format MDB créé dans Microsoft Access doit être visualisé dans Microsoft Access. Les données doivent être publiées en format CSV ou dans un format universel de base de données, comme SQL (MySQL).
- Normalisé (dans la mesure du possible)
Certains types de données sont régis par des normes officielles ou de facto adoptées par les communautés. Les propriétaires de données doivent s'efforcer de respecter ces normes dans la mesure du possible.- Exemple : Les données sur le transport en commun sont presque toujours publiées en format GTFS. Ce format est préférable aux formats personnalisés, car il facilite l'intégration des données du gouvernement de l'Ontario aux outils actuels.
Tableau 1 : Formats de fichier ouvert acceptés
Format de fichier | Description |
---|---|
XML |
Langage de balisage extensible (« Extensible Markup Language ») : ensemble de règles relatives au codage électronique de documents. Le format XML convient bien aux programmes automatisés capables de traiter des fichiers XML bruts.
|
CSV et TXT |
Valeurs séparées par des virgules (« Comma Separated Values ») : format de fichier utilisé pour le stockage numérique de données structurées en tableaux ou en listes. Les formats CSV et TXT sont utilisés pour faciliter l'accès aux données, et les fichiers TXT et CSV peuvent être ouverts dans la plupart des tableurs (comme MS Excel), mais sont aussi lisibles par machine.
|
KML |
Langage à base de balises géolocales (« Keyhole Markup Language ») : schéma basé sur XML servant à exprimer des annotations géographiques et leur visualisation.
|
KMZ |
Format utilisé pour les fichiers KML compressés. |
GML |
Langage de balisage géographique (« Geography Markup Language ») : grammaire XML définie par l'Open Geospatial Consortium pour l'expression des entités géographiques. |
Formats de fichier de forme (SHP, SHX, DBF, PRJ et SBN) |
Formats de données vectorielles géospatiales développés par Esri comme des spécifications ouvertes pour accroître l'interopérabilité entre les programmes logiciels d'Esri et les autres programmes logiciels de système d'information géographique. Ils comprennent des formats obligatoires (SHP, SHX et DBF) et peuvent comprendre des formats correspondants (comme PRJ).
|
GeoJSON |
Format ouvert qui sert à coder diverses structures de données géographiques. |
GeoTIFF |
Norme de métadonnées du domaine public qui permet le géoréférencement de l'information à intégrer à un fichier TIFF.
|
GPX |
Format de données XML allégé aussi appelé « GPS eXchange » qui permet l'échange de données GPS (points de cheminement, itinéraires et pistes) entre des applications et des services Web sur Internet.
|
RDF |
Modèle de description des ressources (« Resource Description Framework ») : modèle normalisé d'échange de données sur le Web. Le format RDF est basé sur XML et les adresses URI (« Uniform Resource Identifier »). |
ODFL |
Format de document ouvert (« OpenDocument Format ») basé sur XML. |
OOXML |
Format d'interopérabilité dans les environnements de bureautique (« Office Open Office Open XML ») répondant à une norme ISO/CEI. |
JSON |
Format de notation des objets du langage Java (« JavaScript Object Notation ») : format d'échange de données allégé. |
Tableau 2 : Formats de fichier déconseillés qui ne répondent pas à toutes les exigences relatives aux formats de fichier ouverts
Format de fichier | Description |
---|---|
XLS |
Format de fichier utilisé dans Microsoft Excel. Principal format de tableur, il sert à stocker des données dans des tableaux, des feuilles de calcul et des macros.
|
Formats de fichier de Microsoft Access (MDB, MDA et ACCDB) |
Microsoft Access, un logiciel de la suite Office, est un pseudosystème de gestion de base de données capable de compiler dans une même base des données produites dans d'autres formats (XLS, listes SharePoint, texte, XML, etc.).
|
ZIP |
Format utilisé pour les fichiers ou les dossiers compressés. Dans un environnement de données ouvertes, on conseille d'utiliser le format ZIP uniquement en cas de besoin (p. ex. pour créer un habillage ou un thème de blogue), car les fichiers compressés ne font l'objet d'aucun contrôle.
|
Daisy |
Système de gestion de contenu Java et XML libre utilisé par les grandes entreprises et les gouvernements pour la gestion de leurs bases de connaissances intranets, de leurs documents de projet et de leurs sites Web riches en contenu. Le contenu est stocké dans des « documents Daisy ».
|
HTML et HTM |
Le langage HTML (« Hypertext Markup Language ») est le langage de balisage le plus utilisé pour la création de pages Web. En soi, il n'est pas optimisé pour la lecture par machine, mais le contehnu HTML est conçu pour être lu par des êtres humains.
|
Tableau 3 : Formats de fichier à ne pas utiliser
Format de fichier | Description |
---|---|
DOC |
Format utilisé pour les fichiers et les documents créés à l'aide de logiciels de traitement de texte. Il faut analyser les données qu'ils contiennent pour déterminer dans quel format les enregistrer et pouvoir ainsi les verser dans le Catalogue de données. |
Formats de fichier multimédia (JPG, PNG, GIF, BMP, MP3, AVI, etc.) |
Les fichiers multimédias ne doivent pas être utilisés, car ils ne contiennent aucune donnée source réelle. Même lorsqu'un fichier JPG est un graphique ou un diagramme ou qu'un fichier MP3 est tiré d'un balado récent portant sur des données, ces formats sont à proscrire, car ils ne permettent l'extraction d'aucune donnée. |
EXE |
Un fichier exécutable est essentiellement un programme entier. Ce format de fichier ne doit jamais être utilisé. |
JS, PHP, ASP, ASPX, PLS et VBS |
Langages de script servant à créer du contenu ou des fonctions dynamiques dans des pages Web. Les fichiers créés dans ces formats ne contiennent jamais de données brutes réelles et ne doivent pas être versés dans une base de données ouvertes. |