Licences de données, sécurité et confidentialité
Il existe trois cas principaux dans lesquels les licences, la confidentialité et la sécurité des données sont importantes :
- S'assurer que nous utilisons, stockons et partageons les données conformément au contrat de licence et que nous citons correctement les données.
- Stockage sécurisé des données privées pour protéger les informations personnelles
- Attribuer une licence à toutes les données de sortie créées par les GBAD
Veiller à ce que les processus impliqués dans la sécurité et l’accès aux données dans les GBAD favorisent une communauté de confiance avec les contributeurs de données et les utilisateurs.
Remarque sur les données privées :
Nous n'utilisons actuellement que des données publiques pour les modèles dans les GBAD. En prévision des données privées, nous avons conceptualisé et créé l'infrastructure qui prendra en charge la sécurité des données privées.
Le groupe de travail 1 doit être conscient des licences et de la confidentialité lors de la création de partenariats et d'alliances avec des contributeurs de données potentiels.
« Ouverture » des données sur un spectre
GBADs diffuse et, dans certains cas, stocke des données soumises à diverses restrictions d'accès, d'utilisation et de réutilisation. Toutes les données ne peuvent pas être ouvertes, et la confidentialité des données n'est pas aussi simple que d'avoir des données ouvertes ou privées. Afin d’encourager le partage, il est important que les contributeurs de données aient la possibilité de choisir comment ils souhaitent que leurs données soient utilisées, à quoi ils souhaitent qu’elles soient utilisées et par qui ils souhaitent qu’elles soient utilisées. Les accords de licence de données garantissent que l'utilisation des données n'est pas confuse et informent notre système sur qui peut voir, télécharger ou utiliser les données.
**Même les données définies comme « Ouvertes » nécessitent une licence !** Lorsque vous utilisez des données ouvertes, vous devez toujours déterminer comment attribuer (ou citer) correctement l'ensemble de données. De plus, les données peuvent être considérées comme ouvertes, mais peuvent toujours être soumises à des restrictions quant à leur utilisation. Par exemple, certaines licences Open Data restreignent l’utilisation des données à des fins commerciales.
L'Open Data Institute communique cette idée en plaçant les données sur un spectre allant des données fermées aux données ouvertes.
Catégories sur le spectre des données
Nous avons utilisé le spectre pour proposer quatre catégories distinctes de licences de données :
Données ouvertes : « Ouvert signifie que quiconque peut librement accéder, utiliser, modifier et partager à toutes fins (sous réserve, au maximum, des exigences qui préservent la provenance et l'ouverture).»
Données d'accès public : Les données sont protégées par un accord de licence qui limite l'utilisation et la diffusion des données et/ou les modèles pour lesquels les données peuvent être utilisées. Cela pourrait inclure la manière dont les données peuvent être utilisées et à quelles fins, les exigences d'attribution, etc.
Données d'accès basées sur le groupe : une authentification est requise pour accéder aux données. Comme les données accessibles au public, les données sont également protégées par un accord de licence qui limite l'utilisation et la diffusion des données et/ou les modèles pour lesquels les données peuvent être utilisées.
Données d'accès nominatives et données d'accès internes : Un contrat spécial sera nécessaire pour articuler l'utilisation, l'attribution et les restrictions d'accès aux données. Cela sera explicitement attribué par un contrat et/ou une NDA, qui nécessitera un contact direct avec l’équipe juridique du GBAD. Nous avons regroupé ces deux éléments, car tous deux nécessiteront un contrat de données et nécessiteront un accès nommé (et authentifié) pour être utilisés.
Décisions nécessaires :
- Comment les utilisateurs seront-ils authentifiés ?
- Comment les groupes d'utilisateurs seront-ils authentifiés ?
- Quelle licence utiliserons-nous pour les modèles générés par les GBAD et les sorties de données générées par les modèles ?
Informations personnelles identifiables (PII)
Les informations personnelles identifiables (PII) sont toutes les informations qui peuvent être utilisées pour identifier une personne, une résidence ou une ferme. Cela peut inclure des noms, des adresses e-mail, la géolocalisation ou des dossiers vétérinaires par exemple. Quel que soit le type de données personnelles, les données qu'elles contiennent doivent être gérées avec soin.
Les informations personnelles doivent être protégées et sécurisées, avec des exigences d'accès restreintes. Selon le cas d'utilisation, les données peuvent être transformées pour protéger les informations personnelles. Par exemple, les géolocalisations peuvent progresser en granularité spatiale et les données peuvent être fournies par régions, zones ou pays. Les adresses e-mail, les numéros de téléphone et les noms des fermes peuvent être chiffrés lors de l'ingestion et supprimés des tables de données.
Infrastructure de stockage de données sécurisée
Étant donné que GBADs Knowledge Engine est un service cloud, toutes les données contenant des informations personnelles seront stockées dans un compartiment sécurisé, tel que le compartiment Amazon S3.
Licences
Les licences indiquent qui peut accéder aux données, comment les données peuvent être utilisées, par qui et à quelles fins et comment attribuer correctement les données.
Utilisations de la licence
Les licences disposent de 3 utilitaires pour les GBAD, chacun s'appuyant sur les principes CARE :
- Protéger les contributeurs de données Chaque fois que des données sont ajoutées aux GBAD, les détenteurs de données devront sélectionner une licence pour leurs données.
Il s'agit d'un mécanisme de partage CARE car les licences permettent aux contributeurs de données d'avoir le pouvoir de contrôler leurs données tout au long de leur cycle de vie et avec des licences qui dictent les restrictions d'utilisation des données, les données peuvent être utilisées pour le bénéfice collectif du détenteur des données individuellement, ou le groupe que représente le détenteur des données.
Les licences accessibles au public seront liées dans les métadonnées et les informations de citation/attribution seront diffusées avec l'ensemble de données.
Informer les utilisateurs de données Chaque ensemble de données fera l'objet d'une licence et les informations de licence et de citation seront disponibles dans les métadonnées de l'ensemble de données. Par conséquent, les utilisateurs de données seront informés de la manière dont ils peuvent utiliser les données auxquelles ils accèdent et de l’attribution qu’ils doivent utiliser.
Informer la vue système Les données ouvertes et publiques seront accessibles à tout utilisateur accédant au site, mais les données d'accès groupées ou nommées nécessiteront une authentification, et seront donc inaccessibles par défaut.
En d’autres termes, le point de vue du moteur de connaissances GBAD sera éclairé par l’accord de licence. Dans certains cas, cela peut signifier que même les métadonnées ne seront pas montrées aux utilisateurs non autorisés. Dans d'autres cas, les métadonnées descriptives peuvent être disponibles et les utilisateurs peuvent demander l'accès. Ce que le public, ou certains utilisateurs et groupes peuvent voir, sera régi par les choix de l'utilisateur des données.
Sélection de licence
Les détenteurs de données contribuant à des données ouvertes ou d'accès public doivent choisir un accord de licence pour leurs données. Il existe une série d’accords de licence de données parmi lesquels les détenteurs de données peuvent choisir. Ceux-ci inclus:
- Licences Creative Commons. L'outil de sélection de licence Creative Commons permet aux individus de sélectionner les fonctionnalités d'utilisation, d'adaptation et de partage, et fournit une licence qui reflète ces préférences.
- Licences Open Data Commons, y compris la Licence Open Data Commons Open Database (ODbl), la Open Licence d'attribution Data Commons et la Dédicace et licence du domaine public Open Data Commons (PDDL).
Directions futures
Dans certains cas, des accords de données privées devront être conclus avec une équipe juridique pour garantir que les restrictions d'utilisation, la sécurité et les informations de licence sont correctement convenues entre le détenteur des données et les GBAD.