Licencias de datos, seguridad y privacidad
Hay tres casos principales en los que las licencias de datos, la privacidad y la seguridad son importantes:
- Garantizar que utilizamos, almacenamos y compartimos datos de acuerdo con el acuerdo de licencia y que citamos los datos correctamente
- Almacenamiento seguro de datos privados para proteger la PII
- Atribuir una licencia a cualquier dato de salida creado por GBAD
Garantizar que los procesos involucrados en la seguridad y el acceso a los datos en los GBAD fomenten una comunidad de confianza con los contribuyentes y usuarios de datos.
Nota sobre datos privados:
Actualmente solo utilizamos datos públicos para modelos en GBAD. Anticipándonos a los datos privados, hemos conceptualizado y creado la infraestructura que respaldará la seguridad de los datos privados.
El Grupo de Trabajo 1 debe tener en cuenta las licencias y la privacidad al crear asociaciones y alianzas con posibles contribuyentes de datos.
'Apertura' de datos en un espectro
GBADs difunde y en algunos casos almacena datos que tienen diversas restricciones de acceso, uso y reutilización. No todos los datos pueden ser abiertos y la privacidad de los datos no es tan simple como tener datos abiertos o privados. Para fomentar el intercambio, es importante que los contribuyentes de datos tengan la opción de seleccionar cómo les gustaría que se usaran sus datos, para qué quieren que se usen y quién les gustaría que los usen. Los acuerdos de licencia de datos garantizan que el uso de datos no se confunda e informan a nuestro sistema sobre quién puede ver, descargar o usar datos.
**¡Incluso los datos definidos como "Abiertos" necesitan una licencia!** Cuando utiliza datos abiertos, aún necesita determinar cómo atribuir (o citar) correctamente el conjunto de datos. Además, los datos pueden considerarse abiertos, pero aún pueden tener restricciones sobre el uso que se les puede dar. Por ejemplo, algunas licencias de datos abiertos restringen el uso de datos con fines comerciales.
El Open Data Institute comunica esta idea poniendo los datos en un espectro que va desde datos cerrados hasta datos abiertos.
Categorías en el espectro de datos
Utilizamos el espectro para crear cuatro categorías de licencias de datos discretas:
Datos abiertos: "Abierto significa que cualquiera puede acceder, utilizar, modificar y compartir libremente para cualquier propósito (sujeto, como máximo, a requisitos que preserven la procedencia y la apertura)".
Datos de acceso público: Los datos están protegidos por un acuerdo de licencia que limita el uso y difusión de los datos y/o los modelos para los que se pueden utilizar los datos. Esto podría incluir la forma en que se pueden utilizar los datos y con qué fines, requisitos de atribución, etc.
Datos de acceso basados en grupos: se requiere autenticación para acceder a los datos. Al igual que los datos de acceso público, los datos también están protegidos por un acuerdo de licencia que limita el uso y la difusión de los datos y/o los modelos para los que se pueden utilizar.
Datos de acceso nombrados y datos de acceso interno: Se requerirá un contrato especial para articular el uso, la atribución y las restricciones de acceso de los datos. Esto será asignado explícitamente mediante un contrato y/o NDA, lo que requerirá contacto directo con el equipo legal de GBAD. Agrupamos estos dos porque ambos necesitarán un contrato de datos y requerirán acceso con nombre (y autenticado) para su uso.
Decisiones necesarias:
- ¿Cómo se autenticarán los usuarios?
- ¿Cómo se autenticarán los grupos de usuarios?
- ¿Qué licencia usaremos para los modelos generados por GBAD y las salidas de datos generadas por los modelos?
Información de identificación personal (PII)
La información de identificación personal (PII) es cualquier información que pueda usarse para identificar a una persona, residencia o granja. Esto podría incluir nombres, direcciones de correo electrónico, geolocalización o registros veterinarios, por ejemplo. Independientemente del tipo de PII, los datos que contiene deben gestionarse con cuidado.
La PII debe estar protegida y segura, con requisitos de acceso restringido. Dependiendo del caso de uso, los datos pueden transformarse para proteger la PII. Por ejemplo, las geolocalizaciones pueden aumentar en granularidad espacial y los datos pueden proporcionarse en regiones o zonas o por país. Las direcciones de correo electrónico, los números de teléfono y los nombres de las granjas se pueden cifrar durante la ingesta y eliminarse de las tablas de datos.
Infraestructura de almacenamiento de datos segura
Como GBADs Knowledge Engine es un servicio en la nube, cualquier dato que incluya PII se almacenará en un depósito seguro, como el depósito Amazon S3.
Licencia
Las licencias informan quién puede acceder a los datos, cómo se pueden utilizar los datos, quién puede utilizarlos y con qué fines y cómo atribuir correctamente los datos.
Usos de la licencia
Las licencias tienen 3 utilidades para GBAD, cada una de las cuales se basa en los principios CARE:
- Proteger a los contribuyentes de datos Cada vez que se aportan datos a GBAD, los titulares de datos deberán seleccionar una licencia para sus datos.
Este es un mecanismo de intercambio CARE porque las licencias permiten a los contribuyentes de datos tener la autoridad para controlar sus datos durante todo su ciclo de vida y con licencias que dictan las restricciones de uso de los datos, los datos se pueden utilizar para el beneficio colectivo del titular de los datos individualmente, o el grupo que representa el titular de los datos.
Las licencias disponibles públicamente estarán vinculadas en los metadatos y la información de citas/atribución se difundirá junto con el conjunto de datos.
Informar a los usuarios de datos Cada conjunto de datos tendrá licencia y la información sobre licencias y citas estará disponible en los metadatos del conjunto de datos. Por tanto, los usuarios de los datos serán informados de cómo pueden utilizar los datos a los que acceden y la atribución que deben utilizar.
Informar a la vista del sistema Los datos abiertos y públicos estarán disponibles para cualquier usuario que ingrese al sitio, pero los datos de acceso grupales o con nombre necesitarán autenticación y, por lo tanto, serán inaccesibles de forma predeterminada.
En otras palabras, la vista de GBADs Knowledge Engine estará informada por el acuerdo de licencia. En algunos casos, esto puede significar que ni siquiera los metadatos se mostrarán a usuarios no autorizados. En otros casos, los metadatos descriptivos pueden estar disponibles y los usuarios podrían solicitar acceso. Lo que el público, o ciertos usuarios y grupos puedan ver, se regirá por las elecciones del usuario de los datos.
Selección de licencia
Los titulares de datos que aporten datos abiertos o de acceso público deben elegir un acuerdo de licencia para sus datos. Existe un conjunto de acuerdos de licencia de datos entre los que los titulares de datos pueden elegir. Éstas incluyen:
- Licencias Creative Commons. La herramienta de selección de licencias Creative Commons permite a las personas seleccionar las características de uso, adaptación y uso compartido, y proporciona una licencia que refleja estas preferencias.
- Licencias Open Data Commons incluida la Licencia de base de datos abierta Open Data Commons (ODbl), la Licencia Open Data Commons, Licencia de atribución de Data Commons](https://opendatacommons.org/licenses/by/) y Licencia y dedicación de dominio público de Open Data Commons (PDDL).
Direcciones futuras
En algunos casos, será necesario celebrar acuerdos de datos privados con un equipo legal para garantizar que las restricciones de uso, la seguridad y la información de licencia se acuerden adecuadamente entre el titular de los datos y los GBAD.